From 2e0f9304a715a11c328e1130de8d256c5eefbc2e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Jul 2023 13:59:29 +0000
Subject: [PATCH 001/837] Fix importing of utils under benchmarks/

---
 xformers/benchmarks/benchmark_indexing.py          | 2 +-
 xformers/benchmarks/benchmark_mem_eff_attention.py | 2 +-
 xformers/benchmarks/benchmark_swiglu.py            | 2 +-
 xformers/benchmarks/benchmark_transformer.py       | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/benchmarks/benchmark_indexing.py b/xformers/benchmarks/benchmark_indexing.py
index cc23901d97..d2416cc8b6 100644
--- a/xformers/benchmarks/benchmark_indexing.py
+++ b/xformers/benchmarks/benchmark_indexing.py
@@ -9,7 +9,7 @@
 
 import torch
 from torch.utils import benchmark
-from utils import benchmark_main_helper
+from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops as xops
 
diff --git a/xformers/benchmarks/benchmark_mem_eff_attention.py b/xformers/benchmarks/benchmark_mem_eff_attention.py
index 8e532adf0e..9eda00c310 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention.py
@@ -10,7 +10,7 @@
 
 import torch
 from torch.utils import benchmark
-from utils import benchmark_main_helper
+from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops
 import xformers.ops.fmha as fmha
diff --git a/xformers/benchmarks/benchmark_swiglu.py b/xformers/benchmarks/benchmark_swiglu.py
index ffa413a954..fc59ac45de 100644
--- a/xformers/benchmarks/benchmark_swiglu.py
+++ b/xformers/benchmarks/benchmark_swiglu.py
@@ -11,7 +11,7 @@
 
 import torch
 from torch.utils import benchmark
-from utils import benchmark_main_helper
+from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops.swiglu_op as xsw
 
diff --git a/xformers/benchmarks/benchmark_transformer.py b/xformers/benchmarks/benchmark_transformer.py
index a8c077b0d8..5260f3f580 100644
--- a/xformers/benchmarks/benchmark_transformer.py
+++ b/xformers/benchmarks/benchmark_transformer.py
@@ -14,7 +14,7 @@
 from timm.models.vision_transformer import Attention as TimmAttention
 from timm.models.vision_transformer import Block as TimmBlock
 from torch.utils import benchmark
-from utils import benchmark_main_helper
+from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops as xops
 

From f35bb4ef0fc3bc9ceb3d4fe5d4849bf68454fb80 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 25 Jul 2023 15:14:42 +0000
Subject: [PATCH 002/837] Add composable_kernel as submodule

---
 .gitmodules                   | 4 ++++
 third_party/composable_kernel | 1 +
 2 files changed, 5 insertions(+)
 create mode 160000 third_party/composable_kernel

diff --git a/.gitmodules b/.gitmodules
index ab23324aec..5634c1e2e2 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -4,3 +4,7 @@
 [submodule "third_party/cutlass"]
 	path = third_party/cutlass
 	url = https://github.com/NVIDIA/cutlass.git
+[submodule "third_party/composable_kernel"]
+	path = third_party/composable_kernel
+	url = https://github.com/ROCmSoftwarePlatform/composable_kernel.git
+	branch = mha-train-develop
diff --git a/third_party/composable_kernel b/third_party/composable_kernel
new file mode 160000
index 0000000000..34b1c32087
--- /dev/null
+++ b/third_party/composable_kernel
@@ -0,0 +1 @@
+Subproject commit 34b1c32087cd29f856a6d62bb33ba64df36e46a6

From 5fd747085a981df97d4b06c3cbe01f26723494f3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 26 Jul 2023 12:38:52 +0000
Subject: [PATCH 003/837] Update to get_extensions in setup.py to add support
 for integrating rocm C++ codes

---
 setup.py                                      |  44 ++++-
 .../hip_fmha/attention_forward_generic.cpp    | 150 ++++++++++++++++++
 2 files changed, 191 insertions(+), 3 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp

diff --git a/setup.py b/setup.py
index b5741bb1a5..9cf6d61f1b 100644
--- a/setup.py
+++ b/setup.py
@@ -183,12 +183,22 @@ def get_flash_attention_extensions(cuda_version: int, extra_compile_args):
         )
     ]
 
+def rename_cpp_cu(cpp_files):
+    for entry in cpp_files:
+        shutil.copy(entry, os.path.splitext(entry)[0] + '.cu')
 
 def get_extensions():
     extensions_dir = os.path.join("xformers", "csrc")
 
-    sources = glob.glob(os.path.join(extensions_dir, "**", "*.cpp"), recursive=True)
-    source_cuda = glob.glob(os.path.join(extensions_dir, "**", "*.cu"), recursive=True)
+    sources = glob.glob(os.path.join(extensions_dir, "attention", "*.cpp"), recursive=False)
+    sources += glob.glob(os.path.join(extensions_dir, "attention", "autograd", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "attention", "cpu", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "indexing", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "swiglu", "*.cpp"), recursive=True)
+    
+    source_cuda = glob.glob(os.path.join(extensions_dir, "*.cu"), recursive=False)
+    source_cuda += glob.glob(os.path.join(extensions_dir, "attention", "cuda", "*.cu"), recursive=True)
+    source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "*.cpp"), recursive=True) 
 
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
     cutlass_dir = os.path.join(this_dir, "third_party", "cutlass", "include")
@@ -258,6 +268,35 @@ def get_extensions():
         ext_modules += get_flash_attention_extensions(
             cuda_version=cuda_version, extra_compile_args=extra_compile_args
         )
+    elif torch.cuda.is_available() and torch.version.hip: 
+       rename_cpp_cu(source_hip)
+       source_hip_cu = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "*.cu"), recursive=True) 
+       extension = CUDAExtension
+       sources += source_hip_cu
+       include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha', 
+                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include',
+                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' ,
+                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'device',
+                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'device' / 'impl',
+                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'element',
+                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'library' / 'include' / 'ck' / 'libary' / 'utility', 
+                       ] 
+       generator_flag = []
+       cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
+       extra_compile_args={
+            "cxx": ["-O3", "-std=c++17"] + generator_flag,
+            "nvcc":
+                [
+                    "-O3",
+                    "-std=c++17",
+                    "--offload-arch=gfx90a",
+                    "-U__CUDA_NO_HALF_OPERATORS__",
+                    "-U__CUDA_NO_HALF_CONVERSIONS__",
+                ]
+                + generator_flag
+                + cc_flag
+            ,
+       } 
 
     ext_modules.append(
         extension(
@@ -287,7 +326,6 @@ def get_extensions():
         },
     }
 
-
 class clean(distutils.command.clean.clean):  # type: ignore
     def run(self):
         if os.path.exists(".gitignore"):
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
new file mode 100644
index 0000000000..388340c106
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -0,0 +1,150 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <cmath>
+#include <mutex>
+
+#include <ATen/Context.h>
+#include <ATen/ScalarOps.h>
+#include <ATen/Tensor.h>
+#include <ATen/core/Generator.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <c10/util/Optional.h>
+#include <torch/library.h>
+
+namespace {
+/*
+  There are 2 modes for using this function.
+  (Mode BMHK) With all the heads having the same seqlen
+  (Mode 1MHK) `batch=1` with all tokens across batches concatenated
+*/
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+efficient_attention_forward_hip(
+    const at::Tensor& query, // [b, seqlen, num_heads, K]
+    const at::Tensor& key, // [b, seqlen, num_heads, K]
+    const at::Tensor& value, // [b, seqlen, num_heads, Kv]
+    const c10::optional<at::Tensor>& bias, // [b, num_heads, seqlen, seqlen]
+    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
+    // position of the first query token for batch $b
+    const c10::optional<at::Tensor>& seqstart_q,
+    // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
+    // position of the first key token for batch $b
+    const c10::optional<at::Tensor>& seqstart_k,
+    // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_q_,
+    double dropout_p, // attention matrix dropout probability
+    bool compute_logsumexp,
+    int64_t custom_mask_type,
+    c10::optional<double> scale,
+    const c10::optional<at::Tensor>& seqlen_k) {
+#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD
+  TORCH_CHECK(
+      false,
+      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD");
+#else
+
+  TORCH_CHECK(query.dim() == 4);
+  TORCH_CHECK(key.dim() == 4);
+  TORCH_CHECK(value.dim() == 4);
+
+  // Batch sizes
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // Sequence length
+  TORCH_CHECK(key.size(1) == value.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) == key.size(2));
+  TORCH_CHECK(query.size(2) == value.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+
+  int64_t max_seqlen_q, max_seqlen_k;
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    //CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    //CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
+    max_seqlen_q = *max_seqlen_q_;
+    max_seqlen_k = 0; // Will be set inside the kernel
+  } else {
+    max_seqlen_q = query.size(1);
+    max_seqlen_k = key.size(1);
+  }
+
+  //CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  //CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  //CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  //at::cuda::CUDAGuard device_guard(query.device());
+  //cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t num_heads = query.size(-2);
+  int64_t K = query.size(-1);
+  int64_t Kv = value.size(-1);
+
+  at::Tensor res;
+  at::Tensor logsumexp;
+
+  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+  at::PhiloxCudaState rng_engine_inputs;
+  if (use_dropout) {
+    at::CUDAGeneratorImpl* gen =
+        at::get_generator_or_default<at::CUDAGeneratorImpl>(
+            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    // if using dropout, we produce 1 random number for each element of the
+    // attention tensor
+    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+  }
+
+  // uint64_t -> int64_t bitwise casting as PyTorch don't support uint64_t
+  // so just fake it as a int64_t
+  int64_t seed, offset;
+  if (use_dropout) {
+    std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
+    std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
+  }
+
+  return std::make_tuple(res, logsumexp, seed, offset);
+#endif
+}
+
+// For testing in xFormers
+bool is_ck_fmha_available()
+{
+    std::cout << "ck fmha is really here!" << std::endl;
+    return(true); 
+}; 
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_hip"),
+      TORCH_FN(efficient_attention_forward_hip));
+}
+
+TORCH_LIBRARY_FRAGMENT(xformers, m) {
+  m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available() -> bool"));
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
+      TORCH_FN(is_ck_fmha_available));
+}

From f4079329380433388706d97bc6bb5447b4831be5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 26 Jul 2023 09:02:11 +0000
Subject: [PATCH 004/837] Fix the source collection in setup.py

---
 setup.py | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/setup.py b/setup.py
index 9cf6d61f1b..76c0d274e6 100644
--- a/setup.py
+++ b/setup.py
@@ -191,13 +191,16 @@ def get_extensions():
     extensions_dir = os.path.join("xformers", "csrc")
 
     sources = glob.glob(os.path.join(extensions_dir, "attention", "*.cpp"), recursive=False)
-    sources += glob.glob(os.path.join(extensions_dir, "attention", "autograd", "*.cpp"), recursive=True)
-    sources += glob.glob(os.path.join(extensions_dir, "attention", "cpu", "*.cpp"), recursive=True)
-    sources += glob.glob(os.path.join(extensions_dir, "indexing", "*.cpp"), recursive=True)
-    sources += glob.glob(os.path.join(extensions_dir, "swiglu", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "attention", "autograd", "**", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "attention", "cpu", "**", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "indexing", "**", "*.cpp"), recursive=True)
+    sources += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cpp"), recursive=True)
     
+    ## avoid the temporary .cu file under xformers/csrc/attention/hip_fmha are included
     source_cuda = glob.glob(os.path.join(extensions_dir, "*.cu"), recursive=False)
-    source_cuda += glob.glob(os.path.join(extensions_dir, "attention", "cuda", "*.cu"), recursive=True)
+    source_cuda += glob.glob(os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True)
+    source_cuda += glob.glob(os.path.join(extensions_dir, "indexing", "**", "*.cu"), recursive=True)
+    source_cuda += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True)
     source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "*.cpp"), recursive=True) 
 
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")

From 6303e2a37b69be81ce8c19e7a7dfd39b2fb561ed Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 1 Aug 2023 23:01:27 +0000
Subject: [PATCH 005/837] First C++ addings for ck flash attention successfully
 compiled through CUDAExtentsion

---
 .../hip_fmha/attention_backward_generic.cpp   | 373 ++++++++++++++++
 .../hip_fmha/attention_backward_generic.cu    | 371 ++++++++++++++++
 .../hip_fmha/attention_forward_generic.cpp    | 302 +++++++++++--
 .../hip_fmha/attention_forward_generic.cu     | 400 ++++++++++++++++++
 .../hip_fmha/ck_fmha_batched_backward.h       | 245 +++++++++++
 .../hip_fmha/ck_fmha_batched_forward.h        | 260 ++++++++++++
 .../hip_fmha/ck_fmha_batched_infer.h          | 224 ++++++++++
 .../hip_fmha/ck_fmha_grouped_backward.h       | 246 +++++++++++
 .../hip_fmha/ck_fmha_grouped_forward.h        | 255 +++++++++++
 .../hip_fmha/ck_fmha_grouped_infer.h          | 223 ++++++++++
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 369 ++++++++++++++++
 11 files changed, 3242 insertions(+), 26 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_backward_generic.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_generic.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_util.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
new file mode 100644
index 0000000000..9abfe09e8d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -0,0 +1,373 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <cmath>
+
+#include <ATen/Context.h>
+#include <ATen/ScalarOps.h>
+#include <ATen/Tensor.h>
+#include <ATen/TensorOperators.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <torch/library.h>
+
+#include "ck_fmha_batched_backward.h"
+#include "ck_fmha_grouped_backward.h"
+#include "ck_fmha_util.h"
+
+namespace {
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
+mem_efficient_attention_backward_hip(
+    const at::Tensor& grad_out,
+    const at::Tensor& query,
+    const at::Tensor& key,
+    const at::Tensor& value,
+    const c10::optional<at::Tensor>& bias, // additive attention bias
+    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
+    // position of the first query token for batch $b
+    const c10::optional<at::Tensor>& seqstart_q,
+    // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
+    // position of the first key token for batch $b
+    const c10::optional<at::Tensor>& seqstart_k,
+    const c10::optional<at::Tensor>& seqlen_k,
+    const at::Tensor& logsumexp,
+    const at::Tensor& out,
+    double dropout_p, // dropout probability
+    int64_t rng_seed, // seed using for generating random numbers for dropout
+    int64_t rng_offset, // offset into random number sequence
+    int64_t custom_mask_type,
+    const c10::optional<double> scale) {
+#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD
+  TORCH_CHECK(
+      false,
+      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
+#else
+  at::globalContext().alertNotDeterministic(
+      "mem_efficient_attention_backward_cutlass");
+
+  // ndim
+  TORCH_CHECK(query.dim() == grad_out.dim());
+  TORCH_CHECK(query.dim() == key.dim());
+  TORCH_CHECK(query.dim() == value.dim());
+  TORCH_CHECK(query.dim() == 4);
+
+  // batch size
+  TORCH_CHECK(query.size(0) == grad_out.size(0));
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // seqlen
+  TORCH_CHECK(key.size(1) == value.size(1));
+  TORCH_CHECK(query.size(1) == grad_out.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) == key.size(2));
+  TORCH_CHECK(query.size(2) == value.size(2));
+  TORCH_CHECK(query.size(2) == grad_out.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+  TORCH_CHECK(value.size(3) == grad_out.size(3));
+
+  // handle potentially non-contiguous grad_out through a copy
+  CHECK_NOSPARSE_CONTIGUOUS_CUDA(grad_out);
+
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  TORCH_CHECK(
+      !(seqstart_q.has_value() && bias.has_value()),
+      "seqstart_q + bias not supported");
+
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
+  }
+
+  at::cuda::CUDAGuard device_guard(query.device());
+  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t num_heads = query.size(2);
+  int64_t K = query.size(3);
+  int64_t Kv = value.size(3);
+
+  at::Tensor grad_q, grad_k, grad_v, grad_bias;
+
+  grad_q = at::empty(query.sizes(), query.options());
+  grad_k = at::empty(key.sizes(), key.options());
+  grad_v = at::empty(value.sizes(), value.options());
+
+  at::Tensor randvals;
+
+  at::PhiloxCudaState rng_engine_inputs(rng_seed, rng_offset);
+
+  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.grad_out_ptr = grad_out.data_ptr();
+    p.grad_q_ptr = grad_q.data_ptr();
+    p.grad_k_ptr = grad_k.data_ptr();
+    p.grad_v_ptr = grad_v.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.grad_out_strides = {
+        static_cast<int>(grad_out.stride(0)),
+        static_cast<int>(grad_out.stride(1)),
+        static_cast<int>(grad_out.stride(2)),
+        static_cast<int>(grad_out.stride(3))};
+
+    if (bias.has_value()) {
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.attn_bias_ptr = nullptr;
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    randvals = at::empty(
+        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2)),
+        static_cast<int>(randvals.stride(3))};
+    p.randvals_ptr = randvals.data_ptr();
+
+    p.logsumexp_ptr = logsumexp.data_ptr();
+
+    p.rng_seed = rng_seed;
+    p.rng_offset = rng_offset;
+  };
+
+  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    p.grad_out_strides = {
+        static_cast<int>(grad_out.stride(1)),
+        static_cast<int>(grad_out.stride(2)),
+        static_cast<int>(grad_out.stride(3))};
+
+    if (bias.has_value()) {
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    };
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    randvals = at::empty(
+        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2))};
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
+
+    if (seqlen_k.has_value())
+      p.host_seqlen_k.resize(p.num_batches);
+
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_q.data(),
+        seqstart_q->data_ptr(),
+        (p.num_batches + 1) * sizeof(int),
+        hipMemcpyDeviceToHost));
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_k.data(),
+        seqstart_k->data_ptr(),
+        (p.num_batches + 1) * sizeof(int),
+        hipMemcpyDeviceToHost));
+    if (seqlen_k.has_value())
+      FMHA_HIP_CHECK(hipMemcpy(
+          p.host_seqlen_k.data(),
+          seqlen_k->data_ptr(),
+          p.num_batches * sizeof(int),
+          hipMemcpyDeviceToHost));
+
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
+    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
+
+    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
+
+    char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
+    char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
+    char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
+
+    for (int i = 0; i < p.num_batches; i++) {
+      int32_t tmp_q_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
+      int32_t tmp_k_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
+      int32_t tmp_v_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
+      int32_t tmp_o_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
+      int32_t tmp_grad_o_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.grad_out_strides[0], grad_out.scalar_type());
+      int32_t tmp_logsumexp_stride =
+          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
+      int32_t tmp_randvals_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.randvals_strides[1] +
+              p.host_seqstart_k[i] * p.randvals_strides[2],
+          randvals.scalar_type());
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
+      p.grad_q_ptrs.push_back(reinterpret_cast<void*>(grad_q_ptr));
+
+      q_ptr = q_ptr + tmp_q_stride;
+      grad_q_ptr = grad_q_ptr + tmp_q_stride;
+
+      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
+      p.grad_k_ptrs.push_back(reinterpret_cast<void*>(grad_k_ptr));
+      k_ptr = k_ptr + tmp_k_stride;
+      grad_k_ptr = grad_k_ptr + tmp_k_stride;
+
+      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
+      p.grad_v_ptrs.push_back(reinterpret_cast<void*>(grad_v_ptr));
+      v_ptr = v_ptr + tmp_k_stride;
+      grad_v_ptr = grad_v_ptr + tmp_k_stride;
+
+      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
+      p.grad_out_ptrs.push_back(reinterpret_cast<void*>(grad_out_ptr));
+      out_ptr = out_ptr + tmp_o_stride;
+      grad_out_ptr = grad_out_ptr + tmp_o_stride;
+
+      if (bias.has_value()) {
+        int32_t tmp_bias_stride = get_size_in_bytes(
+            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
+                p.host_seqstart_k[i] * p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
+        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
+      };
+
+      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
+      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
+
+      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
+      randvals_ptr = randvals_ptr + tmp_randvals_stride;
+    }
+  };
+
+  DISPATCH_TYPES(query.scalar_type(), [&]() {
+    if (!seqstart_q.has_value()) { // input is batched
+      BatchedBackwardParams batched_backward_params;
+
+      set_batched_backward_params(batched_backward_params);
+      batched_backward<scalar_t>(batched_backward_params, stream);
+    } else { // input is grouped
+      GroupedBackwardParams grouped_backward_params;
+
+      set_grouped_backward_params(grouped_backward_params);
+      grouped_backward<scalar_t>(grouped_backward_params, stream);
+    }
+  });
+
+  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
+#endif
+} // namespace
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_hip"),
+      TORCH_FN(mem_efficient_attention_backward_hip));
+}
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cu b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cu
new file mode 100644
index 0000000000..2756763ce6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cu
@@ -0,0 +1,371 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <cmath>
+
+#include <ATen/Context.h>
+#include <ATen/ScalarOps.h>
+#include <ATen/Tensor.h>
+#include <ATen/TensorOperators.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <torch/library.h>
+
+#include "ck_fmha_util.h"
+#include "ck_fmha_batched_backward.h"
+#include "ck_fmha_grouped_backward.h"
+
+namespace {
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
+mem_efficient_attention_backward_hip(
+    const at::Tensor& grad_out,
+    const at::Tensor& query,
+    const at::Tensor& key,
+    const at::Tensor& value,
+    const c10::optional<at::Tensor>& bias, // additive attention bias
+    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
+    // position of the first query token for batch $b
+    const c10::optional<at::Tensor>& seqstart_q,
+    // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
+    // position of the first key token for batch $b
+    const c10::optional<at::Tensor>& seqstart_k,
+    const c10::optional<at::Tensor>& seqlen_k,
+    const at::Tensor& logsumexp,
+    const at::Tensor& out,
+    double dropout_p, // dropout probability
+    int64_t rng_seed, // seed using for generating random numbers for dropout
+    int64_t rng_offset, // offset into random number sequence
+    int64_t custom_mask_type,
+    const c10::optional<double> scale) {
+#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD
+  TORCH_CHECK(
+      false,
+      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
+#else
+  at::globalContext().alertNotDeterministic(
+      "mem_efficient_attention_backward_cutlass");
+
+  // ndim
+  TORCH_CHECK(query.dim() == grad_out.dim());
+  TORCH_CHECK(query.dim() == key.dim());
+  TORCH_CHECK(query.dim() == value.dim());
+  TORCH_CHECK(query.dim() == 4);
+
+  // batch size
+  TORCH_CHECK(query.size(0) == grad_out.size(0));
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // seqlen
+  TORCH_CHECK(key.size(1) == value.size(1));
+  TORCH_CHECK(query.size(1) == grad_out.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) == key.size(2));
+  TORCH_CHECK(query.size(2) == value.size(2));
+  TORCH_CHECK(query.size(2) == grad_out.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+  TORCH_CHECK(value.size(3) == grad_out.size(3));
+
+  // handle potentially non-contiguous grad_out through a copy
+  CHECK_NOSPARSE_CONTIGUOUS_CUDA(grad_out);
+
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  TORCH_CHECK(
+      !(seqstart_q.has_value() && bias.has_value()),
+      "seqstart_q + bias not supported");
+
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
+  }
+
+  at::cuda::CUDAGuard device_guard(query.device());
+  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t num_heads = query.size(2);
+  int64_t K = query.size(3);
+  int64_t Kv = value.size(3);
+
+  at::Tensor grad_q, grad_k, grad_v, grad_bias;
+
+  grad_q = at::empty(query.sizes(), query.options());
+  grad_k = at::empty(key.sizes(), key.options());
+  grad_v = at::empty(value.sizes(), value.options());
+
+  at::Tensor randvals;
+
+  at::PhiloxCudaState rng_engine_inputs(rng_seed, rng_offset);
+
+  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.grad_out_ptr = grad_out.data_ptr();
+    p.grad_q_ptr = grad_q.data_ptr();
+    p.grad_k_ptr = grad_k.data_ptr();
+    p.grad_v_ptr = grad_v.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.grad_out_strides = {
+        static_cast<int>(grad_out.stride(0)),
+        static_cast<int>(grad_out.stride(1)),
+        static_cast<int>(grad_out.stride(2)),
+        static_cast<int>(grad_out.stride(3))};
+
+    if (bias.has_value()) {
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.attn_bias_ptr = nullptr;
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    randvals = at::empty(
+        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2)),
+        static_cast<int>(randvals.stride(3))};
+    p.randvals_ptr = randvals.data_ptr();
+
+    p.logsumexp_ptr = logsumexp.data_ptr();
+  };
+
+  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    p.grad_out_strides = {
+        static_cast<int>(grad_out.stride(1)),
+        static_cast<int>(grad_out.stride(2)),
+        static_cast<int>(grad_out.stride(3))};
+
+    if (bias.has_value()) {
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    };
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    randvals = at::empty(
+        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2))};
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
+
+    if (seqlen_k.has_value())
+      p.host_seqlen_k.resize(p.num_batches);
+
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_q.data(),
+        seqstart_q->data_ptr(),
+        (p.num_batches + 1) * sizeof(int),
+        hipMemcpyDeviceToHost));
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_k.data(),
+        seqstart_k->data_ptr(),
+        (p.num_batches + 1) * sizeof(int),
+        hipMemcpyDeviceToHost));
+    if (seqlen_k.has_value())
+      FMHA_HIP_CHECK(hipMemcpy(
+          p.host_seqlen_k.data(),
+          seqlen_k->data_ptr(),
+          p.num_batches * sizeof(int),
+          hipMemcpyDeviceToHost));
+
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
+    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
+
+    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
+
+    char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
+    char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
+    char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
+
+    for (int i = 0; i < p.num_batches; i++) {
+      int32_t tmp_q_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
+      int32_t tmp_k_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
+      int32_t tmp_v_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
+      int32_t tmp_o_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
+      int32_t tmp_grad_o_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.grad_out_strides[0],
+          grad_out_.scalar_type());
+      int32_t tmp_logsumexp_stride =
+          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
+      int32_t tmp_randvals_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.randvals_strides[1] +
+              p.host_seqstart_k[i] * p.randvals_strides[2],
+          randvals.scalar_type());
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
+      p.grad_q_ptrs.push_back(reinterpret_cast<void*>(grad_q_ptr));
+
+      q_ptr = q_ptr + tmp_q_stride;
+      grad_q_ptr = grad_q_ptr + tmp_q_stride;
+
+      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
+      p.grad_k_ptrs.push_back(reinterpret_cast<void*>(grad_k_ptr));
+      k_ptr = k_ptr + tmp_k_stride;
+      grad_k_ptr = grad_k_ptr + tmp_k_stride;
+
+      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
+      p.grad_v_ptrs.push_back(reinterpret_cast<void*>(grad_v_ptr));
+      v_ptr = v_ptr + tmp_k_stride;
+      grad_v_ptr = grad_v_ptr + tmp_k_stride;
+
+      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
+      p.grad_out_ptrs.push_back(reinterpret_cast<void*>(grad_out_ptr));
+      out_ptr = out_ptr + tmp_o_stride;
+      grad_out_ptr = grad_out_ptr + tmp_o_stride;
+
+      if (bias.has_value()) {
+        int32_t tmp_bias_stride = get_size_in_bytes(
+            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
+                p.host_seqstart_k[i] * p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
+        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
+      };
+
+      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
+      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
+
+      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
+      randvals_ptr = randvals_ptr + tmp_randvals_stride;
+    }
+  };
+
+  DISPATCH_TYPES(query.scalar_type(), [&]() {
+    if (!seqstart_q.has_value()) { // input is batched
+      BatchedBackwardParams batched_backward_params;
+
+      set_batched_backward_params(batched_backward_params);
+      batched_backward<scalar_t>(batched_backward_params, stream)
+    } else { // input is grouped
+      GroupedBackwardParams grouped_backward_params;
+
+      set_grouped_backward_params(grouped_backward_params);
+      grouped_backward<scalar_t>(grouped_backward_params, stream);
+    }
+  });
+
+  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
+#endif
+} // namespace
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_hip"),
+      TORCH_FN(mem_efficient_attention_backward_hip));
+}
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 388340c106..667d633704 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -18,7 +18,14 @@
 #include <c10/util/Optional.h>
 #include <torch/library.h>
 
+#include "ck_fmha_batched_forward.h"
+#include "ck_fmha_batched_infer.h"
+#include "ck_fmha_grouped_forward.h"
+#include "ck_fmha_grouped_infer.h"
+#include "ck_fmha_util.h"
+
 namespace {
+
 /*
   There are 2 modes for using this function.
   (Mode BMHK) With all the heads having the same seqlen
@@ -67,30 +74,23 @@ efficient_attention_forward_hip(
   // Embedding per head
   TORCH_CHECK(query.size(3) == key.size(3));
 
-  int64_t max_seqlen_q, max_seqlen_k;
   TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
   if (seqstart_q.has_value()) {
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    //CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
-    //CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
     TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
     TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-    TORCH_CHECK(max_seqlen_q_.has_value());
-    max_seqlen_q = *max_seqlen_q_;
-    max_seqlen_k = 0; // Will be set inside the kernel
-  } else {
-    max_seqlen_q = query.size(1);
-    max_seqlen_k = key.size(1);
-  }
+  };
 
-  //CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  //CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  //CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
-  //at::cuda::CUDAGuard device_guard(query.device());
-  //cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
@@ -99,8 +99,9 @@ efficient_attention_forward_hip(
   int64_t K = query.size(-1);
   int64_t Kv = value.size(-1);
 
-  at::Tensor res;
+  at::Tensor out;
   at::Tensor logsumexp;
+  at::Tensor randvals;
 
   const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
   at::PhiloxCudaState rng_engine_inputs;
@@ -115,24 +116,273 @@ efficient_attention_forward_hip(
     rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
   }
 
+  auto set_batched_infer_params = [&](BatchedInferParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.attn_bias_ptr = nullptr;
+
+    p.custom_mask_type = custom_mask_type;
+  };
+
+  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+    set_batched_infer_params(p);
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    randvals = at::empty(
+        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2)),
+        static_cast<int>(randvals.stride(3))};
+    p.randvals_ptr = randvals.data_ptr();
+
+    logsumexp = at::empty(
+        {B, num_heads, M}, query.options().dtype(at::ScalarType::Float));
+    p.logsumexp_ptr = logsumexp.data_ptr();
+  };
+
+  auto set_grouped_infer_params = [&](GroupedInferParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    };
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
+
+    if (seqlen_k.has_value())
+      p.host_seqlen_k.resize(p.num_batches);
+
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_q.data(),
+        seqstart_q->data_ptr(),
+        (p.num_batches + 1) * sizeof(int32_t),
+        hipMemcpyDeviceToHost));
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_k.data(),
+        seqstart_k->data_ptr(),
+        (p.num_batches + 1) * sizeof(int32_t),
+        hipMemcpyDeviceToHost));
+    if (seqlen_k.has_value())
+      FMHA_HIP_CHECK(hipMemcpy(
+          p.host_seqlen_k.data(),
+          seqlen_k->data_ptr(),
+          p.num_batches * sizeof(int32_t),
+          hipMemcpyDeviceToHost));
+
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
+
+    for (int i = 0; i < p.num_batches; i++) {
+      int32_t tmp_q_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
+      int32_t tmp_k_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
+      int32_t tmp_v_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
+      int32_t tmp_o_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
+      q_ptr = q_ptr + tmp_q_stride;
+
+      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
+      k_ptr = k_ptr + tmp_k_stride;
+
+      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
+      v_ptr = v_ptr + tmp_k_stride;
+
+      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
+      out_ptr = out_ptr + tmp_o_stride;
+
+      if (bias.has_value()) {
+        int32_t tmp_bias_stride = get_size_in_bytes(
+            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
+                p.host_seqstart_k[i] * p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
+        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
+      };
+    }
+  };
+
+  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+    set_grouped_infer_params(p);
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    logsumexp =
+        at::empty({num_heads, M}, query.options().dtype(at::ScalarType::Float));
+
+    randvals = at::empty(
+        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2))};
+
+    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
+
+    for (int i = 0; i < p.num_batches; i++) {
+      int32_t tmp_logsumexp_stride =
+          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
+      int32_t tmp_randvals_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.randvals_strides[1] +
+              p.host_seqstart_k[i] * p.randvals_strides[2],
+          randvals.scalar_type());
+
+      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
+      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
+
+      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
+      randvals_ptr = randvals_ptr + tmp_randvals_stride;
+    };
+  };
+
   // uint64_t -> int64_t bitwise casting as PyTorch don't support uint64_t
   // so just fake it as a int64_t
   int64_t seed, offset;
-  if (use_dropout) {
-    std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
-    std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
-  }
 
-  return std::make_tuple(res, logsumexp, seed, offset);
+  DISPATCH_TYPES(query.scalar_type(), [&]() {
+    out = at::empty(
+        {B, M, num_heads, Kv},
+        query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
+
+    if (!use_dropout && !compute_logsumexp) { // work is inference
+      if (!seqstart_q.has_value()) { // input is batched
+        BatchedInferParams batched_infer_params;
+
+        set_batched_infer_params(batched_infer_params);
+        batched_infer<scalar_t>(batched_infer_params, stream);
+      } else { // input is grouped
+        GroupedInferParams grouped_infer_params;
+
+        set_grouped_infer_params(grouped_infer_params);
+        grouped_infer<scalar_t>(grouped_infer_params, stream);
+      }
+    } else { // work is training forward
+      if (!seqstart_q.has_value()) { // input is batched
+        BatchedForwardParams batched_forward_params;
+
+        set_batched_forward_params(batched_forward_params);
+        batched_forward<scalar_t>(batched_forward_params, stream);
+      } else { // input is grouped
+        GroupedForwardParams grouped_forward_params;
+
+        set_grouped_forward_params(grouped_forward_params);
+        grouped_forward<scalar_t>(grouped_forward_params, stream);
+      }
+
+      std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
+      std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
+    }
+  });
+
+  return std::make_tuple(out, logsumexp, seed, offset);
 #endif
 }
 
 // For testing in xFormers
-bool is_ck_fmha_available()
-{
-    std::cout << "ck fmha is really here!" << std::endl;
-    return(true); 
-}; 
+bool is_ck_fmha_available() {
+  std::cout << "ck fmha is really here!" << std::endl;
+  return (true);
+};
 
 } // namespace
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cu b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cu
new file mode 100644
index 0000000000..d951dbcbf4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cu
@@ -0,0 +1,400 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <cmath>
+#include <mutex>
+
+#include <ATen/Context.h>
+#include <ATen/ScalarOps.h>
+#include <ATen/Tensor.h>
+#include <ATen/core/Generator.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <c10/util/Optional.h>
+#include <torch/library.h>
+
+#include "ck_fmha_util.h"
+#include "ck_fmha_batched_infer.h"
+#include "ck_fmha_batched_forward.h"
+#include "ck_fmha_grouped_infer.h"
+#include "ck_fmha_grouped_forward.h"
+
+namespace {
+
+/*
+  There are 2 modes for using this function.
+  (Mode BMHK) With all the heads having the same seqlen
+  (Mode 1MHK) `batch=1` with all tokens across batches concatenated
+*/
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+efficient_attention_forward_hip(
+    const at::Tensor& query, // [b, seqlen, num_heads, K]
+    const at::Tensor& key, // [b, seqlen, num_heads, K]
+    const at::Tensor& value, // [b, seqlen, num_heads, Kv]
+    const c10::optional<at::Tensor>& bias, // [b, num_heads, seqlen, seqlen]
+    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
+    // position of the first query token for batch $b
+    const c10::optional<at::Tensor>& seqstart_q,
+    // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
+    // position of the first key token for batch $b
+    const c10::optional<at::Tensor>& seqstart_k,
+    // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_q_,
+    double dropout_p, // attention matrix dropout probability
+    bool compute_logsumexp,
+    int64_t custom_mask_type,
+    c10::optional<double> scale,
+    const c10::optional<at::Tensor>& seqlen_k) {
+#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD
+  TORCH_CHECK(
+      false,
+      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD");
+#else
+
+  TORCH_CHECK(query.dim() == 4);
+  TORCH_CHECK(key.dim() == 4);
+  TORCH_CHECK(value.dim() == 4);
+
+  // Batch sizes
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // Sequence length
+  TORCH_CHECK(key.size(1) == value.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) == key.size(2));
+  TORCH_CHECK(query.size(2) == value.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+  };
+
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t num_heads = query.size(-2);
+  int64_t K = query.size(-1);
+  int64_t Kv = value.size(-1);
+
+  at::Tensor out;
+  at::Tensor logsumexp;
+  at::Tensor randvals;
+
+  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+  at::PhiloxCudaState rng_engine_inputs;
+  if (use_dropout) {
+    at::CUDAGeneratorImpl* gen =
+        at::get_generator_or_default<at::CUDAGeneratorImpl>(
+            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    // if using dropout, we produce 1 random number for each element of the
+    // attention tensor
+    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+  }
+
+  auto set_batched_infer_params = [&](BatchedInferParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.attn_bias_ptr = nullptr;
+
+    p.custom_mask_type = custom_mask_type;
+  };
+
+  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+    set_batched_infer_params(p);
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    randvals = at::empty(
+        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2)),
+        static_cast<int>(randvals.stride(3))};
+    p.randvals_ptr = randvals.data_ptr();
+
+    logsumexp = at::empty(
+        {B, num_heads, M}, query.options().dtype(at::ScalarType::Float));
+    p.logsumexp_ptr = logsumexp.data_ptr();
+  };
+
+  auto set_grouped_infer_params = [&](GroupedInferParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.num_heads = num_heads;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      const at::Tensor bias_4d_view =
+          get_bias_4d_view(*bias, B, num_heads, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    };
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
+
+    if (seqlen_k.has_value())
+      p.host_seqlen_k.resize(p.num_batches);
+
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_q.data(),
+        seqstart_q->data_ptr(),
+        (p.num_batches + 1) * sizeof(int32_t),
+        hipMemcpyDeviceToHost));
+    FMHA_HIP_CHECK(hipMemcpy(
+        p.host_seqstart_k.data(),
+        seqstart_k->data_ptr(),
+        (p.num_batches + 1) * sizeof(int32_t),
+        hipMemcpyDeviceToHost));
+    if (seqlen_k.has_value())
+      FMHA_HIP_CHECK(hipMemcpy(
+          p.host_seqlen_k.data(),
+          seqlen_k->data_ptr(),
+          p.num_batches * sizeof(int32_t),
+          hipMemcpyDeviceToHost));
+
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
+
+    for (int i = 0; i < p.num_batches; i++) {
+      int32_t tmp_q_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
+      int32_t tmp_k_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
+      int32_t tmp_v_stride = get_size_in_bytes(
+          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
+      int32_t tmp_o_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
+      q_ptr = q_ptr + tmp_q_stride;
+
+      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
+      k_ptr = k_ptr + tmp_k_stride;
+
+      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
+      v_ptr = v_ptr + tmp_k_stride;
+
+      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
+      out_ptr = out_ptr + tmp_o_stride;
+
+      if (bias.has_value()) {
+        int32_t tmp_bias_stride = get_size_in_bytes(
+            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
+                p.host_seqstart_k[i] * p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
+        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
+      };
+    }
+  };
+
+  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+    set_grouped_infer_params(p);
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.rng_engine_inputs = rng_engine_inputs;
+
+    logsumexp =
+        at::empty({num_heads, M}, query.options().dtype(at::ScalarType::Float));
+
+    randvals = at::empty(
+        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+    p.randvals_strides = {
+        static_cast<int>(randvals.stride(0)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(2))};
+
+    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
+
+    for (int i = 0; i < p.num_batches; i++) {
+      int32_t tmp_logsumexp_stride =
+          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
+      int32_t tmp_randvals_stride = get_size_in_bytes(
+          p.host_seqstart_q[i] * p.randvals_strides[1] +
+              p.host_seqstart_k[i] * p.randvals_strides[2],
+          randvals.scalar_type());
+
+      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
+      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
+
+      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
+      randvals_ptr = randvals_ptr + tmp_randvals_stride;
+    };
+  };
+
+  // uint64_t -> int64_t bitwise casting as PyTorch don't support uint64_t
+  // so just fake it as a int64_t
+  int64_t seed, offset;
+
+  DISPATCH_TYPES(query.scalar_type(),  [&]() {
+    out = at::empty(
+        {B, M, num_heads, Kv},
+        query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
+
+    if (!use_dropout && !compute_logsumexp) { // work is inference
+      if (!seqstart_q.has_value()) { // input is batched
+        BatchedInferParams batched_infer_params;
+
+        set_batched_infer_params(batched_infer_params);
+        batched_infer<scalar_t>(batched_infer_params, stream);
+      } else { // input is grouped
+        GroupedInferParams grouped_infer_params;
+
+        set_grouped_infer_params(grouped_infer_params);
+        grouped_infer<scalar_t>(grouped_infer_params, stream);
+      }
+    } else { // work is training forward
+      if (!seqstart_q.has_value()) { // input is batched
+        BatchedForwardParams batched_forward_params;
+
+        set_batched_forward_params(batched_forward_params);
+        batched_forward<scalar_t>(batched_forward_params, stream)
+      } else { // input is grouped
+        GroupedForwardParams grouped_forward_params;
+
+        set_grouped_forward_params(grouped_forward_params);
+        grouped_forward<scalar_t>(grouped_forward_params, stream);
+      }
+
+      std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
+      std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
+    }
+  });
+
+  return std::make_tuple(out, logsumexp, seed, offset);
+#endif
+}
+
+// For testing in xFormers
+bool is_ck_fmha_available() {
+  std::cout << "ck fmha is really here!" << std::endl;
+  return (true);
+};
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_hip"),
+      TORCH_FN(efficient_attention_forward_hip));
+}
+
+TORCH_LIBRARY_FRAGMENT(xformers, m) {
+  m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available() -> bool"));
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
+      TORCH_FN(is_ck_fmha_available));
+}
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
new file mode 100644
index 0000000000..34969a513e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -0,0 +1,245 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_kloop_v1.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+
+#include "ck_fmha_util.h"
+
+template <typename scalar_t, int32_t custom_mask_type>
+void batched_backward_mask_type_dispatched(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+
+template <typename scalar_t>
+void batched_backward(BatchedBackwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    batched_backward_mask_type_dispatched<scalar_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    batched_backward_mask_type_dispatched<scalar_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    batched_backward_mask_type_dispatched<scalar_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
+
+template <typename scalar_t, int32_t custom_mask_type = 0>
+void batched_backward_mask_type_dispatched(
+    BatchedBackwardParams& param,
+    hipStream_t stream) {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+  using Scale = ck::tensor_operation::element_wise::Scale;
+
+  using QKVElementOp = PassThrough;
+  using YElementOp = PassThrough;
+
+  using InputDataType = scalar_t;
+  using OutputDataType = scalar_t;
+  using GemmDataType = scalar_t;
+  using AccDataType = F32;
+  using ShuffleDataType = F32;
+  using LSEDataType = F32;
+  using ZDataType = unsigned short;
+  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc1BiasDataType = ck::Tuple<>;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock =
+      MaxVectorSizeForType<scalar_t>::value;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecQ =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecK =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecV =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecY =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr bool Deterministic = false;
+
+  using DeviceOpInstance = ck::tensor_operation::device::
+      DeviceBatchedMultiheadAttentionBackward_Kloop_Xdl_CShuffle_V1<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          InputDataType,
+          OutputDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          ShuffleDataType,
+          QKVElementOp,
+          QKVElementOp,
+          Scale,
+          QKVElementOp,
+          YElementOp,
+          GemmSpec,
+          TensorSpecQ,
+          TensorSpecK,
+          TensorSpecV,
+          TensorSpecY,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          64, // KPerBlock
+          64, // Gemm1NPerBlock
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          2, // Gemm1NXdlPerWave
+          2, // Gemm2NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          1, // CShuffleMXdlPerWavePerShuffle
+          2, // CShuffleNXdlPerWavePerShuffle
+          S<1,
+            32,
+            1,
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          CShuffleBlockTransferScalarPerVector_NPerBlock, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          MaskingSpec, // MaskingSpecialization
+          Deterministic>;
+
+  std::vector<ck::index_t> q_gs_ms_ks_lengths{
+      param.B, param.num_heads, param.M, param.K};
+  std::vector<ck::index_t> q_gs_ms_ks_strides{
+      param.q_strides[0],
+      param.q_strides[2],
+      param.q_strides[1],
+      param.q_strides[3]};
+
+  std::vector<ck::index_t> k_gs_ns_ks_lengths{
+      param.B, param.num_heads, param.N, param.K};
+  std::vector<ck::index_t> k_gs_ns_ks_strides{
+      param.k_strides[0],
+      param.k_strides[2],
+      param.k_strides[1],
+      param.k_strides[3]};
+
+  std::vector<ck::index_t> v_gs_os_ns_lengths{
+      param.B, param.num_heads, param.Kv, param.N};
+  std::vector<ck::index_t> v_gs_os_ns_strides{
+      param.v_strides[0],
+      param.v_strides[2],
+      param.v_strides[3],
+      param.v_strides[1]};
+
+  std::vector<ck::index_t> y_gs_ms_os_lengths{
+      param.B, param.num_heads, param.M, param.Kv};
+  std::vector<ck::index_t> y_gs_ms_os_strides{
+      param.out_strides[0],
+      param.out_strides[2],
+      param.out_strides[1],
+      param.out_strides[3]};
+
+  std::vector<ck::index_t> ygrad_gs_ms_os_lengths{
+      param.B, param.num_heads, param.M, param.Kv};
+
+  std::vector<ck::index_t> z_gs_ms_ns_lengths{
+      param.B, param.num_heads, param.M, param.N};
+  std::vector<ck::index_t> z_gs_ms_ns_strides{
+      param.randvals_strides[0],
+      param.randvals_strides[1],
+      param.randvals_strides[2],
+      param.randvals_strides[3]};
+
+  std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
+
+  float alpha = 1.f / std::sqrt(param.K);
+
+  auto op = DeviceOpInstance{};
+  auto invoker = op.MakeInvoker();
+
+  auto arg_ptr = op.MakeArgumentPointer(
+      param.q_ptr,
+      param.k_ptr,
+      param.randvals_ptr,
+      param.v_ptr,
+      param.out_ptr,
+      param.logsumexp_ptr,
+      param.grad_out_ptr,
+      param.grad_q_ptr,
+      param.grad_k_ptr,
+      param.grad_v_ptr,
+      {}, // std::array<void*, 1> p_acc0_biases;
+      {}, // std::array<void*, 1> p_acc1_biases;
+      q_gs_ms_ks_lengths,
+      q_gs_ms_ks_strides,
+      k_gs_ns_ks_lengths,
+      k_gs_ns_ks_strides,
+      z_gs_ms_ns_lengths,
+      z_gs_ms_ns_strides,
+      v_gs_os_ns_lengths,
+      v_gs_os_ns_strides,
+      y_gs_ms_os_lengths,
+      y_gs_ms_os_strides,
+      lse_gs_ms_lengths,
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc0_biases_gs_ms_ns_lengths},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc0_biases_gs_ms_ns_strides},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc1_biases_gs_ms_os_lengths},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc1_biases_gs_ms_os_strides},
+      QKVElementOp{},
+      QKVElementOp{},
+      Scale{alpha},
+      QKVElementOp{},
+      YElementOp{},
+      param.dropout_prob,
+      std::tuple<unsigned long long, unsigned long long>(
+          param.rng_seed, param.rng_offset));
+
+  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+  if (!op.IsSupportedArgument(arg_ptr.get())) {
+    std::ostringstream ostr;
+    ostr << op.GetTypeString() << " does not support this problem";
+
+    throw std::runtime_error(ostr.str());
+  }
+
+  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
new file mode 100644
index 0000000000..f2f551ac7b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -0,0 +1,260 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v1.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+
+#include "ck_fmha_util.h"
+
+template <typename scalar_t, int32_t custom_mask_type>
+void batched_forward_mask_type_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+
+template <typename scalar_t>
+void batched_forward(BatchedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    batched_forward_mask_type_dispatched<scalar_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    batched_forward_mask_type_dispatched<scalar_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    batched_forward_mask_type_dispatched<scalar_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
+
+template <typename scalar_t, int32_t custom_mask_type = 0>
+void batched_forward_mask_type_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc1BiasDataType = ck::Tuple<>;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr bool Deterministic = false;
+
+  using DeviceOpInstance = ck::tensor_operation::device::
+      DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V1<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          32, // Gemm1NPerBlock
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          1, // Gemm1NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<16, 16, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          2,
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          1, // CShuffleNXdlPerWavePerShuffle
+          S<1,
+            64,
+            1,
+            4>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          MaskingSpec, // MaskingSpecialization
+          Deterministic>;
+
+  float p_dropout = 1 - param.dropout_prob;
+  ZDataType p_dropout_in_16bits = ZDataType(std::floor(p_dropout * 65535.0));
+  float rp_dropout = 1.0 / p_dropout;
+  float alpha = 1.f / std::sqrt(param.K);
+
+  std::vector<ck::index_t> a_gs_ms_ks_lengths{
+      param.B, param.num_heads, param.M, param.K};
+  std::vector<ck::index_t> a_gs_ms_ks_strides{
+      param.q_strides[0],
+      param.q_strides[2],
+      param.q_strides[1],
+      param.q_strides[3]};
+
+  std::vector<ck::index_t> b0_gs_ns_ks_lengths{
+      param.B, param.num_heads, param.N, param.K};
+  std::vector<ck::index_t> b0_gs_ns_ks_strides{
+      param.k_strides[0],
+      param.k_strides[2],
+      param.k_strides[1],
+      param.k_strides[3]};
+
+  // to be changed to b1_gs_ns_os_lengths
+  std::vector<ck::index_t> b1_gs_os_ns_lengths{
+      param.B, param.num_heads, param.N, param.Kv};
+  std::vector<ck::index_t> b1_gs_os_ns_strides{
+      param.v_strides[0],
+      param.v_strides[2],
+      param.v_strides[3],
+      param.v_strides[1]};
+
+  std::vector<ck::index_t> c_gs_ms_os_lengths{
+      param.B, param.num_heads, param.M, param.Kv};
+  std::vector<ck::index_t> c_gs_ms_os_strides{
+      param.out_strides[0],
+      param.out_strides[2],
+      param.out_strides[1],
+      param.out_strides[3]};
+
+  std::vector<ck::index_t> z_gs_ms_ns_lengths{
+      param.B, param.num_heads, param.M, param.N};
+  std::vector<ck::index_t> z_gs_ms_ns_strides{
+      param.randvals_strides[0],
+      param.randvals_strides[1],
+      param.randvals_strides[2],
+      param.randvals_strides[3]};
+
+  std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
+
+  auto a_element_op = AElementOp{};
+  auto b0_element_op = B0ElementOp{};
+  auto acc0_element_op = Acc0ElementOp{alpha};
+  auto b1_element_op = B1ElementOp{};
+  auto c_element_op = CElementOp{};
+
+  // TODO, how to initialize seed, offset
+  const uint64_t seed = 1;
+  const uint64_t offset = 0;
+
+  auto op = DeviceOpInstance{};
+  auto invoker = op.MakeInvoker();
+  auto arg_ptr = op.MakeArgumentPointer(
+      param.q_ptr,
+      param.k_ptr,
+      param.v_ptr,
+      param.out_ptr,
+      param.randvals_ptr,
+      param.logsumexp_ptr,
+      {}, // std::array<void*, 1> p_acc0_biases;
+      {}, // std::array<void*, 1> p_acc1_biases;
+      a_gs_ms_ks_lengths,
+      a_gs_ms_ks_strides,
+      b0_gs_ns_ks_lengths,
+      b0_gs_ns_ks_strides,
+      b1_gs_os_ns_lengths,
+      b1_gs_os_ns_strides,
+      c_gs_ms_os_lengths,
+      c_gs_ms_os_strides,
+      z_gs_ms_ns_lengths,
+      z_gs_ms_ns_strides,
+      lse_gs_ms_lengths,
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc0_biases_gs_ms_ns_lengths},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc0_biases_gs_ms_ns_strides},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc1_biases_gs_ms_os_lengths},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc1_biases_gs_ms_os_strides},
+      a_element_op,
+      b0_element_op,
+      acc0_element_op,
+      b1_element_op,
+      c_element_op,
+      param.dropout_prob, // dropout ratio
+      {seed, offset}); // dropout random seed and offset, offset should be at
+                       // least the number of elements on a thread
+  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+  if (!op.IsSupportedArgument(arg_ptr.get())) {
+    std::ostringstream ostr;
+
+    ostr << op.GetTypeString() << " does not support this problem";
+
+    throw std::runtime_error(ostr.str());
+  }
+
+  invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
new file mode 100644
index 0000000000..cc8129a804
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -0,0 +1,224 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_gemm_softmax_gemm_permute_xdl_cshuffle.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+
+#include "ck_fmha_util.h"
+
+template <typename scalar_t, int32_t custom_mask_type>
+void batched_infer_mask_type_dispatched(
+    BatchedInferParams& param,
+    hipStream_t stream);
+
+template <typename scalar_t>
+void batched_infer(BatchedInferParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    batched_infer_mask_type_dispatched<scalar_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    batched_infer_mask_type_dispatched<scalar_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    batched_infer_mask_type_dispatched<scalar_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
+
+template <typename scalar_t, int32_t custom_mask_type = 0>
+void batched_infer_mask_type_dispatched(
+    BatchedInferParams& param,
+    hipStream_t stream) {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc1BiasDataType = ck::Tuple<>;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+
+  using DeviceOpInstance = ck::tensor_operation::device::
+      DeviceBatchedGemmSoftmaxGemmPermute_Xdl_CShuffle<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          64, // Gemm1NPerBlock
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          2, // Gemm1NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<16, 16, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          4,
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          2, // CShuffleNXdlPerWavePerShuffle
+          S<1,
+            32,
+            1,
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          MaskingSpec>; // MaskingSpecialization
+
+  std::vector<ck::index_t> a_gs_ms_ks_lengths{
+      param.B, param.num_heads, param.M, param.K};
+  std::vector<ck::index_t> a_gs_ms_ks_strides{
+      param.q_strides[0],
+      param.q_strides[2],
+      param.q_strides[1],
+      param.q_strides[3]};
+  std::vector<ck::index_t> b0_gs_ns_ks_lengths{
+      param.B, param.num_heads, param.N, param.K};
+  std::vector<ck::index_t> b0_gs_ns_ks_strides{
+      param.k_strides[0],
+      param.k_strides[2],
+      param.k_strides[1],
+      param.k_strides[3]};
+
+  // to be changed to b1_gs_ns_os_lengths
+  std::vector<ck::index_t> b1_gs_os_ns_lengths{
+      param.B, param.num_heads, param.N, param.Kv};
+  std::vector<ck::index_t> b1_gs_os_ns_strides{
+      param.v_strides[0],
+      param.v_strides[2],
+      param.v_strides[3],
+      param.v_strides[1]};
+
+  std::vector<ck::index_t> c_gs_ms_os_lengths{
+      param.B, param.num_heads, param.M, param.Kv};
+  std::vector<ck::index_t> c_gs_ms_os_strides{
+      param.out_strides[0],
+      param.out_strides[2],
+      param.out_strides[1],
+      param.out_strides[3]};
+
+  auto a_element_op = AElementOp{};
+  auto b0_element_op = B0ElementOp{};
+  auto acc0_element_op = Acc0ElementOp{1.0f};
+  auto b1_element_op = B1ElementOp{};
+  auto c_element_op = CElementOp{};
+
+  auto op = DeviceOpInstance{};
+  auto invoker = op.MakeInvoker();
+  auto arg_ptr = op.MakeArgumentPointer(
+      param.q_ptr,
+      param.k_ptr,
+      param.v_ptr,
+      param.out_ptr,
+      {}, // std::array<void*, 1> p_acc0_biases;
+      {}, // std::array<void*, 1> p_acc1_biases;
+      a_gs_ms_ks_lengths,
+      a_gs_ms_ks_strides,
+      b0_gs_ns_ks_lengths,
+      b0_gs_ns_ks_strides,
+      b1_gs_os_ns_lengths,
+      b1_gs_os_ns_strides,
+      c_gs_ms_os_lengths,
+      c_gs_ms_os_strides,
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc0_biases_gs_ms_ns_lengths},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc0_biases_gs_ms_ns_strides},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc1_biases_gs_ms_os_lengths},
+      {}, // std::array<std::vector<ck::index_t>,
+          // 1>{acc1_biases_gs_ms_os_strides},
+      a_element_op,
+      b0_element_op,
+      acc0_element_op,
+      b1_element_op,
+      c_element_op);
+
+  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+  if (!op.IsSupportedArgument(arg_ptr.get())) {
+    std::ostringstream ostr;
+    ostr << op.GetTypeString() << " does not support this problem";
+
+    throw std::runtime_error(ostr.str());
+  }
+
+  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
new file mode 100644
index 0000000000..fb4879fc0b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -0,0 +1,246 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_kloop_v1.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_kloop_v2.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include <ck/utility/sequence.hpp>
+
+#include "ck_fmha_util.h"
+
+template <typename scalar_t, int32_t custom_mask_type>
+void grouped_backward_mask_type_dispatched(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
+
+template <typename scalar_t>
+void grouped_backward(GroupedBackwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    grouped_backward_mask_type_dispatched<scalar_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    grouped_backward_mask_type_dispatched<scalar_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    grouped_backward_mask_type_dispatched<scalar_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
+
+template <typename scalar_t, int32_t custom_mask_type = 0>
+void grouped_backward_mask_type_dispatched(
+    GroupedBackwardParams& param,
+    hipStream_t stream) {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+  using Scale = ck::tensor_operation::element_wise::Scale;
+
+  using QKVElementOp = PassThrough;
+  using YElementOp = PassThrough;
+
+  using InputDataType = scalar_t;
+  using OutputDataType = scalar_t;
+  using GemmDataType = scalar_t;
+  using AccDataType = F32;
+  using ShuffleDataType = F32;
+  using LSEDataType = F32;
+  using ZDataType = unsigned short;
+  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc1BiasDataType = ck::Tuple<>;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock =
+      MaxVectorSizeForType<scalar_t>::value;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecQ =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecK =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecV =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecY =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr bool Deterministic = false;
+
+  using DeviceOpInstance = ck::tensor_operation::device::
+      DeviceGroupedMultiheadAttentionBackward_Kloop_Xdl_CShuffle_V1<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          InputDataType,
+          OutputDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          ShuffleDataType,
+          QKVElementOp,
+          QKVElementOp,
+          Scale,
+          QKVElementOp,
+          YElementOp,
+          GemmSpec,
+          TensorSpecQ,
+          TensorSpecK,
+          TensorSpecV,
+          TensorSpecY,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          64, // KPerBlock
+          64, // Gemm1NPerBlock
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          2, // Gemm1NXdlPerWave
+          2, // Gemm2NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          1, // CShuffleMXdlPerWavePerShuffle
+          2, // CShuffleNXdlPerWavePerShuffle
+          S<1,
+            32,
+            1,
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          CShuffleBlockTransferScalarPerVector_NPerBlock, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          MaskingSpec, // MaskingSpecialization
+          Deterministic>;
+
+  std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+  for (std::size_t i = 0; i < param.num_batches; i++) {
+    int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
+    int N = param.host_seqstart_k.empty()
+        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+        : param.host_seqlen_k[i];
+    int K = param.K;
+    int Kv = param.Kv;
+    int G1 = param.num_heads;
+
+    std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1, M, K};
+    std::vector<ck::index_t> q_gs_ms_ks_strides{
+        0, param.q_strides[0], param.q_strides[1], param.q_strides[2]};
+
+    std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1, N, K};
+    std::vector<ck::index_t> k_gs_ns_ks_strides{
+        0, param.k_strides[0], param.k_strides[1], param.k_strides[2]};
+
+    // to be changed to v_gs_ns_os_lengths
+    std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1, Kv, N};
+    std::vector<ck::index_t> v_gs_os_ns_strides{
+        0, param.v_strides[0], param.v_strides[2], param.v_strides[1]};
+
+    std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1, M, Kv};
+    std::vector<ck::index_t> y_gs_ms_os_strides{
+        0, param.out_strides[0], param.out_strides[1], param.out_strides[2]};
+
+    std::vector<ck::index_t> z_gs_ms_ns_lengths{1, G1, M, N};
+    std::vector<ck::index_t> z_gs_ms_ns_strides{
+        0,
+        param.randvals_strides[0],
+        param.randvals_strides[1],
+        param.randvals_strides[2]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+    std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
+
+    problem_descs.push_back({
+        q_gs_ms_ks_lengths,
+        q_gs_ms_ks_strides,
+        k_gs_ns_ks_lengths,
+        k_gs_ns_ks_strides,
+        z_gs_ms_ns_lengths,
+        z_gs_ms_ns_strides,
+        v_gs_os_ns_lengths,
+        v_gs_os_ns_strides,
+        y_gs_ms_os_lengths,
+        y_gs_ms_os_strides,
+        lse_gs_ms_lengths,
+        lse_gs_ms_strides,
+        {}, // std::array<std::vector<ck::index_t>,
+            // 1>{acc0_biases_gs_ms_ns_lengths},
+        {}, // std::array<std::vector<ck::index_t>,
+            // 1>{acc0_biases_gs_ms_ns_strides},
+        {}, // std::array<std::vector<ck::index_t>,
+            // 1>{acc1_biases_gs_ms_os_lengths},
+        {}, // std::array<std::vector<ck::index_t>,
+            // 1>{acc1_biases_gs_ms_os_strides},
+    });
+  }
+
+  float alpha = 1.0f / std::sqrt(param.K);
+
+  auto op = DeviceOpInstance{};
+  auto invoker = op.MakeInvoker();
+
+  auto arg_ptr = op.MakeArgumentPointer(
+      param.q_ptrs,
+      param.k_ptrs,
+      param.randvals_ptrs,
+      param.v_ptrs,
+      param.out_ptrs,
+      param.logsumexp_ptrs,
+      param.grad_out_ptrs,
+      param.grad_q_ptrs,
+      param.grad_k_ptrs,
+      param.grad_v_ptrs,
+      {}, // std::array<void*, 1> p_acc0_biases;
+      {}, // std::array<void*, 1> p_acc1_biases;
+      problem_descs,
+      QKVElementOp{},
+      QKVElementOp{},
+      Scale{alpha},
+      QKVElementOp{},
+      YElementOp{},
+      param.dropout_prob,
+      std::tuple<unsigned long long, unsigned long long>(
+          param.rng_seed, param.rng_offset));
+
+  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+  if (!op.IsSupportedArgument(arg_ptr.get())) {
+    std::ostringstream ostr;
+    ostr << op.GetTypeString() << " does not support this problem";
+
+    throw std::runtime_error(ostr.str());
+  }
+
+  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
new file mode 100644
index 0000000000..d7b980f005
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -0,0 +1,255 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v1.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include <ck/utility/sequence.hpp>
+
+#include "ck_fmha_util.h"
+
+template <typename scalar_t, int32_t custom_mask_type>
+void grouped_forward_mask_type_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+
+template <typename scalar_t>
+void grouped_forward(GroupedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    grouped_forward_mask_type_dispatched<scalar_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    grouped_forward_mask_type_dispatched<scalar_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    grouped_forward_mask_type_dispatched<scalar_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
+
+template <typename scalar_t, int32_t custom_mask_type = 0>
+void grouped_forward_mask_type_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc1BiasDataType = ck::Tuple<>;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr bool Deterministic = true;
+
+  using DeviceOpInstance = ck::tensor_operation::device::
+      DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V1<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          32, // Gemm1NPerBlock
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          1, // Gemm1NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<16, 16, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          2,
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          1, // CShuffleNXdlPerWavePerShuffle
+          S<1,
+            64,
+            1,
+            4>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          MaskingSpec, // MaskingSpecialization
+          Deterministic>;
+
+  std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+  for (std::size_t i = 0; i < param.num_batches; i++) {
+    int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+    int N = param.host_seqlen_k.empty()
+        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+        : param.host_seqlen_k[i];
+    int K = param.K;
+    int Kv = param.Kv;
+    int G1 = param.num_heads;
+
+    std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
+    std::vector<ck::index_t> a_gs_ms_ks_strides{
+        0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+    std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1, N, K};
+    std::vector<ck::index_t> b0_gs_ns_ks_strides{
+        0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+    // to be changed to b1_gs_ns_os_lengths
+    std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1, Kv, N};
+    std::vector<ck::index_t> b1_gs_os_ns_strides{
+        0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+    std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1, M, Kv};
+    std::vector<ck::index_t> c_gs_ms_os_strides{
+        0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+    std::vector<ck::index_t> z_gs_ms_ns_lengths{1, G1, M, N};
+    std::vector<ck::index_t> z_gs_ms_ns_strides{
+        0,
+        param.randvals_strides[0],
+        param.randvals_strides[1],
+        param.randvals_strides[2]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+    std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
+
+    problem_descs.push_back(
+        {a_gs_ms_ks_lengths,
+         a_gs_ms_ks_strides,
+         b0_gs_ns_ks_lengths,
+         b0_gs_ns_ks_strides,
+         b1_gs_os_ns_lengths,
+         b1_gs_os_ns_strides,
+         c_gs_ms_os_lengths,
+         c_gs_ms_os_strides,
+         z_gs_ms_ns_lengths,
+         z_gs_ms_ns_strides,
+         lse_gs_ms_lengths,
+         lse_gs_ms_strides,
+         {}, // acc0_biases_gs_ms_ns_lengths
+         {}, // acc0_biases_gs_ms_ns_strides
+         {}, // acc1_biases_gs_ms_os_lengths
+         {}}); // acc1_biases_gs_ms_os_strides
+  }
+
+  // TODO, how to initialize seed, offset
+  const uint64_t seed = 1;
+  const uint64_t offset = 0;
+
+  float alpha = 1.0f;
+
+  auto a_element_op = AElementOp{};
+  auto b0_element_op = B0ElementOp{};
+  auto acc0_element_op = Acc0ElementOp{alpha};
+  auto b1_element_op = B1ElementOp{};
+  auto c_element_op = CElementOp{};
+
+  auto op = DeviceOpInstance{};
+  auto invoker = op.MakeInvoker();
+
+  auto arg_ptr = op.MakeArgumentPointer(
+      param.q_ptrs,
+      param.k_ptrs,
+      param.v_ptrs,
+      param.out_ptrs,
+      param.randvals_ptrs,
+      param.logsumexp_ptrs,
+      {}, // p_acc0_biases
+      {}, // p_acc1_biases
+      problem_descs,
+      a_element_op,
+      b0_element_op,
+      acc0_element_op,
+      b1_element_op,
+      c_element_op,
+      param.dropout_prob, // dropout ratio
+      {seed, offset});
+
+  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+  if (!op.IsSupportedArgument(arg_ptr.get())) {
+    std::ostringstream ostr;
+
+    ostr << op.GetTypeString() << " does not support this problem";
+
+    throw std::runtime_error(ostr.str());
+  }
+
+  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
new file mode 100644
index 0000000000..741d6656c1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -0,0 +1,223 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_gemm_softmax_gemm_permute_xdl_cshuffle.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include <ck/utility/sequence.hpp>
+
+#include "ck_fmha_util.h"
+
+template <typename scalar_t, int32_t custom_mask_typ>
+void grouped_infer_mask_type_dispatched(
+    GroupedInferParams& param,
+    hipStream_t stream);
+
+template <typename scalar_t>
+void grouped_infer(GroupedInferParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    grouped_infer_mask_type_dispatched<scalar_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    grouped_infer_mask_type_dispatched<scalar_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    grouped_infer_mask_type_dispatched<scalar_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
+
+template <typename scalar_t, int32_t custom_mask_type = 0>
+void grouped_infer_mask_type_dispatched(
+    GroupedInferParams& param,
+    hipStream_t stream) {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc1BiasDataType = ck::Tuple<>;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+
+  using DeviceOpInstance = ck::tensor_operation::device::
+      DeviceGroupedGemmSoftmaxGemmPermute_Xdl_CShuffle<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          64, // Gemm1NPerBlock
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          2, // Gemm1NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          8,
+          8,
+          true,
+          S<16, 16, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          4,
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          2, // CShuffleNXdlPerWavePerShuffle
+          S<1,
+            32,
+            1,
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          MaskingSpec>; // MaskingSpecialization
+
+  std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+  for (std::size_t i = 0; i < param.num_batches; i++) {
+    int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+    int N = param.host_seqlen_k.empty()
+        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+        : param.host_seqlen_k[i];
+    int K = param.K;
+    int Kv = param.Kv;
+    int G0 = 1;
+    int G1 = param.num_heads;
+
+    std::vector<ck::index_t> a_gs_ms_ks_lengths{G0, G1, M, K};
+    std::vector<ck::index_t> a_gs_ms_ks_strides{
+        0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+    std::vector<ck::index_t> b0_gs_ns_ks_lengths{G0, G1, N, K};
+    std::vector<ck::index_t> b0_gs_ns_ks_strides{
+        0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+    // to be changed to b1_gs_ns_os_lengths
+    std::vector<ck::index_t> b1_gs_os_ns_lengths{G0, G1, Kv, N};
+    std::vector<ck::index_t> b1_gs_os_ns_strides = {
+        0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+    std::vector<ck::index_t> c_gs_ms_os_lengths{G0, G1, M, Kv};
+    std::vector<ck::index_t> c_gs_ms_os_strides = {
+        0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+    problem_descs.push_back(
+        {a_gs_ms_ks_lengths,
+         a_gs_ms_ks_strides,
+         b0_gs_ns_ks_lengths,
+         b0_gs_ns_ks_strides,
+         b1_gs_os_ns_lengths,
+         b1_gs_os_ns_strides,
+         c_gs_ms_os_lengths,
+         c_gs_ms_os_strides,
+         {}, // acc0_biases_gs_ms_ns_lengths
+         {}, // acc0_biases_gs_ms_ns_strides
+         {}, // acc1_biases_gs_ms_os_lengths
+         {}}); // acc1_biases_gs_ms_os_strides
+  }
+
+  auto a_element_op = AElementOp{};
+  auto b0_element_op = B0ElementOp{};
+  auto acc0_element_op = Acc0ElementOp{1.0f};
+  auto b1_element_op = B1ElementOp{};
+  auto c_element_op = CElementOp{};
+
+  auto op = DeviceOpInstance{};
+  auto invoker = op.MakeInvoker();
+  auto arg_ptr = op.MakeArgumentPointer(
+      param.q_ptrs,
+      param.k_ptrs,
+      param.v_ptrs,
+      param.out_ptrs,
+      {}, // p_acc0_biases
+      {}, // p_acc1_biases
+      problem_descs,
+      a_element_op,
+      b0_element_op,
+      acc0_element_op,
+      b1_element_op,
+      c_element_op);
+
+  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+  if (!op.IsSupportedArgument(arg_ptr.get())) {
+    std::ostringstream ostr;
+
+    ostr << op.GetTypeString() << " does not support this problem";
+
+    throw std::runtime_error(ostr.str());
+  }
+
+  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
new file mode 100644
index 0000000000..8606e6a93f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -0,0 +1,369 @@
+#pragma once
+
+#include <array>
+#include <cstdint>
+#include <iostream>
+#include <sstream>
+#include <stdexcept>
+
+#include <torch/torch.h>
+
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/sequence.hpp>
+
+// Here flag can be a constant, variable or function call
+#define FMHA_HIP_CHECK(ret_or_call)                                          \
+  do {                                                                       \
+    hipError_t _tmpVal;                                                      \
+    if ((_tmpVal = ret_or_call) != hipSuccess) {                             \
+      std::ostringstream ostr;                                               \
+      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
+           << hipGetErrorString(_tmpVal);                                    \
+      throw std::runtime_error(ostr.str());                                  \
+    }                                                                        \
+  } while (0)
+
+#define XFORMERS_CHECK(COND, ERR)          \
+  if (!(COND)) {                           \
+    std::ostringstream ostr;               \
+    ostr << "'" #COND "' failed: " << ERR; \
+    throw std::runtime_error(ostr.str());  \
+  }
+
+#define DISPATCH_TYPES(InDataType, func)                                 \
+  {                                                                      \
+    if (InDataType == at::ScalarType::Half) {                            \
+      using scalar_t = ck::half_t;                                       \
+      func();                                                            \
+    } else if (InDataType == at::ScalarType::BFloat16) {                 \
+      using scalar_t = ck::bhalf_t;                                      \
+      func();                                                            \
+    } else {                                                             \
+      XFORMERS_CHECK(                                                    \
+          false, "Only half & bf16 input type supported at the moment"); \
+    }                                                                    \
+  }
+
+template <typename scalar_t>
+struct CkToAtenDtype;
+
+template <>
+struct CkToAtenDtype<ck::half_t> {
+  using scalar_t = ck::half_t;
+
+  static constexpr __host__ at::ScalarType atScalarType() {
+    return at::ScalarType::Half;
+  }
+};
+
+template <>
+struct CkToAtenDtype<ck::bhalf_t> {
+  using scalar_t = ck::bhalf_t;
+
+  static constexpr __host__ at::ScalarType atScalarType() {
+    return at::ScalarType::BFloat16;
+  }
+};
+
+template <>
+struct CkToAtenDtype<float> {
+  using scalar_t = float;
+
+  static constexpr __host__ at::ScalarType atScalarType() {
+    return at::ScalarType::Float;
+  }
+};
+
+#define CHECK_NOSPARSE_CONTIGUOUS_CUDA(TENSOR)                            \
+  XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
+  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+  XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
+
+#define CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(TENSOR)                        \
+  XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
+  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+  XFORMERS_CHECK(                                                         \
+      TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
+
+static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
+  if (dtype == at::ScalarType::Float) {
+    return n * 4;
+  } else if (dtype == at::ScalarType::Half) {
+    return n * 2;
+  } else if (dtype == at::ScalarType::BFloat16) {
+    return n * 2;
+  } else if (dtype == at::ScalarType::Short) {
+    return n * 2;
+  } else if (dtype == at::ScalarType::Int) {
+    return n * 4;
+  } else if (dtype == at::ScalarType::Byte) {
+    return n;
+  }
+  return 0;
+}
+
+/**
+ * kernels expect 4D bias/bias.grad with shape
+ * (batch_sz, n_heads, n_queries, n_keys). common bias shapes users may pass
+ * are:
+ * - (n_queries, n_keys)
+ * - (batch_sz * n_heads, n_queries, n_keys)
+ * - (batch_sz, n_heads, n_queries, n_keys)
+ *
+ * expand the bias as needed - be careful to only create a view with different
+ * shape/strides, no copies allowed.
+ */
+inline at::Tensor get_bias_4d_view(
+    const at::Tensor& bias,
+    int batch_sz,
+    int n_heads,
+    int n_queries,
+    int n_keys) {
+  TORCH_CHECK(
+      bias.size(-2) == n_queries,
+      "bias.size(-2) != n_queries: ",
+      bias.size(-2),
+      " != ",
+      n_queries);
+  TORCH_CHECK(
+      bias.size(-1) == n_keys,
+      "bias.size(-1) != n_keys: ",
+      bias.size(-1),
+      " != ",
+      n_keys);
+  switch (bias.dim()) {
+    case 2: // (n_queries, n_keys) - broadcast across all batches and heads
+      return bias.unsqueeze(0).unsqueeze(0).expand(
+          {batch_sz, n_heads, n_queries, n_keys});
+    case 3: // (batch_sz * n_heads, n_queries, n_keys) - just reshape
+      TORCH_CHECK(bias.size(0) == batch_sz * n_heads);
+      return bias.view({batch_sz, n_heads, n_queries, n_keys});
+    case 4: // (batch_sz, n_heads, n_queries, n_keys) - do nothing
+      TORCH_CHECK(bias.size(0) == batch_sz);
+      TORCH_CHECK(bias.size(1) == n_heads)
+      return bias;
+    default:
+      TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
+  }
+}
+
+template <typename scalar_t>
+struct MaxVectorSizeForType {
+  static constexpr int value = 4;
+};
+
+template <>
+struct MaxVectorSizeForType<ck::half_t> {
+  static constexpr int value = 8;
+};
+
+template <>
+struct MaxVectorSizeForType<ck::bhalf_t> {
+  static constexpr int value = 8;
+};
+
+struct SimpleDeviceMem {
+  SimpleDeviceMem() = delete;
+  SimpleDeviceMem(std::size_t mem_size) : p_mem_{} {
+    FMHA_HIP_CHECK(hipMalloc(static_cast<void**>(&p_mem_), mem_size));
+  }
+  void* GetDeviceBuffer() {
+    return p_mem_;
+  }
+  ~SimpleDeviceMem() {
+    (void)hipFree(p_mem_);
+  }
+
+  void* p_mem_;
+};
+
+struct BatchedInferParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+
+  // BMHK mode strides
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> out_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* out_ptr;
+};
+
+struct BatchedForwardParams : public BatchedInferParams {
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // completely contiguous
+  void* logsumexp_ptr;
+
+  // BHMN mode strides, completely contiguous
+  std::array<int32_t, 4> randvals_strides;
+  void* randvals_ptr;
+};
+
+struct GroupedInferParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<void*> out_ptrs;
+
+  uint8_t custom_mask_type;
+};
+
+struct GroupedForwardParams : public GroupedInferParams {
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // completely contiguous
+  std::vector<void*> logsumexp_ptrs;
+
+  // HMN mode strides, completely contiguous
+  std::array<int, 3> randvals_strides;
+  std::vector<void*> randvals_ptrs;
+};
+
+struct BatchedBackwardParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+
+  // BMHK mode strides, last-dim contiguous
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+  std::array<int, 4> out_strides;
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+  const void* out_ptr;
+
+  uint8_t custom_mask_type;
+
+  std::array<int, 4> grad_out_strides;
+
+  const void* grad_out_ptr;
+
+  void* grad_q_ptr;
+  void* grad_k_ptr;
+  void* grad_v_ptr;
+  // void* grad_bias_ptr;
+
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // completely contiguous
+  const void* logsumexp_ptr;
+
+  // BHMN mode strides, completely contiguous
+  std::array<int, 4> randvals_strides;
+  void* randvals_ptr;
+
+  int64_t rng_seed;
+  int64_t rng_offset;
+};
+
+struct GroupedBackwardParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<const void*> out_ptrs;
+
+  uint8_t custom_mask_type;
+
+  std::array<int, 3> grad_out_strides;
+
+  std::vector<const void*> grad_out_ptrs;
+
+  std::vector<void*> grad_q_ptrs;
+  std::vector<void*> grad_k_ptrs;
+  std::vector<void*> grad_v_ptrs;
+  // std::vector<void *> grad_bias_ptrs;
+
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // HM mode strides, completely contiguous
+  std::vector<const void*> logsumexp_ptrs;
+
+  // HMN mode strides, completely contiguous
+  std::array<int, 3> randvals_strides;
+  std::vector<void*> randvals_ptrs;
+
+  int64_t rng_seed;
+  int64_t rng_offset;
+};
+
+// useful aliasing for making the codes easy
+template <ck::index_t... Is>
+using S = ck::Sequence<Is...>;
+
+using F32 = float;

From 88a0451806e6298987e9c82d3206fc9749f5833c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 8 Aug 2023 23:10:20 +0000
Subject: [PATCH 006/837] Tiny change in setup.py

---
 setup.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/setup.py b/setup.py
index 76c0d274e6..4b1cb3c3fd 100644
--- a/setup.py
+++ b/setup.py
@@ -282,7 +282,6 @@ def get_extensions():
                          Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'device',
                          Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'device' / 'impl',
                          Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'element',
-                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'library' / 'include' / 'ck' / 'libary' / 'utility', 
                        ] 
        generator_flag = []
        cc_flag = ["-DBUILD_PYTHON_PACKAGE"]

From 4449da03a6f195304d4e106a9f4001e25e2202ff Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 9 Aug 2023 20:36:53 +0000
Subject: [PATCH 007/837] Modification related to the using of alpha

---
 .../hip_fmha/attention_backward_generic.cu    | 371 ----------------
 .../hip_fmha/attention_forward_generic.cpp    |   1 -
 .../hip_fmha/attention_forward_generic.cu     | 400 ------------------
 .../hip_fmha/ck_fmha_batched_backward.h       |   2 +-
 .../hip_fmha/ck_fmha_batched_forward.h        |   5 +-
 .../hip_fmha/ck_fmha_batched_infer.h          |   4 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       |   2 +-
 .../hip_fmha/ck_fmha_grouped_forward.h        |   2 +-
 .../hip_fmha/ck_fmha_grouped_infer.h          |   4 +-
 9 files changed, 11 insertions(+), 780 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/attention_backward_generic.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_generic.cu

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cu b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cu
deleted file mode 100644
index 2756763ce6..0000000000
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cu
+++ /dev/null
@@ -1,371 +0,0 @@
-/*
- * Copyright (c) Meta Platforms, Inc. and affiliates.
- * All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <cmath>
-
-#include <ATen/Context.h>
-#include <ATen/ScalarOps.h>
-#include <ATen/Tensor.h>
-#include <ATen/TensorOperators.h>
-#include <ATen/cuda/CUDAContext.h>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <c10/cuda/CUDAGuard.h>
-#include <torch/library.h>
-
-#include "ck_fmha_util.h"
-#include "ck_fmha_batched_backward.h"
-#include "ck_fmha_grouped_backward.h"
-
-namespace {
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
-mem_efficient_attention_backward_hip(
-    const at::Tensor& grad_out,
-    const at::Tensor& query,
-    const at::Tensor& key,
-    const at::Tensor& value,
-    const c10::optional<at::Tensor>& bias, // additive attention bias
-    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
-    // position of the first query token for batch $b
-    const c10::optional<at::Tensor>& seqstart_q,
-    // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
-    // position of the first key token for batch $b
-    const c10::optional<at::Tensor>& seqstart_k,
-    const c10::optional<at::Tensor>& seqlen_k,
-    const at::Tensor& logsumexp,
-    const at::Tensor& out,
-    double dropout_p, // dropout probability
-    int64_t rng_seed, // seed using for generating random numbers for dropout
-    int64_t rng_offset, // offset into random number sequence
-    int64_t custom_mask_type,
-    const c10::optional<double> scale) {
-#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD
-  TORCH_CHECK(
-      false,
-      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
-#else
-  at::globalContext().alertNotDeterministic(
-      "mem_efficient_attention_backward_cutlass");
-
-  // ndim
-  TORCH_CHECK(query.dim() == grad_out.dim());
-  TORCH_CHECK(query.dim() == key.dim());
-  TORCH_CHECK(query.dim() == value.dim());
-  TORCH_CHECK(query.dim() == 4);
-
-  // batch size
-  TORCH_CHECK(query.size(0) == grad_out.size(0));
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // seqlen
-  TORCH_CHECK(key.size(1) == value.size(1));
-  TORCH_CHECK(query.size(1) == grad_out.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) == key.size(2));
-  TORCH_CHECK(query.size(2) == value.size(2));
-  TORCH_CHECK(query.size(2) == grad_out.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-  TORCH_CHECK(value.size(3) == grad_out.size(3));
-
-  // handle potentially non-contiguous grad_out through a copy
-  CHECK_NOSPARSE_CONTIGUOUS_CUDA(grad_out);
-
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  TORCH_CHECK(
-      !(seqstart_q.has_value() && bias.has_value()),
-      "seqstart_q + bias not supported");
-
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
-  }
-
-  at::cuda::CUDAGuard device_guard(query.device());
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t num_heads = query.size(2);
-  int64_t K = query.size(3);
-  int64_t Kv = value.size(3);
-
-  at::Tensor grad_q, grad_k, grad_v, grad_bias;
-
-  grad_q = at::empty(query.sizes(), query.options());
-  grad_k = at::empty(key.sizes(), key.options());
-  grad_v = at::empty(value.sizes(), value.options());
-
-  at::Tensor randvals;
-
-  at::PhiloxCudaState rng_engine_inputs(rng_seed, rng_offset);
-
-  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.num_heads = num_heads;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.grad_out_ptr = grad_out.data_ptr();
-    p.grad_q_ptr = grad_q.data_ptr();
-    p.grad_k_ptr = grad_k.data_ptr();
-    p.grad_v_ptr = grad_v.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.grad_out_strides = {
-        static_cast<int>(grad_out.stride(0)),
-        static_cast<int>(grad_out.stride(1)),
-        static_cast<int>(grad_out.stride(2)),
-        static_cast<int>(grad_out.stride(3))};
-
-    if (bias.has_value()) {
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
-
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.attn_bias_ptr = nullptr;
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.rng_engine_inputs = rng_engine_inputs;
-
-    randvals = at::empty(
-        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2)),
-        static_cast<int>(randvals.stride(3))};
-    p.randvals_ptr = randvals.data_ptr();
-
-    p.logsumexp_ptr = logsumexp.data_ptr();
-  };
-
-  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.num_heads = num_heads;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    p.grad_out_strides = {
-        static_cast<int>(grad_out.stride(1)),
-        static_cast<int>(grad_out.stride(2)),
-        static_cast<int>(grad_out.stride(3))};
-
-    if (bias.has_value()) {
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    };
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.rng_engine_inputs = rng_engine_inputs;
-
-    randvals = at::empty(
-        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2))};
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
-
-    if (seqlen_k.has_value())
-      p.host_seqlen_k.resize(p.num_batches);
-
-    FMHA_HIP_CHECK(hipMemcpy(
-        p.host_seqstart_q.data(),
-        seqstart_q->data_ptr(),
-        (p.num_batches + 1) * sizeof(int),
-        hipMemcpyDeviceToHost));
-    FMHA_HIP_CHECK(hipMemcpy(
-        p.host_seqstart_k.data(),
-        seqstart_k->data_ptr(),
-        (p.num_batches + 1) * sizeof(int),
-        hipMemcpyDeviceToHost));
-    if (seqlen_k.has_value())
-      FMHA_HIP_CHECK(hipMemcpy(
-          p.host_seqlen_k.data(),
-          seqlen_k->data_ptr(),
-          p.num_batches * sizeof(int),
-          hipMemcpyDeviceToHost));
-
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
-    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
-
-    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
-
-    char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
-    char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
-    char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
-
-    for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_q_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
-      int32_t tmp_k_stride = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
-      int32_t tmp_v_stride = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
-      int32_t tmp_o_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
-      int32_t tmp_grad_o_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.grad_out_strides[0],
-          grad_out_.scalar_type());
-      int32_t tmp_logsumexp_stride =
-          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
-      int32_t tmp_randvals_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.randvals_strides[1] +
-              p.host_seqstart_k[i] * p.randvals_strides[2],
-          randvals.scalar_type());
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
-      p.grad_q_ptrs.push_back(reinterpret_cast<void*>(grad_q_ptr));
-
-      q_ptr = q_ptr + tmp_q_stride;
-      grad_q_ptr = grad_q_ptr + tmp_q_stride;
-
-      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
-      p.grad_k_ptrs.push_back(reinterpret_cast<void*>(grad_k_ptr));
-      k_ptr = k_ptr + tmp_k_stride;
-      grad_k_ptr = grad_k_ptr + tmp_k_stride;
-
-      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
-      p.grad_v_ptrs.push_back(reinterpret_cast<void*>(grad_v_ptr));
-      v_ptr = v_ptr + tmp_k_stride;
-      grad_v_ptr = grad_v_ptr + tmp_k_stride;
-
-      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
-      p.grad_out_ptrs.push_back(reinterpret_cast<void*>(grad_out_ptr));
-      out_ptr = out_ptr + tmp_o_stride;
-      grad_out_ptr = grad_out_ptr + tmp_o_stride;
-
-      if (bias.has_value()) {
-        int32_t tmp_bias_stride = get_size_in_bytes(
-            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
-                p.host_seqstart_k[i] * p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
-        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
-      };
-
-      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
-      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
-
-      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
-      randvals_ptr = randvals_ptr + tmp_randvals_stride;
-    }
-  };
-
-  DISPATCH_TYPES(query.scalar_type(), [&]() {
-    if (!seqstart_q.has_value()) { // input is batched
-      BatchedBackwardParams batched_backward_params;
-
-      set_batched_backward_params(batched_backward_params);
-      batched_backward<scalar_t>(batched_backward_params, stream)
-    } else { // input is grouped
-      GroupedBackwardParams grouped_backward_params;
-
-      set_grouped_backward_params(grouped_backward_params);
-      grouped_backward<scalar_t>(grouped_backward_params, stream);
-    }
-  });
-
-  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
-#endif
-} // namespace
-
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_hip"),
-      TORCH_FN(mem_efficient_attention_backward_hip));
-}
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 667d633704..e37e858ccc 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -44,7 +44,6 @@ efficient_attention_forward_hip(
     // position of the first key token for batch $b
     const c10::optional<at::Tensor>& seqstart_k,
     // (Mode 1MHK only) Maximum sequence length across batches
-    const c10::optional<int64_t> max_seqlen_q_,
     double dropout_p, // attention matrix dropout probability
     bool compute_logsumexp,
     int64_t custom_mask_type,
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cu b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cu
deleted file mode 100644
index d951dbcbf4..0000000000
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cu
+++ /dev/null
@@ -1,400 +0,0 @@
-/*
- * Copyright (c) Meta Platforms, Inc. and affiliates.
- * All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <cmath>
-#include <mutex>
-
-#include <ATen/Context.h>
-#include <ATen/ScalarOps.h>
-#include <ATen/Tensor.h>
-#include <ATen/core/Generator.h>
-#include <ATen/cuda/CUDAContext.h>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <c10/cuda/CUDAGuard.h>
-#include <c10/util/Optional.h>
-#include <torch/library.h>
-
-#include "ck_fmha_util.h"
-#include "ck_fmha_batched_infer.h"
-#include "ck_fmha_batched_forward.h"
-#include "ck_fmha_grouped_infer.h"
-#include "ck_fmha_grouped_forward.h"
-
-namespace {
-
-/*
-  There are 2 modes for using this function.
-  (Mode BMHK) With all the heads having the same seqlen
-  (Mode 1MHK) `batch=1` with all tokens across batches concatenated
-*/
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
-efficient_attention_forward_hip(
-    const at::Tensor& query, // [b, seqlen, num_heads, K]
-    const at::Tensor& key, // [b, seqlen, num_heads, K]
-    const at::Tensor& value, // [b, seqlen, num_heads, Kv]
-    const c10::optional<at::Tensor>& bias, // [b, num_heads, seqlen, seqlen]
-    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
-    // position of the first query token for batch $b
-    const c10::optional<at::Tensor>& seqstart_q,
-    // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
-    // position of the first key token for batch $b
-    const c10::optional<at::Tensor>& seqstart_k,
-    // (Mode 1MHK only) Maximum sequence length across batches
-    const c10::optional<int64_t> max_seqlen_q_,
-    double dropout_p, // attention matrix dropout probability
-    bool compute_logsumexp,
-    int64_t custom_mask_type,
-    c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k) {
-#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD
-  TORCH_CHECK(
-      false,
-      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD");
-#else
-
-  TORCH_CHECK(query.dim() == 4);
-  TORCH_CHECK(key.dim() == 4);
-  TORCH_CHECK(value.dim() == 4);
-
-  // Batch sizes
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // Sequence length
-  TORCH_CHECK(key.size(1) == value.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) == key.size(2));
-  TORCH_CHECK(query.size(2) == value.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-  };
-
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t num_heads = query.size(-2);
-  int64_t K = query.size(-1);
-  int64_t Kv = value.size(-1);
-
-  at::Tensor out;
-  at::Tensor logsumexp;
-  at::Tensor randvals;
-
-  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-  at::PhiloxCudaState rng_engine_inputs;
-  if (use_dropout) {
-    at::CUDAGeneratorImpl* gen =
-        at::get_generator_or_default<at::CUDAGeneratorImpl>(
-            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-    std::lock_guard<std::mutex> lock(gen->mutex_);
-    // if using dropout, we produce 1 random number for each element of the
-    // attention tensor
-    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
-  }
-
-  auto set_batched_infer_params = [&](BatchedInferParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.num_heads = num_heads;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(0)),
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.attn_bias_ptr = nullptr;
-
-    p.custom_mask_type = custom_mask_type;
-  };
-
-  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-    set_batched_infer_params(p);
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-
-    p.rng_engine_inputs = rng_engine_inputs;
-
-    randvals = at::empty(
-        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2)),
-        static_cast<int>(randvals.stride(3))};
-    p.randvals_ptr = randvals.data_ptr();
-
-    logsumexp = at::empty(
-        {B, num_heads, M}, query.options().dtype(at::ScalarType::Float));
-    p.logsumexp_ptr = logsumexp.data_ptr();
-  };
-
-  auto set_grouped_infer_params = [&](GroupedInferParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.num_heads = num_heads;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    };
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
-
-    if (seqlen_k.has_value())
-      p.host_seqlen_k.resize(p.num_batches);
-
-    FMHA_HIP_CHECK(hipMemcpy(
-        p.host_seqstart_q.data(),
-        seqstart_q->data_ptr(),
-        (p.num_batches + 1) * sizeof(int32_t),
-        hipMemcpyDeviceToHost));
-    FMHA_HIP_CHECK(hipMemcpy(
-        p.host_seqstart_k.data(),
-        seqstart_k->data_ptr(),
-        (p.num_batches + 1) * sizeof(int32_t),
-        hipMemcpyDeviceToHost));
-    if (seqlen_k.has_value())
-      FMHA_HIP_CHECK(hipMemcpy(
-          p.host_seqlen_k.data(),
-          seqlen_k->data_ptr(),
-          p.num_batches * sizeof(int32_t),
-          hipMemcpyDeviceToHost));
-
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
-
-    for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_q_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
-      int32_t tmp_k_stride = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
-      int32_t tmp_v_stride = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
-      int32_t tmp_o_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
-      q_ptr = q_ptr + tmp_q_stride;
-
-      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
-      k_ptr = k_ptr + tmp_k_stride;
-
-      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
-      v_ptr = v_ptr + tmp_k_stride;
-
-      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
-      out_ptr = out_ptr + tmp_o_stride;
-
-      if (bias.has_value()) {
-        int32_t tmp_bias_stride = get_size_in_bytes(
-            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
-                p.host_seqstart_k[i] * p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
-        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
-      };
-    }
-  };
-
-  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-    set_grouped_infer_params(p);
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.rng_engine_inputs = rng_engine_inputs;
-
-    logsumexp =
-        at::empty({num_heads, M}, query.options().dtype(at::ScalarType::Float));
-
-    randvals = at::empty(
-        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2))};
-
-    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
-
-    for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_logsumexp_stride =
-          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
-      int32_t tmp_randvals_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.randvals_strides[1] +
-              p.host_seqstart_k[i] * p.randvals_strides[2],
-          randvals.scalar_type());
-
-      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
-      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
-
-      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
-      randvals_ptr = randvals_ptr + tmp_randvals_stride;
-    };
-  };
-
-  // uint64_t -> int64_t bitwise casting as PyTorch don't support uint64_t
-  // so just fake it as a int64_t
-  int64_t seed, offset;
-
-  DISPATCH_TYPES(query.scalar_type(),  [&]() {
-    out = at::empty(
-        {B, M, num_heads, Kv},
-        query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
-
-    if (!use_dropout && !compute_logsumexp) { // work is inference
-      if (!seqstart_q.has_value()) { // input is batched
-        BatchedInferParams batched_infer_params;
-
-        set_batched_infer_params(batched_infer_params);
-        batched_infer<scalar_t>(batched_infer_params, stream);
-      } else { // input is grouped
-        GroupedInferParams grouped_infer_params;
-
-        set_grouped_infer_params(grouped_infer_params);
-        grouped_infer<scalar_t>(grouped_infer_params, stream);
-      }
-    } else { // work is training forward
-      if (!seqstart_q.has_value()) { // input is batched
-        BatchedForwardParams batched_forward_params;
-
-        set_batched_forward_params(batched_forward_params);
-        batched_forward<scalar_t>(batched_forward_params, stream)
-      } else { // input is grouped
-        GroupedForwardParams grouped_forward_params;
-
-        set_grouped_forward_params(grouped_forward_params);
-        grouped_forward<scalar_t>(grouped_forward_params, stream);
-      }
-
-      std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
-      std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
-    }
-  });
-
-  return std::make_tuple(out, logsumexp, seed, offset);
-#endif
-}
-
-// For testing in xFormers
-bool is_ck_fmha_available() {
-  std::cout << "ck fmha is really here!" << std::endl;
-  return (true);
-};
-
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_hip"),
-      TORCH_FN(efficient_attention_forward_hip));
-}
-
-TORCH_LIBRARY_FRAGMENT(xformers, m) {
-  m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available() -> bool"));
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
-      TORCH_FN(is_ck_fmha_available));
-}
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 34969a513e..b267b8590d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -184,7 +184,7 @@ void batched_backward_mask_type_dispatched(
 
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
-  float alpha = 1.f / std::sqrt(param.K);
+  float alpha = param.scale;
 
   auto op = DeviceOpInstance{};
   auto invoker = op.MakeInvoker();
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index f2f551ac7b..1086e44cd7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -148,9 +148,6 @@ void batched_forward_mask_type_dispatched(
           MaskingSpec, // MaskingSpecialization
           Deterministic>;
 
-  float p_dropout = 1 - param.dropout_prob;
-  ZDataType p_dropout_in_16bits = ZDataType(std::floor(p_dropout * 65535.0));
-  float rp_dropout = 1.0 / p_dropout;
   float alpha = 1.f / std::sqrt(param.K);
 
   std::vector<ck::index_t> a_gs_ms_ks_lengths{
@@ -196,6 +193,8 @@ void batched_forward_mask_type_dispatched(
 
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
+  float alpha = param.scale;
+
   auto a_element_op = AElementOp{};
   auto b0_element_op = B0ElementOp{};
   auto acc0_element_op = Acc0ElementOp{alpha};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index cc8129a804..58867e602c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -172,9 +172,11 @@ void batched_infer_mask_type_dispatched(
       param.out_strides[1],
       param.out_strides[3]};
 
+  float alpha = param.scale;
+
   auto a_element_op = AElementOp{};
   auto b0_element_op = B0ElementOp{};
-  auto acc0_element_op = Acc0ElementOp{1.0f};
+  auto acc0_element_op = Acc0ElementOp{alpha};
   auto b1_element_op = B1ElementOp{};
   auto c_element_op = CElementOp{};
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index fb4879fc0b..62ce0df013 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -203,7 +203,7 @@ void grouped_backward_mask_type_dispatched(
     });
   }
 
-  float alpha = 1.0f / std::sqrt(param.K);
+  float alpha = param.scale;
 
   auto op = DeviceOpInstance{};
   auto invoker = op.MakeInvoker();
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index d7b980f005..9ba0d07a36 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -210,7 +210,7 @@ void grouped_forward_mask_type_dispatched(
   const uint64_t seed = 1;
   const uint64_t offset = 0;
 
-  float alpha = 1.0f;
+  float alpha = param.scale;
 
   auto a_element_op = AElementOp{};
   auto b0_element_op = B0ElementOp{};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 741d6656c1..46bc95ece3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -185,9 +185,11 @@ void grouped_infer_mask_type_dispatched(
          {}}); // acc1_biases_gs_ms_os_strides
   }
 
+  float alpha = param.scale;
+
   auto a_element_op = AElementOp{};
   auto b0_element_op = B0ElementOp{};
-  auto acc0_element_op = Acc0ElementOp{1.0f};
+  auto acc0_element_op = Acc0ElementOp{alpha};
   auto b1_element_op = B1ElementOp{};
   auto c_element_op = CElementOp{};
 

From 2245107202225e2d241107af417635b93f967b66 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 9 Aug 2023 20:50:15 +0000
Subject: [PATCH 008/837] Tiny fix in ck_fmha_batched_forward.h

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h | 2 --
 1 file changed, 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 1086e44cd7..c5384e25b3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -148,8 +148,6 @@ void batched_forward_mask_type_dispatched(
           MaskingSpec, // MaskingSpecialization
           Deterministic>;
 
-  float alpha = 1.f / std::sqrt(param.K);
-
   std::vector<ck::index_t> a_gs_ms_ks_lengths{
       param.B, param.num_heads, param.M, param.K};
   std::vector<ck::index_t> a_gs_ms_ks_strides{

From 52dff20bec89cbf05c0a6d8dd592efc1a2daeff6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 10 Aug 2023 14:46:57 +0000
Subject: [PATCH 009/837] Synchronize update in third_party/composable_kernel

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 34b1c32087..d20c472f8d 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 34b1c32087cd29f856a6d62bb33ba64df36e46a6
+Subproject commit d20c472f8d5a00da0934e91f3ddc16f7dd3e3ecb

From 1eb10a3861e3d7a01b1ce8f60e6f2c650233e6c7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 11 Aug 2023 21:55:39 +0000
Subject: [PATCH 010/837] Update to synchronize with the change in CK
 FlashAttentin forward to add support attention-bias

---
 .../hip_fmha/attention_backward_generic.cpp   |   2 +-
 .../hip_fmha/attention_forward_generic.cpp    | 159 ++++++------
 .../hip_fmha/ck_fmha_batched_forward.h        | 110 ++++++---
 .../hip_fmha/ck_fmha_batched_infer.h          | 226 ------------------
 .../hip_fmha/ck_fmha_grouped_forward.h        |  87 +++++--
 .../hip_fmha/ck_fmha_grouped_infer.h          | 225 -----------------
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  20 +-
 7 files changed, 237 insertions(+), 592 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 9abfe09e8d..04a1ccf2bf 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -362,7 +362,7 @@ mem_efficient_attention_backward_hip(
 
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 #endif
-} // namespace
+}
 
 } // namespace
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index e37e858ccc..f8baf6a8fe 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -19,9 +19,7 @@
 #include <torch/library.h>
 
 #include "ck_fmha_batched_forward.h"
-#include "ck_fmha_batched_infer.h"
 #include "ck_fmha_grouped_forward.h"
-#include "ck_fmha_grouped_infer.h"
 #include "ck_fmha_util.h"
 
 namespace {
@@ -115,7 +113,7 @@ efficient_attention_forward_hip(
     rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
   }
 
-  auto set_batched_infer_params = [&](BatchedInferParams& p) {
+  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
     p.B = B;
     p.M = M;
     p.N = N;
@@ -156,6 +154,7 @@ efficient_attention_forward_hip(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      p.has_attn_bias = true;
       p.attn_bias_ptr = bias->data_ptr();
 
       const at::Tensor bias_4d_view =
@@ -166,33 +165,41 @@ efficient_attention_forward_hip(
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
     } else
-      p.attn_bias_ptr = nullptr;
+      p.has_attn_bias = false;
 
     p.custom_mask_type = custom_mask_type;
-  };
 
-  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-    set_batched_infer_params(p);
+    p.use_dropout = use_dropout;
+    p.compute_logsumexp = compute_logsumexp;
 
-    p.dropout_prob = static_cast<float>(dropout_p);
+    // the following parameters are only used by training forward
+    if (p.use_dropout) {
+      p.dropout_prob = static_cast<float>(dropout_p);
 
-    p.rng_engine_inputs = rng_engine_inputs;
+      p.rng_engine_inputs = rng_engine_inputs;
 
-    randvals = at::empty(
-        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2)),
-        static_cast<int>(randvals.stride(3))};
-    p.randvals_ptr = randvals.data_ptr();
+      randvals = at::empty(
+          {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+      p.randvals_strides = {
+          static_cast<int>(randvals.stride(0)),
+          static_cast<int>(randvals.stride(1)),
+          static_cast<int>(randvals.stride(2)),
+          static_cast<int>(randvals.stride(3))};
+      p.randvals_ptr = randvals.data_ptr();
+    } else {
+      p.dropout_prob = 0.0f;
+      p.randvals_ptr = nullptr;
+    };
 
-    logsumexp = at::empty(
-        {B, num_heads, M}, query.options().dtype(at::ScalarType::Float));
-    p.logsumexp_ptr = logsumexp.data_ptr();
+    if (p.compute_logsumexp) {
+      logsumexp = at::empty(
+          {B, num_heads, M}, query.options().dtype(at::ScalarType::Float));
+      p.logsumexp_ptr = logsumexp.data_ptr();
+    } else
+      p.logsumexp_ptr = nullptr;
   };
 
-  auto set_grouped_infer_params = [&](GroupedInferParams& p) {
+  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
     p.num_batches = seqstart_q->size(0) - 1;
     p.M = M;
     p.N = N;
@@ -288,6 +295,7 @@ efficient_attention_forward_hip(
       out_ptr = out_ptr + tmp_o_stride;
 
       if (bias.has_value()) {
+        p.has_attn_bias = true;
         int32_t tmp_bias_stride = get_size_in_bytes(
             p.host_seqstart_q[i] * p.attn_bias_strides[2] +
                 p.host_seqstart_k[i] * p.attn_bias_strides[3],
@@ -295,42 +303,49 @@ efficient_attention_forward_hip(
 
         p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
         attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
-      };
+      } else
+        p.has_attn_bias = false;
     }
-  };
 
-  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-    set_grouped_infer_params(p);
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.rng_engine_inputs = rng_engine_inputs;
-
-    logsumexp =
-        at::empty({num_heads, M}, query.options().dtype(at::ScalarType::Float));
+    p.use_dropout = use_dropout;
+    p.compute_logsumexp = compute_logsumexp;
+
+    // the following parameters are only used by training forward
+    if (p.use_dropout) {
+      p.dropout_prob = static_cast<float>(dropout_p);
+      p.rng_engine_inputs = rng_engine_inputs;
+
+      randvals = at::empty(
+          {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
+      p.randvals_strides = {
+          static_cast<int>(randvals.stride(0)),
+          static_cast<int>(randvals.stride(1)),
+          static_cast<int>(randvals.stride(2))};
+      char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
+
+      for (int i = 0; i < p.num_batches; i++) {
+        int32_t tmp_randvals_stride = get_size_in_bytes(
+            p.host_seqstart_q[i] * p.randvals_strides[1] +
+                p.host_seqstart_k[i] * p.randvals_strides[2],
+            randvals.scalar_type());
+
+        p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
+        randvals_ptr = randvals_ptr + tmp_randvals_stride;
+      };
+    };
 
-    randvals = at::empty(
-        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2))};
+    if (p.compute_logsumexp) {
+      logsumexp = at::empty(
+          {num_heads, M}, query.options().dtype(at::ScalarType::Float));
+      char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
-    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
+      for (int i = 0; i < p.num_batches; i++) {
+        int32_t tmp_logsumexp_stride =
+            get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
 
-    for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_logsumexp_stride =
-          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
-      int32_t tmp_randvals_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.randvals_strides[1] +
-              p.host_seqstart_k[i] * p.randvals_strides[2],
-          randvals.scalar_type());
-
-      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
-      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
-
-      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
-      randvals_ptr = randvals_ptr + tmp_randvals_stride;
+        p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
+        logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
+      };
     };
   };
 
@@ -343,36 +358,22 @@ efficient_attention_forward_hip(
         {B, M, num_heads, Kv},
         query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
 
-    if (!use_dropout && !compute_logsumexp) { // work is inference
-      if (!seqstart_q.has_value()) { // input is batched
-        BatchedInferParams batched_infer_params;
-
-        set_batched_infer_params(batched_infer_params);
-        batched_infer<scalar_t>(batched_infer_params, stream);
-      } else { // input is grouped
-        GroupedInferParams grouped_infer_params;
-
-        set_grouped_infer_params(grouped_infer_params);
-        grouped_infer<scalar_t>(grouped_infer_params, stream);
-      }
-    } else { // work is training forward
-      if (!seqstart_q.has_value()) { // input is batched
-        BatchedForwardParams batched_forward_params;
-
-        set_batched_forward_params(batched_forward_params);
-        batched_forward<scalar_t>(batched_forward_params, stream);
-      } else { // input is grouped
-        GroupedForwardParams grouped_forward_params;
-
-        set_grouped_forward_params(grouped_forward_params);
-        grouped_forward<scalar_t>(grouped_forward_params, stream);
-      }
-
-      std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
-      std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
+    if (!seqstart_q.has_value()) { // input is batched
+      BatchedForwardParams batched_forward_params;
+
+      set_batched_forward_params(batched_forward_params);
+      batched_forward<scalar_t>(batched_forward_params, stream);
+    } else { // input is grouped
+      GroupedForwardParams grouped_forward_params;
+
+      set_grouped_forward_params(grouped_forward_params);
+      grouped_forward<scalar_t>(grouped_forward_params, stream);
     }
   });
 
+  std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
+  std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
+
   return std::make_tuple(out, logsumexp, seed, offset);
 #endif
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index c5384e25b3..f2fb0a69d0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -5,31 +5,46 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v1.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp"
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type>
-void batched_forward_mask_type_dispatched(
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void batched_forward_masktype_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream);
 
 template <typename scalar_t>
 void batched_forward(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    batched_forward_mask_type_dispatched<scalar_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    batched_forward_mask_type_dispatched<scalar_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    batched_forward_mask_type_dispatched<scalar_t, 2>(param, stream);
-  else
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<scalar_t, 0, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<scalar_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<scalar_t, 1, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<scalar_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<scalar_t, 2, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<scalar_t, 2, false>(
+          param, stream);
+  } else
     throw std::runtime_error("Invalid custom_mask_type value");
 };
 
-template <typename scalar_t, int32_t custom_mask_type = 0>
-void batched_forward_mask_type_dispatched(
+template <typename scalar_t, int32_t custom_mask_type = 0, bool has_attn_bias>
+void batched_forward_masktype_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
@@ -43,7 +58,8 @@ void batched_forward_mask_type_dispatched(
   using CDataType = scalar_t;
   using ZDataType = unsigned short;
   using LSEDataType = F32;
-  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc0BiasDataType = typename std::
+      conditional<has_attn_bias, ck::Tuple<scalar_t>, ck::Tuple<>>::type;
   using Acc1BiasDataType = ck::Tuple<>;
 
   static constexpr ck::index_t NumDimG = 2;
@@ -75,7 +91,7 @@ void batched_forward_mask_type_dispatched(
   static constexpr bool Deterministic = false;
 
   using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V1<
+      DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
           NumDimG,
           NumDimM,
           NumDimN,
@@ -107,7 +123,7 @@ void batched_forward_mask_type_dispatched(
           128, // MPerBlock
           128, // NPerBlock
           32, // KPerBlock
-          32, // Gemm1NPerBlock
+          64, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           8, // AK1
           8, // BK1
@@ -116,7 +132,8 @@ void batched_forward_mask_type_dispatched(
           32, // NPerXDL
           1, // MXdlPerWave
           4, // NXdlPerWave
-          1, // Gemm1NXdlPerWave
+          2, // Gemm1NXdlPerWave
+          1, // DropoutStep
           S<4, 64, 1>, // ABlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
@@ -131,20 +148,22 @@ void batched_forward_mask_type_dispatched(
           8,
           8,
           true,
+          4,
           S<16, 16, 1>, // B1BlockTransfer
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,
-          2,
+          4,
           2,
           false,
           1, // CShuffleMXdlPerWavePerShuffle
-          1, // CShuffleNXdlPerWavePerShuffle
+          2, // CShuffleNXdlPerWavePerShuffle
           S<1,
-            64,
+            32,
             1,
-            4>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
           8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          4,
           MaskingSpec, // MaskingSpecialization
           Deterministic>;
 
@@ -181,16 +200,43 @@ void batched_forward_mask_type_dispatched(
       param.out_strides[1],
       param.out_strides[3]};
 
-  std::vector<ck::index_t> z_gs_ms_ns_lengths{
-      param.B, param.num_heads, param.M, param.N};
-  std::vector<ck::index_t> z_gs_ms_ns_strides{
-      param.randvals_strides[0],
-      param.randvals_strides[1],
-      param.randvals_strides[2],
-      param.randvals_strides[3]};
+  std::vector<ck::index_t> z_gs_ms_ns_lengths;
+  std::vector<ck::index_t> z_gs_ms_ns_strides;
+
+  if (param.use_dropout) {
+    z_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+    z_gs_ms_ns_strides = {
+        param.randvals_strides[0],
+        param.randvals_strides[1],
+        param.randvals_strides[2],
+        param.randvals_strides[3]};
+  };
 
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
+  auto bias_ptr_lengths_strides = [&]() {
+    if constexpr (has_attn_bias) {
+      auto bias_ptr_arr =
+          std::array<void*, 1>{const_cast<void*>(param.attn_bias_ptr)};
+      std::vector<ck::index_t> d_gs_ms_ns_lengths{
+          param.B, param.num_heads, param.M, param.N};
+      std::vector<ck::index_t> d_gs_ms_ns_strides{
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+      auto bias_lengths_arr =
+          std::array<std::vector<ck::index_t>, 1>{d_gs_ms_ns_lengths};
+      auto bias_strides_arr =
+          std::array<std::vector<ck::index_t>, 1>{d_gs_ms_ns_strides};
+      return std::make_tuple(bias_ptr_arr, bias_lengths_arr, bias_strides_arr);
+    } else
+      return std::make_tuple(
+          std::array<void*, 0>{},
+          std::array<std::vector<ck::index_t>, 0>{},
+          std::array<std::vector<ck::index_t>, 0>{});
+  }();
+
   float alpha = param.scale;
 
   auto a_element_op = AElementOp{};
@@ -205,6 +251,7 @@ void batched_forward_mask_type_dispatched(
 
   auto op = DeviceOpInstance{};
   auto invoker = op.MakeInvoker();
+
   auto arg_ptr = op.MakeArgumentPointer(
       param.q_ptr,
       param.k_ptr,
@@ -212,7 +259,7 @@ void batched_forward_mask_type_dispatched(
       param.out_ptr,
       param.randvals_ptr,
       param.logsumexp_ptr,
-      {}, // std::array<void*, 1> p_acc0_biases;
+      std::get<0>(bias_ptr_lengths_strides),
       {}, // std::array<void*, 1> p_acc1_biases;
       a_gs_ms_ks_lengths,
       a_gs_ms_ks_strides,
@@ -225,10 +272,8 @@ void batched_forward_mask_type_dispatched(
       z_gs_ms_ns_lengths,
       z_gs_ms_ns_strides,
       lse_gs_ms_lengths,
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc0_biases_gs_ms_ns_lengths},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc0_biases_gs_ms_ns_strides},
+      std::get<1>(bias_ptr_lengths_strides),
+      std::get<2>(bias_ptr_lengths_strides),
       {}, // std::array<std::vector<ck::index_t>,
           // 1>{acc1_biases_gs_ms_os_lengths},
       {}, // std::array<std::vector<ck::index_t>,
@@ -241,6 +286,7 @@ void batched_forward_mask_type_dispatched(
       param.dropout_prob, // dropout ratio
       {seed, offset}); // dropout random seed and offset, offset should be at
                        // least the number of elements on a thread
+
   SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
 
   op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
deleted file mode 100644
index 58867e602c..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ /dev/null
@@ -1,226 +0,0 @@
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_gemm_softmax_gemm_permute_xdl_cshuffle.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-
-#include "ck_fmha_util.h"
-
-template <typename scalar_t, int32_t custom_mask_type>
-void batched_infer_mask_type_dispatched(
-    BatchedInferParams& param,
-    hipStream_t stream);
-
-template <typename scalar_t>
-void batched_infer(BatchedInferParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    batched_infer_mask_type_dispatched<scalar_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    batched_infer_mask_type_dispatched<scalar_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    batched_infer_mask_type_dispatched<scalar_t, 2>(param, stream);
-  else
-    throw std::runtime_error("Invalid custom_mask_type value");
-};
-
-template <typename scalar_t, int32_t custom_mask_type = 0>
-void batched_infer_mask_type_dispatched(
-    BatchedInferParams& param,
-    hipStream_t stream) {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using Acc0BiasDataType = ck::Tuple<>;
-  using Acc1BiasDataType = ck::Tuple<>;
-
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
-  using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceBatchedGemmSoftmaxGemmPermute_Xdl_CShuffle<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
-          64, // Gemm1NPerBlock
-          32, // Gemm1KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
-          2, // Gemm1NXdlPerWave
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          8,
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          8,
-          8,
-          true,
-          S<16, 16, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          4,
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
-          2, // CShuffleNXdlPerWavePerShuffle
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
-          MaskingSpec>; // MaskingSpecialization
-
-  std::vector<ck::index_t> a_gs_ms_ks_lengths{
-      param.B, param.num_heads, param.M, param.K};
-  std::vector<ck::index_t> a_gs_ms_ks_strides{
-      param.q_strides[0],
-      param.q_strides[2],
-      param.q_strides[1],
-      param.q_strides[3]};
-  std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-      param.B, param.num_heads, param.N, param.K};
-  std::vector<ck::index_t> b0_gs_ns_ks_strides{
-      param.k_strides[0],
-      param.k_strides[2],
-      param.k_strides[1],
-      param.k_strides[3]};
-
-  // to be changed to b1_gs_ns_os_lengths
-  std::vector<ck::index_t> b1_gs_os_ns_lengths{
-      param.B, param.num_heads, param.N, param.Kv};
-  std::vector<ck::index_t> b1_gs_os_ns_strides{
-      param.v_strides[0],
-      param.v_strides[2],
-      param.v_strides[3],
-      param.v_strides[1]};
-
-  std::vector<ck::index_t> c_gs_ms_os_lengths{
-      param.B, param.num_heads, param.M, param.Kv};
-  std::vector<ck::index_t> c_gs_ms_os_strides{
-      param.out_strides[0],
-      param.out_strides[2],
-      param.out_strides[1],
-      param.out_strides[3]};
-
-  float alpha = param.scale;
-
-  auto a_element_op = AElementOp{};
-  auto b0_element_op = B0ElementOp{};
-  auto acc0_element_op = Acc0ElementOp{alpha};
-  auto b1_element_op = B1ElementOp{};
-  auto c_element_op = CElementOp{};
-
-  auto op = DeviceOpInstance{};
-  auto invoker = op.MakeInvoker();
-  auto arg_ptr = op.MakeArgumentPointer(
-      param.q_ptr,
-      param.k_ptr,
-      param.v_ptr,
-      param.out_ptr,
-      {}, // std::array<void*, 1> p_acc0_biases;
-      {}, // std::array<void*, 1> p_acc1_biases;
-      a_gs_ms_ks_lengths,
-      a_gs_ms_ks_strides,
-      b0_gs_ns_ks_lengths,
-      b0_gs_ns_ks_strides,
-      b1_gs_os_ns_lengths,
-      b1_gs_os_ns_strides,
-      c_gs_ms_os_lengths,
-      c_gs_ms_os_strides,
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc0_biases_gs_ms_ns_lengths},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc0_biases_gs_ms_ns_strides},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc1_biases_gs_ms_os_lengths},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc1_biases_gs_ms_os_strides},
-      a_element_op,
-      b0_element_op,
-      acc0_element_op,
-      b1_element_op,
-      c_element_op);
-
-  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-  if (!op.IsSupportedArgument(arg_ptr.get())) {
-    std::ostringstream ostr;
-    ostr << op.GetTypeString() << " does not support this problem";
-
-    throw std::runtime_error(ostr.str());
-  }
-
-  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 9ba0d07a36..80f5f8aa5b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -5,32 +5,47 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v1.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/sequence.hpp>
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type>
-void grouped_forward_mask_type_dispatched(
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void grouped_forward_masktype_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream);
 
 template <typename scalar_t>
 void grouped_forward(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    grouped_forward_mask_type_dispatched<scalar_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    grouped_forward_mask_type_dispatched<scalar_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    grouped_forward_mask_type_dispatched<scalar_t, 2>(param, stream);
-  else
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<scalar_t, 0, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<scalar_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<scalar_t, 1, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<scalar_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<scalar_t, 2, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<scalar_t, 2, false>(
+          param, stream);
+  } else
     throw std::runtime_error("Invalid custom_mask_type value");
 };
 
-template <typename scalar_t, int32_t custom_mask_type = 0>
-void grouped_forward_mask_type_dispatched(
+template <typename scalar_t, int32_t custom_mask_type = 0, bool has_attn_bias>
+void grouped_forward_masktype_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
@@ -44,7 +59,8 @@ void grouped_forward_mask_type_dispatched(
   using CDataType = scalar_t;
   using ZDataType = unsigned short;
   using LSEDataType = F32;
-  using Acc0BiasDataType = ck::Tuple<>;
+  using Acc0BiasDataType = typename std::
+      conditional<has_attn_bias, ck::Tuple<scalar_t>, ck::Tuple<>>::type;
   using Acc1BiasDataType = ck::Tuple<>;
 
   static constexpr ck::index_t NumDimG = 2;
@@ -76,7 +92,7 @@ void grouped_forward_mask_type_dispatched(
   static constexpr bool Deterministic = true;
 
   using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V1<
+      DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
           NumDimG,
           NumDimM,
           NumDimN,
@@ -108,7 +124,7 @@ void grouped_forward_mask_type_dispatched(
           128, // MPerBlock
           128, // NPerBlock
           32, // KPerBlock
-          32, // Gemm1NPerBlock
+          64, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           8, // AK1
           8, // BK1
@@ -117,7 +133,8 @@ void grouped_forward_mask_type_dispatched(
           32, // NPerXDL
           1, // MXdlPerWave
           4, // NXdlPerWave
-          1, // Gemm1NXdlPerWave
+          2, // Gemm1NXdlPerWave
+          1, // DropoutStep
           S<4, 64, 1>, // ABlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
@@ -132,25 +149,47 @@ void grouped_forward_mask_type_dispatched(
           8,
           8,
           true,
+          1,
           S<16, 16, 1>, // B1BlockTransfer
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,
-          2,
+          4,
           2,
           false,
           1, // CShuffleMXdlPerWavePerShuffle
-          1, // CShuffleNXdlPerWavePerShuffle
+          2, // CShuffleNXdlPerWavePerShuffle
           S<1,
-            64,
+            32,
             1,
-            4>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
           8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          1,
           MaskingSpec, // MaskingSpecialization
           Deterministic>;
 
   std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
 
+  auto func_bias_lengths_strides = [&](int G1, int M, int N) {
+    if constexpr (has_attn_bias) {
+      std::vector<ck::index_t> d_gs_ms_ns_lengths{1, G1, M, N};
+      std::vector<ck::index_t> d_gs_ms_ns_strides{
+          0,
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2]};
+
+      auto bias_lengths_arr =
+          std::vector<std::vector<ck::index_t>>{d_gs_ms_ns_lengths};
+      auto bias_strides_arr =
+          std::vector<std::vector<ck::index_t>>{d_gs_ms_ns_strides};
+      return std::make_tuple(bias_lengths_arr, bias_strides_arr);
+    } else
+      return std::make_tuple(
+          std::vector<std::vector<ck::index_t>>{},
+          std::vector<std::vector<ck::index_t>>{});
+  };
+
   for (std::size_t i = 0; i < param.num_batches; i++) {
     int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
     int N = param.host_seqlen_k.empty()
@@ -187,6 +226,8 @@ void grouped_forward_mask_type_dispatched(
     std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
 
+    auto bias_lengths_strides = func_bias_lengths_strides(G1, M, N);
+
     problem_descs.push_back(
         {a_gs_ms_ks_lengths,
          a_gs_ms_ks_strides,
@@ -200,8 +241,8 @@ void grouped_forward_mask_type_dispatched(
          z_gs_ms_ns_strides,
          lse_gs_ms_lengths,
          lse_gs_ms_strides,
-         {}, // acc0_biases_gs_ms_ns_lengths
-         {}, // acc0_biases_gs_ms_ns_strides
+         std::get<0>(bias_lengths_strides),
+         std::get<1>(bias_lengths_strides),
          {}, // acc1_biases_gs_ms_os_lengths
          {}}); // acc1_biases_gs_ms_os_strides
   }
@@ -228,7 +269,7 @@ void grouped_forward_mask_type_dispatched(
       param.out_ptrs,
       param.randvals_ptrs,
       param.logsumexp_ptrs,
-      {}, // p_acc0_biases
+      std::vector<std::vector<const void*>>{param.attn_bias_ptrs},
       {}, // p_acc1_biases
       problem_descs,
       a_element_op,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
deleted file mode 100644
index 46bc95ece3..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ /dev/null
@@ -1,225 +0,0 @@
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_gemm_softmax_gemm_permute_xdl_cshuffle.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/sequence.hpp>
-
-#include "ck_fmha_util.h"
-
-template <typename scalar_t, int32_t custom_mask_typ>
-void grouped_infer_mask_type_dispatched(
-    GroupedInferParams& param,
-    hipStream_t stream);
-
-template <typename scalar_t>
-void grouped_infer(GroupedInferParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    grouped_infer_mask_type_dispatched<scalar_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    grouped_infer_mask_type_dispatched<scalar_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    grouped_infer_mask_type_dispatched<scalar_t, 2>(param, stream);
-  else
-    throw std::runtime_error("Invalid custom_mask_type value");
-};
-
-template <typename scalar_t, int32_t custom_mask_type = 0>
-void grouped_infer_mask_type_dispatched(
-    GroupedInferParams& param,
-    hipStream_t stream) {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using Acc0BiasDataType = ck::Tuple<>;
-  using Acc1BiasDataType = ck::Tuple<>;
-
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
-  using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceGroupedGemmSoftmaxGemmPermute_Xdl_CShuffle<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
-          64, // Gemm1NPerBlock
-          32, // Gemm1KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
-          2, // Gemm1NXdlPerWave
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          8,
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          8,
-          8,
-          true,
-          S<16, 16, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          4,
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
-          2, // CShuffleNXdlPerWavePerShuffle
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
-          MaskingSpec>; // MaskingSpecialization
-
-  std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-  for (std::size_t i = 0; i < param.num_batches; i++) {
-    int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-    int N = param.host_seqlen_k.empty()
-        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-        : param.host_seqlen_k[i];
-    int K = param.K;
-    int Kv = param.Kv;
-    int G0 = 1;
-    int G1 = param.num_heads;
-
-    std::vector<ck::index_t> a_gs_ms_ks_lengths{G0, G1, M, K};
-    std::vector<ck::index_t> a_gs_ms_ks_strides{
-        0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-    std::vector<ck::index_t> b0_gs_ns_ks_lengths{G0, G1, N, K};
-    std::vector<ck::index_t> b0_gs_ns_ks_strides{
-        0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-    // to be changed to b1_gs_ns_os_lengths
-    std::vector<ck::index_t> b1_gs_os_ns_lengths{G0, G1, Kv, N};
-    std::vector<ck::index_t> b1_gs_os_ns_strides = {
-        0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-    std::vector<ck::index_t> c_gs_ms_os_lengths{G0, G1, M, Kv};
-    std::vector<ck::index_t> c_gs_ms_os_strides = {
-        0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-    problem_descs.push_back(
-        {a_gs_ms_ks_lengths,
-         a_gs_ms_ks_strides,
-         b0_gs_ns_ks_lengths,
-         b0_gs_ns_ks_strides,
-         b1_gs_os_ns_lengths,
-         b1_gs_os_ns_strides,
-         c_gs_ms_os_lengths,
-         c_gs_ms_os_strides,
-         {}, // acc0_biases_gs_ms_ns_lengths
-         {}, // acc0_biases_gs_ms_ns_strides
-         {}, // acc1_biases_gs_ms_os_lengths
-         {}}); // acc1_biases_gs_ms_os_strides
-  }
-
-  float alpha = param.scale;
-
-  auto a_element_op = AElementOp{};
-  auto b0_element_op = B0ElementOp{};
-  auto acc0_element_op = Acc0ElementOp{alpha};
-  auto b1_element_op = B1ElementOp{};
-  auto c_element_op = CElementOp{};
-
-  auto op = DeviceOpInstance{};
-  auto invoker = op.MakeInvoker();
-  auto arg_ptr = op.MakeArgumentPointer(
-      param.q_ptrs,
-      param.k_ptrs,
-      param.v_ptrs,
-      param.out_ptrs,
-      {}, // p_acc0_biases
-      {}, // p_acc1_biases
-      problem_descs,
-      a_element_op,
-      b0_element_op,
-      acc0_element_op,
-      b1_element_op,
-      c_element_op);
-
-  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-  if (!op.IsSupportedArgument(arg_ptr.get())) {
-    std::ostringstream ostr;
-
-    ostr << op.GetTypeString() << " does not support this problem";
-
-    throw std::runtime_error(ostr.str());
-  }
-
-  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 8606e6a93f..32e3d0a7e5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -187,6 +187,7 @@ struct BatchedInferParams {
   int Kv; // embed_dim for Value
 
   float scale;
+  bool has_attn_bias;
 
   // BMHK mode strides
   std::array<int, 4> q_strides;
@@ -206,15 +207,18 @@ struct BatchedInferParams {
 };
 
 struct BatchedForwardParams : public BatchedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
+
   float dropout_prob;
   at::PhiloxCudaState rng_engine_inputs;
 
-  // completely contiguous
-  void* logsumexp_ptr;
-
   // BHMN mode strides, completely contiguous
   std::array<int32_t, 4> randvals_strides;
   void* randvals_ptr;
+
+  // completely contiguous
+  void* logsumexp_ptr;
 };
 
 struct GroupedInferParams {
@@ -230,6 +234,7 @@ struct GroupedInferParams {
   std::vector<int> host_seqlen_k;
 
   float scale;
+  bool has_attn_bias;
 
   // MHK mode strides, last-dim contiguous
   std::array<int, 3> q_strides;
@@ -250,15 +255,18 @@ struct GroupedInferParams {
 };
 
 struct GroupedForwardParams : public GroupedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
+
   float dropout_prob;
   at::PhiloxCudaState rng_engine_inputs;
 
-  // completely contiguous
-  std::vector<void*> logsumexp_ptrs;
-
   // HMN mode strides, completely contiguous
   std::array<int, 3> randvals_strides;
   std::vector<void*> randvals_ptrs;
+
+  // completely contiguous
+  std::vector<void*> logsumexp_ptrs;
 };
 
 struct BatchedBackwardParams {

From b0398a170534d49040d0adefb32278078cb8b164 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 13 Aug 2023 17:12:01 +0000
Subject: [PATCH 011/837] Renaming the binding interfaces

---
 xformers/csrc/attention/attention.cpp                       | 4 ++++
 .../csrc/attention/hip_fmha/attention_backward_generic.cpp  | 6 +++---
 .../csrc/attention/hip_fmha/attention_forward_generic.cpp   | 6 +++---
 3 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index f51c8f00e7..ee0e07cc22 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -33,4 +33,8 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::_temp_dropout(Tensor out, float p) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 04a1ccf2bf..2abd35b44a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -22,7 +22,7 @@
 
 namespace {
 std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
-mem_efficient_attention_backward_hip(
+efficient_attention_backward_ck(
     const at::Tensor& grad_out,
     const at::Tensor& query,
     const at::Tensor& key,
@@ -368,6 +368,6 @@ mem_efficient_attention_backward_hip(
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_hip"),
-      TORCH_FN(mem_efficient_attention_backward_hip));
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
+      TORCH_FN(efficient_attention_backward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index f8baf6a8fe..fc300e47db 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -30,7 +30,7 @@ namespace {
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
 std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
-efficient_attention_forward_hip(
+efficient_attention_forward_ck(
     const at::Tensor& query, // [b, seqlen, num_heads, K]
     const at::Tensor& key, // [b, seqlen, num_heads, K]
     const at::Tensor& value, // [b, seqlen, num_heads, Kv]
@@ -388,8 +388,8 @@ bool is_ck_fmha_available() {
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_hip"),
-      TORCH_FN(efficient_attention_forward_hip));
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
+      TORCH_FN(efficient_attention_forward_ck));
 }
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {

From 710b14a5e08f2681ed3ac510cad4fdde02ed460b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Aug 2023 19:18:00 +0000
Subject: [PATCH 012/837] Some fix in ck_fmha_batched_forward.h

---
 .../hip_fmha/attention_backward_generic.cpp   |  7 -----
 .../hip_fmha/attention_forward_generic.cpp    | 27 -------------------
 .../hip_fmha/ck_fmha_batched_forward.h        |  7 +++--
 3 files changed, 5 insertions(+), 36 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 2abd35b44a..c4eb660dee 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -1,10 +1,3 @@
-/*
- * Copyright (c) Meta Platforms, Inc. and affiliates.
- * All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
 #include <cmath>
 
 #include <ATen/Context.h>
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index fc300e47db..25afc5b077 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -1,10 +1,3 @@
-/*
- * Copyright (c) Meta Platforms, Inc. and affiliates.
- * All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
 #include <cmath>
 #include <mutex>
 
@@ -47,12 +40,6 @@ efficient_attention_forward_ck(
     int64_t custom_mask_type,
     c10::optional<double> scale,
     const c10::optional<at::Tensor>& seqlen_k) {
-#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD
-  TORCH_CHECK(
-      false,
-      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_FORWARD");
-#else
-
   TORCH_CHECK(query.dim() == 4);
   TORCH_CHECK(key.dim() == 4);
   TORCH_CHECK(value.dim() == 4);
@@ -375,15 +362,8 @@ efficient_attention_forward_ck(
   std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
 
   return std::make_tuple(out, logsumexp, seed, offset);
-#endif
 }
 
-// For testing in xFormers
-bool is_ck_fmha_available() {
-  std::cout << "ck fmha is really here!" << std::endl;
-  return (true);
-};
-
 } // namespace
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
@@ -391,10 +371,3 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
       TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
       TORCH_FN(efficient_attention_forward_ck));
 }
-
-TORCH_LIBRARY_FRAGMENT(xformers, m) {
-  m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available() -> bool"));
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
-      TORCH_FN(is_ck_fmha_available));
-}
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index f2fb0a69d0..8c2c8f0463 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -185,7 +185,7 @@ void batched_forward_masktype_attnbias_dispatched(
 
   // to be changed to b1_gs_ns_os_lengths
   std::vector<ck::index_t> b1_gs_os_ns_lengths{
-      param.B, param.num_heads, param.N, param.Kv};
+      param.B, param.num_heads, param.Kv, param.N};
   std::vector<ck::index_t> b1_gs_os_ns_strides{
       param.v_strides[0],
       param.v_strides[2],
@@ -210,6 +210,9 @@ void batched_forward_masktype_attnbias_dispatched(
         param.randvals_strides[1],
         param.randvals_strides[2],
         param.randvals_strides[3]};
+  } else {
+    z_gs_ms_ns_lengths = {1, 1, 1, 1};
+    z_gs_ms_ns_strides = {0, 0, 0, 0};
   };
 
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
@@ -283,7 +286,7 @@ void batched_forward_masktype_attnbias_dispatched(
       acc0_element_op,
       b1_element_op,
       c_element_op,
-      param.dropout_prob, // dropout ratio
+      param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
       {seed, offset}); // dropout random seed and offset, offset should be at
                        // least the number of elements on a thread
 

From c3d0fdf2d718a0efc65de0c0e9d15207fb6934b8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Aug 2023 19:20:26 +0000
Subject: [PATCH 013/837] xforemer fmha ops for ck

---
 xformers/ops/__init__.py      |   2 +
 xformers/ops/fmha/__init__.py |   5 +-
 xformers/ops/fmha/ck.py       | 383 ++++++++++++++++++++++++++++++++++
 xformers/ops/fmha/common.py   |   2 +-
 4 files changed, 389 insertions(+), 3 deletions(-)
 create mode 100644 xformers/ops/fmha/ck.py

diff --git a/xformers/ops/__init__.py b/xformers/ops/__init__.py
index e2ddbfb8da..d14468c2b9 100644
--- a/xformers/ops/__init__.py
+++ b/xformers/ops/__init__.py
@@ -17,6 +17,7 @@
     MemoryEfficientAttentionOp,
     MemoryEfficientAttentionTritonFwdFlashBwOp,
     TritonFlashAttentionOp,
+    MemoryEfficientAttentionCkOp,
     memory_efficient_attention,
     memory_efficient_attention_backward,
     memory_efficient_attention_forward,
@@ -73,6 +74,7 @@ def masked_matmul(a, b, mask=None):
     "MemoryEfficientAttentionFlashAttentionOp",
     "MemoryEfficientAttentionOp",
     "MemoryEfficientAttentionTritonFwdFlashBwOp",
+    "MemoryEfficientAttentionCkOp",
     "memory_efficient_attention_backward",
     "memory_efficient_attention_forward",
     "memory_efficient_attention_forward_requires_grad",
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 2101eaa6bb..5d672ef6ff 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -7,7 +7,7 @@
 
 import torch
 
-from . import cutlass, flash, small_k, triton
+from . import cutlass, flash, small_k, triton, ck
 from .attn_bias import AttentionBias, BlockDiagonalMask, LowerTriangularMask
 from .common import (
     AttentionBwOpBase,
@@ -28,7 +28,7 @@
 MemoryEfficientAttentionFlashAttentionOp = (flash.FwOp, flash.BwOp)
 MemoryEfficientAttentionOp = (small_k.FwOp, small_k.BwOp)
 TritonFlashAttentionOp = (triton.FwOp, triton.BwOp)
-
+MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp) 
 
 class _fMHA(torch.autograd.Function):
     @staticmethod
@@ -396,4 +396,5 @@ def _memory_efficient_attention_backward(
     "MemoryEfficientAttentionOp",
     "TritonFlashAttentionOp",
     "memory_efficient_attention",
+    "MemoryEfficientAttentionCkOp",
 ]
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
new file mode 100644
index 0000000000..9cac79d765
--- /dev/null
+++ b/xformers/ops/fmha/ck.py
@@ -0,0 +1,383 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+from enum import Enum
+from typing import Any, List, Mapping, Optional, Set, Tuple, Union
+
+import torch
+
+from ..common import get_xformers_operator, register_operator
+from . import attn_bias
+from .attn_bias import (
+    AttentionBias,
+    BlockDiagonalCausalMask,
+    BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    BlockDiagonalMask,
+    LowerTriangularMask,
+    LowerTriangularMaskWithTensorBias,
+)
+from .common import (
+    AttentionBwOpBase,
+    AttentionFwOpBase,
+    Context,
+    Gradients,
+    Inputs,
+    check_lastdim_alignment_stride1,
+)
+
+def _minimum_gemm_alignment(inp: Inputs) -> int:
+    if inp.device.type != "cuda":
+        return 1
+    bits_per_scalar = {torch.float: 32, torch.half: 16, torch.bfloat16: 16}[
+        inp.query.dtype
+    ]
+    ## for MI200/MI300 only
+    uses_tensorcores = True 
+    matmul_alignment_mn = 4 
+    if uses_tensorcores:
+        matmul_alignment_mn = max(matmul_alignment_mn, 128 // bits_per_scalar)
+    return matmul_alignment_mn
+
+
+def _get_seqlen_info(
+    inp: Inputs,
+) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor]]:
+    attn_bias = inp.attn_bias
+    if isinstance(
+        attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+    ):
+        attn_bias.k_seqinfo.to(inp.query.device)
+        attn_bias.q_seqinfo.to(inp.query.device)
+        seqstart_k = attn_bias.k_seqinfo.seqstart
+        seqstart_q = attn_bias.q_seqinfo.seqstart
+        ##max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
+        ##max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
+    else:
+        seqstart_k = None
+        seqstart_q = None
+        ##max_seqlen_q = -1
+        ##max_seqlen_k = -1
+
+    return seqstart_k, seqstart_q
+
+
+def _get_tensor_bias(
+    attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
+) -> Optional[torch.Tensor]:
+    if isinstance(attn_bias, torch.Tensor):
+        return attn_bias
+    elif isinstance(attn_bias, LowerTriangularMaskWithTensorBias):
+        return attn_bias._bias
+    return None
+
+
+def _check_bias_alignment(
+    reasons: List[str], attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
+) -> None:
+    attn_bias_tensor = _get_tensor_bias(attn_bias)
+    if attn_bias_tensor is not None:
+        alignment = 128 // torch.finfo(attn_bias_tensor.dtype).bits
+        show_padding_hint = False
+        for d in range(attn_bias_tensor.ndim - 1):
+            if attn_bias_tensor.stride(d) % alignment != 0:
+                reasons.append(
+                    f"attn_bias.stride(-2) % {alignment} != 0 (attn_bias.stride() = {attn_bias_tensor.stride()})"
+                )
+                show_padding_hint = True
+        if show_padding_hint:
+            reasons.append(
+                """\
+HINT: To use an `attn_bias` with a sequence length that is not a multiple of 8, \
+you need to ensure memory is aligned by slicing a bigger tensor. \
+Example: use `attn_bias = torch.zeros([1, 1, 5, 8])[:,:,:,:5]` instead of `torch.zeros([1, 1, 5, 5])`"""
+            )
+        # We can have stride=0 sometimes if dimension=1
+        if attn_bias_tensor.stride(-1) > 1:
+            reasons.append(
+                f"attn_bias.stride(-1) > 1 (attn_bias.stride() = {attn_bias_tensor.stride()}) - "
+                "you should call `.contiguous()` on the bias"
+            )
+
+
+class _CustomMaskType(int, Enum):
+    """
+    (Matches CustomMaskType in C++.)
+    """
+
+    NoCustomMask = 0
+    CausalFromTopLeft = 1
+    CausalFromBottomRight = 2
+
+
+def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int:
+    if isinstance(
+        bias,
+        (
+            LowerTriangularMask,
+            BlockDiagonalCausalMask,
+        ),
+    ):
+        return int(_CustomMaskType.CausalFromTopLeft)
+    if isinstance(
+        bias,
+        (
+            attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ),
+    ):
+        return int(_CustomMaskType.CausalFromBottomRight)
+    return int(_CustomMaskType.NoCustomMask)
+
+
+@register_operator
+class FwOp(AttentionFwOpBase):
+    """xFormers' MHA kernel based on Composable Kernel.
+    Supports AMD MI 200 and MI 300 GPUs 
+    """
+
+    OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
+    SUPPORTED_DEVICES: Set[str] = {"cuda"}
+    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
+    SUPPORTED_MAX_K = 65536
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        torch.Tensor,
+        LowerTriangularMask,
+        LowerTriangularMaskWithTensorBias,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    }
+    SUPPORTS_DROPOUT = True
+    SUPPORTS_CUSTOM_SCALE = True
+    SUPPORTS_DIFFERENT_VALUE_EMBED = True
+    NAME = "ckF"
+
+    _TEST_K: List[int] = [
+        32,  # 64x64 kernel
+        128,  # 64x128 kernel
+        256,  # 64x128 with accumulation in gmem
+    ]
+
+    @classmethod
+    def apply(
+        cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
+            raise NotImplementedError("Unsupported attn_bias type")
+        seqstart_k, seqstart_q  = _get_seqlen_info(inp)
+        out, lse, rng_seed, rng_offset = cls.OPERATOR(
+            query=inp.query,
+            key=inp.key,
+            value=inp.value,
+            attn_bias=_get_tensor_bias(inp.attn_bias),
+            seqstart_q=seqstart_q,
+            seqstart_k=seqstart_k,
+            dropout_p=inp.p,
+            compute_logsumexp=needs_gradient,
+            custom_mask_type=_custom_mask_type(inp.attn_bias),
+            scale=inp.scale,
+            seqlen_k=inp.attn_bias.k_seqinfo.seqlen
+            if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+            else None,
+        )
+        ctx: Optional[Context] = None
+        if needs_gradient:
+            ctx = Context(
+                out=out,
+                lse=lse,
+                # cutlass forward is only compatible with cutlass backward if
+                # dropout is used (because of the way RNG states are passed and the
+                # way random numbers are generated during backward)
+                op_bw=BwOp if inp.p != 0 else None,
+            )
+            if inp.p != 0:
+                ctx.rng_state = torch.tensor(
+                    [rng_seed, rng_offset], dtype=torch.int64, device="cpu"
+                )
+        return out, ctx
+
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(FwOp, cls).not_supported_reasons(d)
+        matmul_alignment_mn = _minimum_gemm_alignment(d)
+        check_lastdim_alignment_stride1(reasons, "query", d.query, matmul_alignment_mn)
+        check_lastdim_alignment_stride1(reasons, "value", d.value, matmul_alignment_mn)
+        _check_bias_alignment(reasons, d.attn_bias)
+        return reasons
+
+    @classmethod
+    # type: ignore
+    def operator_flop(
+        cls,
+        q,
+        k,
+        v,
+        b,
+        seqstart_q,
+        seqstart_k,
+        compute_lse,
+        custom_mask_type,
+        *a,
+    ) -> int:
+        return cls.attn_operator_flop(
+            q,
+            k,
+            v,
+            causal=custom_mask_type > 0,
+            seqstart_k=seqstart_k,
+            seqstart_q=seqstart_q,
+        )
+
+
+@register_operator
+class BwOp(AttentionBwOpBase):
+    __doc__ = FwOp.__doc__
+
+    OPERATOR = get_xformers_operator("efficient_attention_backward_ck")
+    SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
+    SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
+    SUPPORTED_MAX_K = FwOp.SUPPORTED_MAX_K
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        torch.Tensor,
+        LowerTriangularMask,
+        # TODO: Fix handling of gradient through the fMHA autograd function
+        # LowerTriangularMaskWithTensorBias,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    }
+    SUPPORTS_ATTN_BIAS_GRAD = True
+    SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
+    SUPPORTS_CUSTOM_SCALE = FwOp.SUPPORTS_CUSTOM_SCALE
+    SUPPORTS_DIFFERENT_VALUE_EMBED = FwOp.SUPPORTS_DIFFERENT_VALUE_EMBED
+    NAME = "ckB"
+
+    ERROR_ATOL: Mapping[torch.dtype, float] = {
+        torch.float: 5e-4,
+        # increased from 9e-2, more opportunities for numerical errors when bias is
+        # used, noticed in gK on SM80
+        torch.half: 1e-1,
+        torch.bfloat16: 7e-1,
+    }
+
+    _TEST_K: List[int] = [
+        32,  # 64x64 kernel
+        128,  # 64x128/128x128 kernel
+        256,  # 64x128 with accumulation in gmem
+    ]
+
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(BwOp, cls).not_supported_reasons(d)
+        matmul_alignment_mn = _minimum_gemm_alignment(d)
+
+        check_lastdim_alignment_stride1(reasons, "query", d.query, matmul_alignment_mn)
+        check_lastdim_alignment_stride1(reasons, "key", d.key, matmul_alignment_mn)
+        check_lastdim_alignment_stride1(reasons, "value", d.value, matmul_alignment_mn)
+        _check_bias_alignment(reasons, d.attn_bias)
+        attn_bias_tensor = _get_tensor_bias(d.attn_bias)
+
+        # Backprop of gradient through broadcasted bias is not supported
+        if attn_bias_tensor is not None and attn_bias_tensor.requires_grad:
+            # Don't forget that inputs are either in BMK or BMHK!
+            if d.query.ndim == 3 and attn_bias_tensor.ndim == 3:
+                expected_bias_shape = (*d.query.shape[:2], d.key.shape[1])
+            else:
+                # bias is B H Mq Mk
+                expected_bias_shape = (
+                    d.query.shape[0],
+                    d.query.shape[2] if d.query.ndim == 4 else 1,
+                    d.query.shape[1],
+                    d.key.shape[1],
+                )
+            if tuple(attn_bias_tensor.shape) != expected_bias_shape:
+                reasons.append(
+                    "Broadcasting the `attn_bias` tensor is not supported "
+                    f"(shape: {tuple(attn_bias_tensor.shape)}"
+                    f"/ expected: {expected_bias_shape})"
+                )
+        return reasons
+
+    @classmethod
+    def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
+        if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
+            raise NotImplementedError("Unsupported attn_bias type")
+
+        seqstart_k, seqstart_q = _get_seqlen_info(inp)
+        dtype = inp.query.dtype
+
+        rng_seed = rng_offset = 0
+        if inp.p != 0.0:
+            if (
+                ctx.rng_state is None
+                or ctx.rng_state.dtype != torch.int64
+                or ctx.rng_state.device.type != "cpu"
+                or ctx.rng_state.shape != (2,)
+            ):
+                raise NotImplementedError(f"Invalid rng_state: {ctx.rng_state}")
+            rng_seed, rng_offset = ctx.rng_state.tolist()
+
+        force_pad_inf = torch.cuda.get_device_capability(inp.query.device) == (7, 5)
+        (grad_q, grad_k, grad_v, grad_bias) = cls.OPERATOR(
+            grad.to(dtype),
+            inp.query,
+            inp.key,
+            inp.value,
+            _get_tensor_bias(inp.attn_bias),
+            cu_seqlens_q=seqstart_q,
+            cu_seqlens_k=seqstart_k,
+            logsumexp=ctx.get_padded_lse(32, force_pad_inf=force_pad_inf),
+            output=ctx.out.to(dtype),
+            dropout_p=inp.p,
+            # if not using dropout, seed and offset are irrelevant but still expected
+            # in function signature so just pass 0
+            # seed and offset could be None if a different FW op other than cutlass
+            # was used.
+            rng_seed=rng_seed,
+            rng_offset=rng_offset,
+            custom_mask_type=_custom_mask_type(inp.attn_bias),
+            scale=inp.scale,
+        )
+
+        # c++/CUDA implementation returns an uninitialized tensor if bias doesn't
+        # require grad
+        if not (
+            isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.requires_grad
+        ):
+            grad_bias = None
+
+        return Gradients(dq=grad_q, dk=grad_k, dv=grad_v, db=grad_bias)
+
+    @classmethod
+    # type: ignore
+    def operator_flop(
+        cls,
+        dO,
+        q,
+        k,
+        v,
+        b,
+        cu_seqlens_q,
+        cu_seqlens_k,
+        logsumexp,
+        output,
+        dropout_p,
+        rng_seed,
+        rng_offset,
+        custom_mask_type,
+        scale,
+    ) -> int:
+        return cls.attn_operator_flop(
+            q,
+            k,
+            v,
+            seqstart_q=cu_seqlens_q,
+            seqstart_k=cu_seqlens_k,
+            causal=custom_mask_type > 0,
+        )
diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index c9c599da63..d537d71e46 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -172,7 +172,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         dtype = d.query.dtype
         if device_type not in cls.SUPPORTED_DEVICES:
             reasons.append(f"device={device_type} (supported: {cls.SUPPORTED_DEVICES})")
-        if device_type == "cuda" and not _built_with_cuda:
+        if device_type == "cuda" and not _built_with_cuda and (torch.version.hip is None):
             reasons.append("xFormers wasn't build with CUDA support")
         if dtype not in cls.SUPPORTED_DTYPES:
             reasons.append(f"dtype={dtype} (supported: {cls.SUPPORTED_DTYPES})")

From 2cde6d2290f6641e22a5f915e813f682c65b743c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Aug 2023 19:22:09 +0000
Subject: [PATCH 014/837] Add several very simple testing for ck flashAttention

---
 tests/test_ck_1.py |  33 +++
 tests/test_ck_2.py | 558 ++++++++++++++++++++++++++++++++++++++++++++
 tests/test_ck_3.py | 562 +++++++++++++++++++++++++++++++++++++++++++++
 3 files changed, 1153 insertions(+)
 create mode 100644 tests/test_ck_1.py
 create mode 100644 tests/test_ck_2.py
 create mode 100644 tests/test_ck_3.py

diff --git a/tests/test_ck_1.py b/tests/test_ck_1.py
new file mode 100644
index 0000000000..b5dba2d215
--- /dev/null
+++ b/tests/test_ck_1.py
@@ -0,0 +1,33 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import random
+
+import pytest
+import torch
+
+from xformers.ops.common import get_xformers_operator
+
+B = 7
+M = 1000
+N = 1000
+H = 13
+K = 64
+Kv = 64
+
+_types = [torch.float16, torch.bfloat16]
+
+@pytest.mark.parametrize("test_type", _types)
+def test_types(test_type):
+    query = torch.rand((B, M, H, K), device=torch.device("cuda"), dtype=test_type)
+    key = torch.rand((B, N, H, K), device=torch.device("cuda"), dtype=test_type)
+    val = torch.rand((B, N, H, Kv), device=torch.device("cuda"), dtype=test_type)
+
+    Operator=get_xformers_operator("efficient_attention_forward_ck")
+
+    out, lse, rng_seed, rng_offset = Operator(query=query, key=key, value=val, attn_bias=None, seqstart_q=None, seqstart_k=None, dropout_p=0.0, compute_logsumexp=False, custom_mask_type=0, scale=None, seqlen_k=None)
+
+    print(rng_seed)
+
diff --git a/tests/test_ck_2.py b/tests/test_ck_2.py
new file mode 100644
index 0000000000..5382ba5bf7
--- /dev/null
+++ b/tests/test_ck_2.py
@@ -0,0 +1,558 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+
+## need to FIX
+##from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+_devices = ["cuda"] if torch.cuda.is_available() else ["cpu"]
+_types = [torch.float16, torch.bfloat16]
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
+    fmha.ck.BwOp,
+]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    for B in op._TEST_BATCH_SIZES:
+        for Mq in [32, 256]:
+            for Mkv in [32, 64, 256]:
+                for K in op._TEST_K:
+                    shapes.append((B, Mq, Mkv, 1, K, K))
+        Mq = 256
+        Mkv = 128
+        K = 32
+        H = 1
+        # Weird values of parameters
+        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
+            shapes.append((B, M, Mkv, H, K, K))
+            shapes.append((B, Mq, M, H, K, K))
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 256 + 2, 256 + 8, 512]:
+            if _K <= op.SUPPORTED_MAX_K:
+                shapes.append((B, Mq, Mkv, H, _K, _K))
+        # Different value for K / Kv
+        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+            for _K in [32, 36, 64, 256 + 8]:
+                shapes.append((B, Mq, Mkv, H, K, _K))
+                shapes.append((B, Mq, Mkv, H, _K, K))
+        # Exotic sizes
+        for K in op._TEST_K:
+            shapes.append((B, 16, 1024, H, K, K))
+            shapes.append((B, 1024, 16, H, K, K))
+        # Some number of heads
+        for H in [3, 5, 12]:
+            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        for _ in range(20):
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(
+            sorted(list(op.SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
+        )
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+    return {
+        "argvalues": combination,
+        "ids": ids,
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
+)
+
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor.float()
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+
+            # make sure it also works if the first columns are partially masked out
+            attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+'''
+def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
+    tensor_with_grad: Optional[torch.Tensor] = None
+    if isinstance(attn_bias, torch.Tensor):
+        tensor_with_grad = attn_bias
+    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+        tensor_with_grad = attn_bias._bias
+    if tensor_with_grad is not None:
+        grad = tensor_with_grad.grad
+        if clear:
+            tensor_with_grad.grad = None
+        return grad
+    return None
+'''
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+@pytest.mark.parametrize("k_len", [32, 64])
+@pytest.mark.parametrize("batch_size", [4])
+@pytest.mark.parametrize("kv_len", [128, 512])
+@pytest.mark.parametrize("q_len", [128, 512])
+@pytest.mark.parametrize("device", _devices)
+@pytest.mark.parametrize("test_type", _types)
+def test_key_query_all_ones(test_type, device, q_len, kv_len, batch_size, k_len):
+    scale = 3
+    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=test_type)
+    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=test_type)
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=test_type) * scale
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
+    # this should be equivalent to the average over value
+    ref = value.mean(1, keepdim=True).expand_as(query)
+
+    if test_type is torch.float16:
+        assert_allclose(out, ref, atol=1e-5)
+    else:
+        assert_allclose(out, ref, atol=1e-2)
+
+
diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
new file mode 100644
index 0000000000..9b790c7439
--- /dev/null
+++ b/tests/test_ck_3.py
@@ -0,0 +1,562 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+
+## need to FIX
+##from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from tests.utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        for _ in range(20):
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(
+            sorted(list(op.SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
+        )
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+    return {
+        "argvalues": combination,
+        "ids": ids,
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor.float()
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+
+            # make sure it also works if the first columns are partially masked out
+            attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+'''
+SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        torch.Tensor,
+        LowerTriangularMask,
+        LowerTriangularMaskWithTensorBias,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        attn_bias.BlockDiagonalCausalFromBottomRightMask,
+'''
+
+@pytest.mark.parametrize("packed", [False, True])
+@pytest.mark.parametrize("fmt", ["BMHK"])
+def test_forward(fmt, packed):
+    op = fmha.ck.FwOp
+    device = torch.device("cuda")
+    dtype = torch.float16 
+    bias_type = fmha.attn_bias.LowerTriangularMask
+    batch_size = 7 
+    q_len = 1000
+    kv_len = 1000
+    h = 3
+    k = 64
+    kv = 64
+
+    if packed and not (k == kv and q_len == kv_len):
+        pytest.skip(
+            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
+        )
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
+        pytest.skip("BMK incompatible with this bias")
+
+    query, key, value, attn_bias = create_tensors(
+        op, device, dtype, bias_type, batch_size, q_len, kv_len, h, k, kv, fmt="BMHK" if packed else fmt
+    )
+
+    if packed:
+        c = torch.stack([query, key, value], 2)
+        if fmt == "BMK":
+            # bm3hk -> 3bhmk -> 3Bmk
+            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            query, key, value = c[0], c[1], c[2]
+            # Re-create bias in the right format
+            attn_bias = create_attn_bias(
+                bias_type=bias_type,
+                batch_size=batch_size,
+                num_heads=h,
+                q_len=q_len,
+                kv_len=kv_len,
+                device=device,
+                dtype=dtype,
+                requires_grad=False,
+                fmt=fmt,
+                op=op,
+            )
+        else:
+            # bm3hk -> 3 x bmhk
+            query, key, value = xformers.ops.unbind(c, 2)
+        assert not query.is_contiguous()
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+

From 674b4574d5dce4ea4f8624a96aba51a947401658 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 15 Aug 2023 12:20:07 +0000
Subject: [PATCH 015/837] Update to synchronize with the change in CK
 FlashAttentin forward for simplifying the interfaces

---
 .../hip_fmha/ck_fmha_batched_forward.h        | 56 ++++++++-----------
 .../hip_fmha/ck_fmha_grouped_forward.h        | 54 ++++++++----------
 .../csrc/attention/hip_fmha/ck_fmha_test.cpp  | 21 +++++++
 3 files changed, 68 insertions(+), 63 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 8c2c8f0463..eb7c85bb1d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -58,9 +58,9 @@ void batched_forward_masktype_attnbias_dispatched(
   using CDataType = scalar_t;
   using ZDataType = unsigned short;
   using LSEDataType = F32;
-  using Acc0BiasDataType = typename std::
-      conditional<has_attn_bias, ck::Tuple<scalar_t>, ck::Tuple<>>::type;
-  using Acc1BiasDataType = ck::Tuple<>;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
 
   static constexpr ck::index_t NumDimG = 2;
   static constexpr ck::index_t NumDimM = 1;
@@ -217,28 +217,20 @@ void batched_forward_masktype_attnbias_dispatched(
 
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
-  auto bias_ptr_lengths_strides = [&]() {
-    if constexpr (has_attn_bias) {
-      auto bias_ptr_arr =
-          std::array<void*, 1>{const_cast<void*>(param.attn_bias_ptr)};
-      std::vector<ck::index_t> d_gs_ms_ns_lengths{
-          param.B, param.num_heads, param.M, param.N};
-      std::vector<ck::index_t> d_gs_ms_ns_strides{
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-      auto bias_lengths_arr =
-          std::array<std::vector<ck::index_t>, 1>{d_gs_ms_ns_lengths};
-      auto bias_strides_arr =
-          std::array<std::vector<ck::index_t>, 1>{d_gs_ms_ns_strides};
-      return std::make_tuple(bias_ptr_arr, bias_lengths_arr, bias_strides_arr);
-    } else
-      return std::make_tuple(
-          std::array<void*, 0>{},
-          std::array<std::vector<ck::index_t>, 0>{},
-          std::array<std::vector<ck::index_t>, 0>{});
-  }();
+  std::vector<ck::index_t> d_gs_ms_ns_lengths;
+  std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+  if constexpr (has_attn_bias) {
+    d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+    d_gs_ms_ns_strides = {
+        param.attn_bias_strides[0],
+        param.attn_bias_strides[1],
+        param.attn_bias_strides[2],
+        param.attn_bias_strides[3]};
+  } else {
+    d_gs_ms_ns_lengths = {1, 1, 1, 1};
+    d_gs_ms_ns_strides = {0, 0, 0, 0};
+  };
 
   float alpha = param.scale;
 
@@ -262,8 +254,8 @@ void batched_forward_masktype_attnbias_dispatched(
       param.out_ptr,
       param.randvals_ptr,
       param.logsumexp_ptr,
-      std::get<0>(bias_ptr_lengths_strides),
-      {}, // std::array<void*, 1> p_acc1_biases;
+      param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+      {}, // p_acc1_biases;
       a_gs_ms_ks_lengths,
       a_gs_ms_ks_strides,
       b0_gs_ns_ks_lengths,
@@ -275,12 +267,10 @@ void batched_forward_masktype_attnbias_dispatched(
       z_gs_ms_ns_lengths,
       z_gs_ms_ns_strides,
       lse_gs_ms_lengths,
-      std::get<1>(bias_ptr_lengths_strides),
-      std::get<2>(bias_ptr_lengths_strides),
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc1_biases_gs_ms_os_lengths},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc1_biases_gs_ms_os_strides},
+      d_gs_ms_ns_lengths,
+      d_gs_ms_ns_strides,
+      {}, // acc1_biases_gs_ms_os_lengths
+      {}, // acc1_biases_gs_ms_os_strides,
       a_element_op,
       b0_element_op,
       acc0_element_op,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 80f5f8aa5b..3e9fc813fc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -59,9 +59,9 @@ void grouped_forward_masktype_attnbias_dispatched(
   using CDataType = scalar_t;
   using ZDataType = unsigned short;
   using LSEDataType = F32;
-  using Acc0BiasDataType = typename std::
-      conditional<has_attn_bias, ck::Tuple<scalar_t>, ck::Tuple<>>::type;
-  using Acc1BiasDataType = ck::Tuple<>;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
 
   static constexpr ck::index_t NumDimG = 2;
   static constexpr ck::index_t NumDimM = 1;
@@ -170,26 +170,6 @@ void grouped_forward_masktype_attnbias_dispatched(
 
   std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
 
-  auto func_bias_lengths_strides = [&](int G1, int M, int N) {
-    if constexpr (has_attn_bias) {
-      std::vector<ck::index_t> d_gs_ms_ns_lengths{1, G1, M, N};
-      std::vector<ck::index_t> d_gs_ms_ns_strides{
-          0,
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2]};
-
-      auto bias_lengths_arr =
-          std::vector<std::vector<ck::index_t>>{d_gs_ms_ns_lengths};
-      auto bias_strides_arr =
-          std::vector<std::vector<ck::index_t>>{d_gs_ms_ns_strides};
-      return std::make_tuple(bias_lengths_arr, bias_strides_arr);
-    } else
-      return std::make_tuple(
-          std::vector<std::vector<ck::index_t>>{},
-          std::vector<std::vector<ck::index_t>>{});
-  };
-
   for (std::size_t i = 0; i < param.num_batches; i++) {
     int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
     int N = param.host_seqlen_k.empty()
@@ -226,7 +206,21 @@ void grouped_forward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
 
-    auto bias_lengths_strides = func_bias_lengths_strides(G1, M, N);
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {1, G1, M, N};
+      d_gs_ms_ns_strides = {
+          0,
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2]};
+
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    };
 
     problem_descs.push_back(
         {a_gs_ms_ks_lengths,
@@ -241,10 +235,10 @@ void grouped_forward_masktype_attnbias_dispatched(
          z_gs_ms_ns_strides,
          lse_gs_ms_lengths,
          lse_gs_ms_strides,
-         std::get<0>(bias_lengths_strides),
-         std::get<1>(bias_lengths_strides),
-         {}, // acc1_biases_gs_ms_os_lengths
-         {}}); // acc1_biases_gs_ms_os_strides
+         d_gs_ms_ns_lengths,
+         d_gs_ms_ns_strides,
+         {}, // acc1_bias_gs_ms_os_lengths
+         {}}); // acc1_bias_gs_ms_os_strides
   }
 
   // TODO, how to initialize seed, offset
@@ -269,7 +263,7 @@ void grouped_forward_masktype_attnbias_dispatched(
       param.out_ptrs,
       param.randvals_ptrs,
       param.logsumexp_ptrs,
-      std::vector<std::vector<const void*>>{param.attn_bias_ptrs},
+      param.attn_bias_ptrs,
       {}, // p_acc1_biases
       problem_descs,
       a_element_op,
@@ -277,7 +271,7 @@ void grouped_forward_masktype_attnbias_dispatched(
       acc0_element_op,
       b1_element_op,
       c_element_op,
-      param.dropout_prob, // dropout ratio
+      param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
       {seed, offset});
 
   SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
new file mode 100644
index 0000000000..1b451b5f91
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
@@ -0,0 +1,21 @@
+#include <iostream>
+
+#include <torch/library.h>
+
+namespace {
+
+// For testing xFormers building and binding
+bool is_ck_fmha_available(double val) {
+  std::cout << "ck fmha is really here, val=" << val << std::endl;
+  return (true);
+};
+
+} // namespace
+
+TORCH_LIBRARY_FRAGMENT(xformers, m) {
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::is_ck_fmha_available(float val) -> bool"));
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
+      TORCH_FN(is_ck_fmha_available));
+}

From 121f4a2e0c8dda0eda086c081878d63bd45aa805 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 15 Aug 2023 21:27:47 +0000
Subject: [PATCH 016/837] Update to use vector size 1 to enable all A/B/B1/C
 sizes for testing

---
 .../hip_fmha/attention_forward_generic.cpp        |  2 ++
 .../attention/hip_fmha/ck_fmha_batched_forward.h  | 15 ++++++++++-----
 .../attention/hip_fmha/ck_fmha_grouped_forward.h  | 15 ++++++++++-----
 3 files changed, 22 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 25afc5b077..920ec43aa5 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -348,11 +348,13 @@ efficient_attention_forward_ck(
     if (!seqstart_q.has_value()) { // input is batched
       BatchedForwardParams batched_forward_params;
 
+      std::cout << " -------- call batched_forward ---------" << std::endl; 
       set_batched_forward_params(batched_forward_params);
       batched_forward<scalar_t>(batched_forward_params, stream);
     } else { // input is grouped
       GroupedForwardParams grouped_forward_params;
 
+      std::cout << " -------- call grouped_forward ---------" << std::endl; 
       set_grouped_forward_params(grouped_forward_params);
       grouped_forward<scalar_t>(grouped_forward_params, stream);
     }
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index eb7c85bb1d..5cb94229d9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -90,6 +90,11 @@ void batched_forward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
+  // Tunables
+  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
   using DeviceOpInstance = ck::tensor_operation::device::
       DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
           NumDimG,
@@ -138,22 +143,22 @@ void batched_forward_masktype_attnbias_dispatched(
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
           S<4, 64, 1>, // BBlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
-          4,
+          Acc0BiasTransferSrcScalarPerVector, // TUNABLE
           S<16, 16, 1>, // B1BlockTransfer
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,
-          4,
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
           2,
           false,
           1, // CShuffleMXdlPerWavePerShuffle
@@ -162,7 +167,7 @@ void batched_forward_masktype_attnbias_dispatched(
             32,
             1,
             8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
           4,
           MaskingSpec, // MaskingSpecialization
           Deterministic>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 3e9fc813fc..97efabfe54 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -91,6 +91,11 @@ void grouped_forward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = true;
 
+  // Tunables
+  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
   using DeviceOpInstance = ck::tensor_operation::device::
       DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
           NumDimG,
@@ -139,22 +144,22 @@ void grouped_forward_masktype_attnbias_dispatched(
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
           S<4, 64, 1>, // BBlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
-          1,
+          Acc0BiasTransferSrcScalarPerVector,
           S<16, 16, 1>, // B1BlockTransfer
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,
-          4,
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
           2,
           false,
           1, // CShuffleMXdlPerWavePerShuffle
@@ -163,7 +168,7 @@ void grouped_forward_masktype_attnbias_dispatched(
             32,
             1,
             8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          8, // CShuffleBlockTransferScalarPerVector_NPerBlock
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
           1,
           MaskingSpec, // MaskingSpecialization
           Deterministic>;

From 091e73960125ad2f98184b7783607fda2edecef6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 15 Aug 2023 21:29:22 +0000
Subject: [PATCH 017/837] Add test_ck_4.py which passed the BMHK for four mask
 situations(none,Biastensor,LowerTriangular,LowerTriangularWithBiasTensor)

---
 tests/test_ck_4.py | 581 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 581 insertions(+)
 create mode 100644 tests/test_ck_4.py

diff --git a/tests/test_ck_4.py b/tests/test_ck_4.py
new file mode 100644
index 0000000000..ed58804c2b
--- /dev/null
+++ b/tests/test_ck_4.py
@@ -0,0 +1,581 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Any, Set
+
+import pytest
+import torch
+
+## need to FIX
+##from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+from xformers.ops.fmha.attn_bias import (
+    AttentionBias,
+    BlockDiagonalCausalMask,
+    BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    BlockDiagonalMask,
+    BlockDiagonalCausalFromBottomRightMask,
+    LowerTriangularMask,
+    LowerTriangularMaskWithTensorBias,
+)
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+_devices = ["cuda"] if torch.cuda.is_available() else ["cpu"]
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        for _ in range(20):
+            B = r.randint(4, 400)
+            Mq = r.randint(4, 500)
+            Mkv = r.randint(4, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 4)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        #torch.Tensor,
+        #LowerTriangularMask,
+        #LowerTriangularMaskWithTensorBias,
+        ##BlockDiagonalMask,
+        ##BlockDiagonalCausalMask,
+        ##BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ##BlockDiagonalCausalFromBottomRightMask,
+    }
+
+SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half}
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(
+            sorted(list(SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
+        )
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                ##for dtype in op.SUPPORTED_DTYPES:
+                for dtype in SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (4, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (4, 1 + 2**16, 4, 1, 8, 8),
+            (4, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+    return {
+        "argvalues": combination,
+        "ids": ids,
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor.float()
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+
+            # make sure it also works if the first columns are partially masked out
+            attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+
+@pytest.mark.parametrize("fmt", ["BMHK"])
+@pytest.mark.parametrize("packed", [False])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_forward(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed,
+    fmt,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    if packed and not (k == kv and q_len == kv_len):
+        pytest.skip(
+            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
+        )
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
+        pytest.skip("BMK incompatible with this bias")
+
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+    )
+
+    if packed:
+        c = torch.stack([query, key, value], 2)
+        if fmt == "BMK":
+            # bm3hk -> 3bhmk -> 3Bmk
+            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            query, key, value = c[0], c[1], c[2]
+            # Re-create bias in the right format
+            attn_bias = create_attn_bias(
+                bias_type=bias_type,
+                batch_size=batch_size,
+                num_heads=h,
+                q_len=q_len,
+                kv_len=kv_len,
+                device=device,
+                dtype=dtype,
+                requires_grad=False,
+                fmt=fmt,
+                op=op,
+            )
+        else:
+            # bm3hk -> 3 x bmhk
+            query, key, value = xformers.ops.unbind(c, 2)
+        assert not query.is_contiguous()
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+

From fc446a6f812117b62a2c06c045b712f4e26f10d7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 16 Aug 2023 16:43:25 +0000
Subject: [PATCH 018/837] Update to the tolerance value for bfloat16 in
 test_ck_4.py and ck.py

---
 tests/test_ck_4.py      | 20 ++++++++++----------
 xformers/ops/fmha/ck.py | 11 +++++++++++
 2 files changed, 21 insertions(+), 10 deletions(-)

diff --git a/tests/test_ck_4.py b/tests/test_ck_4.py
index ed58804c2b..f04d4b328d 100644
--- a/tests/test_ck_4.py
+++ b/tests/test_ck_4.py
@@ -78,17 +78,17 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
 
 
 SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        type(None),
-        #torch.Tensor,
-        #LowerTriangularMask,
-        #LowerTriangularMaskWithTensorBias,
+        ##type(None),
+        torch.Tensor,
+        ##LowerTriangularMask,
+        ##LowerTriangularMaskWithTensorBias,
         ##BlockDiagonalMask,
         ##BlockDiagonalCausalMask,
         ##BlockDiagonalCausalWithOffsetPaddedKeysMask,
         ##BlockDiagonalCausalFromBottomRightMask,
     }
 
-SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half}
+SUPPORTED_DTYPES: Set[torch.dtype] = {torch.bfloat16}
 
 def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
@@ -143,10 +143,10 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
         bias_type = type(None)
         for shape in (
             # Some strides/dims don't fit on an uint16
-            (4, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (4, 1 + 2**16, 4, 1, 8, 8),
-            (4, 4, 1 + 2**16, 1, 8, 8),
+            (4, 128, 128, 8, 128, 128),
+            (13, 1, 67, 16, 8, 8),
+            (4, 320, 4, 1, 8, 8),
+            (4, 4, 320, 1, 8, 8),
             # TODO: Some strides don't fit on an uint32
             # Crashes on Flash, Errors on Cutlass
             # (1, 1, 64000, 300, 128, 128)
@@ -576,6 +576,6 @@ def test_forward(
         out.float(),
         ref,
         atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+        rtol=op.ERROR_RTOL[dtype],
     )
 
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 9cac79d765..4bc21251d9 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -157,6 +157,17 @@ class FwOp(AttentionFwOpBase):
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
     NAME = "ckF"
 
+    ERROR_ATOL: Mapping[torch.dtype, float] = {
+        torch.float: 3e-4,
+        torch.half: 4e-3,
+        torch.bfloat16: 2e-2,
+    }
+    ERROR_RTOL: Mapping[torch.dtype, float] = {
+        torch.float: 2e-5,
+        torch.half: 4e-4,
+        torch.bfloat16: 2e-2,
+    }
+
     _TEST_K: List[int] = [
         32,  # 64x64 kernel
         128,  # 64x128 kernel

From 19b626713ccec45a272d867d3633fd6cfe487966 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 17 Aug 2023 14:18:09 +0000
Subject: [PATCH 019/837] Update composable_kernel to latest commit

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index d20c472f8d..e296ee56b3 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit d20c472f8d5a00da0934e91f3ddc16f7dd3e3ecb
+Subproject commit e296ee56b35207af047ef3a5cb0f00788c9f2cf0

From 321445dd9581626a4a5e9193ddd78ac9828252a6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 20 Aug 2023 23:53:53 +0000
Subject: [PATCH 020/837] Fix in hip_fmha C++ codes to make 3 of 4
 BlockDiagonal attn_bias types passed for test_ck_3.py

---
 tests/test_ck_3.py                            |  5 +-
 .../hip_fmha/attention_forward_generic.cpp    | 49 +++++++++----------
 .../hip_fmha/ck_fmha_grouped_forward.h        |  3 ++
 3 files changed, 28 insertions(+), 29 deletions(-)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 9b790c7439..21bd67586f 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -491,12 +491,13 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
 '''
 
 @pytest.mark.parametrize("packed", [False, True])
-@pytest.mark.parametrize("fmt", ["BMHK"])
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 def test_forward(fmt, packed):
     op = fmha.ck.FwOp
     device = torch.device("cuda")
     dtype = torch.float16 
-    bias_type = fmha.attn_bias.LowerTriangularMask
+    ##bias_type = fmha.attn_bias.LowerTriangularMask
+    bias_type = fmha.attn_bias.BlockDiagonalCausalMask
     batch_size = 7 
     q_len = 1000
     kv_len = 1000
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 920ec43aa5..785f275e0d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -218,6 +218,7 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      p.has_attn_bias = true;
       const at::Tensor bias_4d_view =
           get_bias_4d_view(*bias, B, num_heads, M, N);
       p.attn_bias_strides = {
@@ -225,7 +226,8 @@ efficient_attention_forward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
-    };
+    } else
+      p.has_attn_bias = false;
 
     p.custom_mask_type = custom_mask_type;
 
@@ -245,6 +247,7 @@ efficient_attention_forward_ck(
         seqstart_k->data_ptr(),
         (p.num_batches + 1) * sizeof(int32_t),
         hipMemcpyDeviceToHost));
+
     if (seqlen_k.has_value())
       FMHA_HIP_CHECK(hipMemcpy(
           p.host_seqlen_k.data(),
@@ -257,41 +260,33 @@ efficient_attention_forward_ck(
     char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
 
     char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
+    char* attn_bias_ptr =
+        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
 
     for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_q_stride = get_size_in_bytes(
+      int32_t tmp_q_offset = get_size_in_bytes(
           p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
-      int32_t tmp_k_stride = get_size_in_bytes(
+      int32_t tmp_k_offset = get_size_in_bytes(
           p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
-      int32_t tmp_v_stride = get_size_in_bytes(
+      int32_t tmp_v_offset = get_size_in_bytes(
           p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
-      int32_t tmp_o_stride = get_size_in_bytes(
+      int32_t tmp_o_offset = get_size_in_bytes(
           p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
 
-      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
-      q_ptr = q_ptr + tmp_q_stride;
-
-      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
-      k_ptr = k_ptr + tmp_k_stride;
-
-      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
-      v_ptr = v_ptr + tmp_k_stride;
-
-      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
-      out_ptr = out_ptr + tmp_o_stride;
+      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
+      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
+      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
+      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
 
       if (bias.has_value()) {
-        p.has_attn_bias = true;
-        int32_t tmp_bias_stride = get_size_in_bytes(
+        int32_t tmp_bias_offset = get_size_in_bytes(
             p.host_seqstart_q[i] * p.attn_bias_strides[2] +
                 p.host_seqstart_k[i] * p.attn_bias_strides[3],
             bias->scalar_type());
 
-        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
-        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
-      } else
-        p.has_attn_bias = false;
+        p.attn_bias_ptrs.push_back(
+            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+      };
     }
 
     p.use_dropout = use_dropout;
@@ -319,7 +314,8 @@ efficient_attention_forward_ck(
         p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
         randvals_ptr = randvals_ptr + tmp_randvals_stride;
       };
-    };
+    } else
+      p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty(
@@ -341,21 +337,20 @@ efficient_attention_forward_ck(
   int64_t seed, offset;
 
   DISPATCH_TYPES(query.scalar_type(), [&]() {
-    out = at::empty(
+    out = at::zeros(
         {B, M, num_heads, Kv},
         query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
 
     if (!seqstart_q.has_value()) { // input is batched
       BatchedForwardParams batched_forward_params;
 
-      std::cout << " -------- call batched_forward ---------" << std::endl; 
       set_batched_forward_params(batched_forward_params);
       batched_forward<scalar_t>(batched_forward_params, stream);
     } else { // input is grouped
       GroupedForwardParams grouped_forward_params;
 
-      std::cout << " -------- call grouped_forward ---------" << std::endl; 
       set_grouped_forward_params(grouped_forward_params);
+      std::cout << " -------- call grouped_forward ---------" << std::endl;
       grouped_forward<scalar_t>(grouped_forward_params, stream);
     }
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 97efabfe54..7ee73f54b8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -184,6 +184,9 @@ void grouped_forward_masktype_attnbias_dispatched(
     int Kv = param.Kv;
     int G1 = param.num_heads;
 
+    std::cout << "M, N, G1, K, Kv: " << M << " " << N << " " << G1 << " " << K
+              << " " << Kv << std::endl;
+
     std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
     std::vector<ck::index_t> a_gs_ms_ks_strides{
         0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};

From 0f491fc0a2926fcaf241c1ce74739c59ad4ef263 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 21 Aug 2023 16:24:29 +0000
Subject: [PATCH 021/837] Update and make all 8 attn_bias types passed for
 test_ck_3.py

---
 tests/test_ck_3.py                            | 33 ++++++++++---------
 tests/test_ck_4.py                            | 12 +++----
 .../hip_fmha/attention_forward_generic.cpp    |  1 -
 .../hip_fmha/ck_fmha_grouped_forward.h        |  3 --
 4 files changed, 23 insertions(+), 26 deletions(-)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 21bd67586f..14834c0d19 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -5,7 +5,7 @@
 
 import math
 import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Set, Any
 
 import pytest
 import torch
@@ -478,29 +478,30 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
         (0, 2, 1, 3)
     )
 
-'''
+## The same set of supported attn_bias types as defined by ck.FwOp
 SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
         type(None),
         torch.Tensor,
-        LowerTriangularMask,
-        LowerTriangularMaskWithTensorBias,
-        BlockDiagonalMask,
-        BlockDiagonalCausalMask,
-        BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        attn_bias.BlockDiagonalCausalFromBottomRightMask,
-'''
+        fmha.attn_bias.LowerTriangularMask,
+        fmha.attn_bias.LowerTriangularMaskWithTensorBias,
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask }
 
+@pytest.mark.parametrize("bias_type", SUPPORTED_ATTN_BIAS_TYPES)
 @pytest.mark.parametrize("packed", [False, True])
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-def test_forward(fmt, packed):
+@pytest.mark.parametrize("fmt", ["BMHK"])
+@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+def test_forward(dtype, fmt, packed, bias_type):
     op = fmha.ck.FwOp
     device = torch.device("cuda")
-    dtype = torch.float16 
-    ##bias_type = fmha.attn_bias.LowerTriangularMask
-    bias_type = fmha.attn_bias.BlockDiagonalCausalMask
     batch_size = 7 
-    q_len = 1000
-    kv_len = 1000
+    q_len = 200
+    if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+       kv_len = int(q_len * 1.2) 
+    else:
+       kv_len = q_len
     h = 3
     k = 64
     kv = 64
diff --git a/tests/test_ck_4.py b/tests/test_ck_4.py
index f04d4b328d..e008514bb9 100644
--- a/tests/test_ck_4.py
+++ b/tests/test_ck_4.py
@@ -79,16 +79,16 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
 
 SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
         ##type(None),
-        torch.Tensor,
+        ##torch.Tensor,
         ##LowerTriangularMask,
-        ##LowerTriangularMaskWithTensorBias,
+        LowerTriangularMaskWithTensorBias,
         ##BlockDiagonalMask,
         ##BlockDiagonalCausalMask,
         ##BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        ##BlockDiagonalCausalFromBottomRightMask,
+        #3BlockDiagonalCausalFromBottomRightMask,
     }
 
-SUPPORTED_DTYPES: Set[torch.dtype] = {torch.bfloat16}
+SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half}
 
 def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
@@ -502,8 +502,8 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
     )
 
 
-@pytest.mark.parametrize("fmt", ["BMHK"])
-@pytest.mark.parametrize("packed", [False])
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 def test_forward(
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 785f275e0d..2800029c69 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -350,7 +350,6 @@ efficient_attention_forward_ck(
       GroupedForwardParams grouped_forward_params;
 
       set_grouped_forward_params(grouped_forward_params);
-      std::cout << " -------- call grouped_forward ---------" << std::endl;
       grouped_forward<scalar_t>(grouped_forward_params, stream);
     }
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 7ee73f54b8..97efabfe54 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -184,9 +184,6 @@ void grouped_forward_masktype_attnbias_dispatched(
     int Kv = param.Kv;
     int G1 = param.num_heads;
 
-    std::cout << "M, N, G1, K, Kv: " << M << " " << N << " " << G1 << " " << K
-              << " " << Kv << std::endl;
-
     std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
     std::vector<ck::index_t> a_gs_ms_ks_strides{
         0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};

From c3b640cfebc5762ea3b033b84f18ce04fd84e952 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 21 Aug 2023 20:03:04 +0000
Subject: [PATCH 022/837] Updates to test_ck_3.py and test_ck_4.py

---
 tests/test_ck_3.py | 171 +++++----------------------------------------
 tests/test_ck_4.py |  26 +++----
 2 files changed, 30 insertions(+), 167 deletions(-)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 14834c0d19..92456452f1 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -32,126 +32,6 @@
     "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
 )
 
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-
-    # Add some random shapes
-    if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        for _ in range(20):
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(
-            sorted(list(op.SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
-        )
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-    return {
-        "argvalues": combination,
-        "ids": ids,
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
     if q.ndim == 4:
         assert p == 0.0
@@ -244,15 +124,6 @@ def _rand_seqlens(
     return seqlens_q, seqlens_k
 
 
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
 def _rand_maxed_partition(
     r: random.Random, total: int, n: int, mx: int, positive: bool = True
 ) -> List[int]:
@@ -326,7 +197,7 @@ def create_attn_bias(
         if fmt == "BMK":
             batch_size *= num_heads
             num_heads = 1
-        # `small_k` only supports an expanded 1d bias
+        ##`small_k` only supports an expanded 1d bias
         if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
             attn_bias = (
                 torch.randn(
@@ -346,7 +217,7 @@ def create_attn_bias(
             )
 
             # make sure it also works if the first columns are partially masked out
-            attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
 
         if requires_grad:
             attn_bias.requires_grad_(True)
@@ -464,20 +335,6 @@ def create_tensors(
         pytest.skip(err_msg)
     return query, key, value, attn_bias
 
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
 ## The same set of supported attn_bias types as defined by ck.FwOp
 SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
         type(None),
@@ -487,23 +344,24 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
         fmha.attn_bias.BlockDiagonalMask,
         fmha.attn_bias.BlockDiagonalCausalMask,
         fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask }
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        }
 
 @pytest.mark.parametrize("bias_type", SUPPORTED_ATTN_BIAS_TYPES)
 @pytest.mark.parametrize("packed", [False, True])
-@pytest.mark.parametrize("fmt", ["BMHK"])
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
 def test_forward(dtype, fmt, packed, bias_type):
     op = fmha.ck.FwOp
     device = torch.device("cuda")
-    batch_size = 7 
+    batch_size = 7
     q_len = 200
     if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-       kv_len = int(q_len * 1.2) 
+        kv_len = int(q_len * 1.2) 
     else:
-       kv_len = q_len
-    h = 3
-    k = 64
+        kv_len = q_len
+    h = 3 
+    k = 64 
     kv = 64
 
     if packed and not (k == kv and q_len == kv_len):
@@ -517,11 +375,16 @@ def test_forward(dtype, fmt, packed, bias_type):
         op, device, dtype, bias_type, batch_size, q_len, kv_len, h, k, kv, fmt="BMHK" if packed else fmt
     )
 
+    print("query shape: ", query.shape)
+    print("key shape: ", key.shape)
+    print("value shape: ", value.shape)
+
+    ## when packed, the query, key, value is in BMHK format
     if packed:
         c = torch.stack([query, key, value], 2)
         if fmt == "BMK":
             # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            c = c.permute(2, 0, 3, 1, 4).reshape([3, batch_size*h, q_len, k])
             query, key, value = c[0], c[1], c[2]
             # Re-create bias in the right format
             attn_bias = create_attn_bias(
@@ -539,7 +402,7 @@ def test_forward(dtype, fmt, packed, bias_type):
         else:
             # bm3hk -> 3 x bmhk
             query, key, value = xformers.ops.unbind(c, 2)
-        assert not query.is_contiguous()
+        ##assert not query.is_contiguous()
 
     out = xformers.ops.memory_efficient_attention_forward(
         query, key, value, attn_bias, op=op
diff --git a/tests/test_ck_4.py b/tests/test_ck_4.py
index e008514bb9..24f4dbe5c9 100644
--- a/tests/test_ck_4.py
+++ b/tests/test_ck_4.py
@@ -78,17 +78,17 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
 
 
 SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        ##type(None),
-        ##torch.Tensor,
-        ##LowerTriangularMask,
+        type(None),
+        torch.Tensor,
+        LowerTriangularMask,
         LowerTriangularMaskWithTensorBias,
-        ##BlockDiagonalMask,
-        ##BlockDiagonalCausalMask,
-        ##BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        #3BlockDiagonalCausalFromBottomRightMask,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        BlockDiagonalCausalFromBottomRightMask,
     }
 
-SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half}
+SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
 
 def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
@@ -143,8 +143,8 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
         bias_type = type(None)
         for shape in (
             # Some strides/dims don't fit on an uint16
-            (4, 128, 128, 8, 128, 128),
-            (13, 1, 67, 16, 8, 8),
+            (4, 128, 128, 4, 128, 128),
+            (13, 4, 67, 16, 8, 8),
             (4, 320, 4, 1, 8, 8),
             (4, 4, 320, 1, 8, 8),
             # TODO: Some strides don't fit on an uint32
@@ -369,7 +369,7 @@ def create_attn_bias(
             )
 
             # make sure it also works if the first columns are partially masked out
-            attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+            #attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
 
         if requires_grad:
             attn_bias.requires_grad_(True)
@@ -538,7 +538,7 @@ def test_forward(
         c = torch.stack([query, key, value], 2)
         if fmt == "BMK":
             # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            c = c.permute(2, 0, 3, 1, 4).reshape([3, -1, q_len, k])
             query, key, value = c[0], c[1], c[2]
             # Re-create bias in the right format
             attn_bias = create_attn_bias(
@@ -556,7 +556,7 @@ def test_forward(
         else:
             # bm3hk -> 3 x bmhk
             query, key, value = xformers.ops.unbind(c, 2)
-        assert not query.is_contiguous()
+        ##assert not query.is_contiguous()
 
     out = xformers.ops.memory_efficient_attention_forward(
         query, key, value, attn_bias, op=op

From d8133ca8f584ad4af6bf8efb71216180c36d973c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 21 Aug 2023 21:02:42 +0000
Subject: [PATCH 023/837] Add type checking in attention_forward_generic.cpp

---
 tests/test_ck_3.py                                         | 2 ++
 .../csrc/attention/hip_fmha/attention_forward_generic.cpp  | 7 +++++++
 2 files changed, 9 insertions(+)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 92456452f1..0b5eed4255 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -356,6 +356,8 @@ def test_forward(dtype, fmt, packed, bias_type):
     device = torch.device("cuda")
     batch_size = 7
     q_len = 200
+
+    ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
     if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
         kv_len = int(q_len * 1.2) 
     else:
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 2800029c69..54e4ce5d8b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -58,6 +58,9 @@ efficient_attention_forward_ck(
   // Embedding per head
   TORCH_CHECK(query.size(3) == key.size(3));
 
+  TORCH_CHECK(query.scalar_type() == key.scalar_type());
+  TORCH_CHECK(query.scalar_type() == value.scalar_type());
+
   TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
   if (seqstart_q.has_value()) {
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
@@ -141,6 +144,8 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
       p.has_attn_bias = true;
       p.attn_bias_ptr = bias->data_ptr();
 
@@ -218,6 +223,8 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
       p.has_attn_bias = true;
       const at::Tensor bias_4d_view =
           get_bias_4d_view(*bias, B, num_heads, M, N);

From 2960ae7c4c5605d9ab53406e4dd1d9f7b85be442 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 22 Aug 2023 19:15:19 +0000
Subject: [PATCH 024/837] Use a different grouped ck-flashAttention device
 operator instance to prevent some failed cases

---
 tests/test_ck_3.py                                         | 3 +++
 tests/test_ck_4.py                                         | 4 +++-
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h | 6 +++---
 3 files changed, 9 insertions(+), 4 deletions(-)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 0b5eed4255..6c69f5fd69 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -366,6 +366,9 @@ def test_forward(dtype, fmt, packed, bias_type):
     k = 64 
     kv = 64
 
+    if kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
+
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
diff --git a/tests/test_ck_4.py b/tests/test_ck_4.py
index 24f4dbe5c9..7358b36c68 100644
--- a/tests/test_ck_4.py
+++ b/tests/test_ck_4.py
@@ -501,7 +501,6 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
         (0, 2, 1, 3)
     )
 
-
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
@@ -523,6 +522,9 @@ def test_forward(
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
+    if kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
+
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 97efabfe54..b895d47f7c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -129,7 +129,7 @@ void grouped_forward_masktype_attnbias_dispatched(
           128, // MPerBlock
           128, // NPerBlock
           32, // KPerBlock
-          64, // Gemm1NPerBlock
+          128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           8, // AK1
           8, // BK1
@@ -138,7 +138,7 @@ void grouped_forward_masktype_attnbias_dispatched(
           32, // NPerXDL
           1, // MXdlPerWave
           4, // NXdlPerWave
-          2, // Gemm1NXdlPerWave
+          4, // Gemm1NXdlPerWave
           1, // DropoutStep
           S<4, 64, 1>, // ABlockTransfer
           S<1, 0, 2>,
@@ -155,7 +155,7 @@ void grouped_forward_masktype_attnbias_dispatched(
           8,
           true,
           Acc0BiasTransferSrcScalarPerVector,
-          S<16, 16, 1>, // B1BlockTransfer
+          S<8, 32, 1>, // B1BlockTransfer
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,

From 0da9bf2b311949598be7639edd7c00fb7d9e75c4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 22 Aug 2023 20:19:58 +0000
Subject: [PATCH 025/837] Add checking for attn_bias and seqlen_k in
 attention_forward_generic.cpp

---
 .../hip_fmha/attention_forward_generic.cpp         | 14 ++++++++++----
 1 file changed, 10 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 54e4ce5d8b..24b9f6b3bb 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -144,6 +144,7 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
       p.has_attn_bias = true;
@@ -241,9 +242,6 @@ efficient_attention_forward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    if (seqlen_k.has_value())
-      p.host_seqlen_k.resize(p.num_batches);
-
     FMHA_HIP_CHECK(hipMemcpy(
         p.host_seqstart_q.data(),
         seqstart_q->data_ptr(),
@@ -255,12 +253,20 @@ efficient_attention_forward_ck(
         (p.num_batches + 1) * sizeof(int32_t),
         hipMemcpyDeviceToHost));
 
-    if (seqlen_k.has_value())
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+      CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqlen_k));
+
+      p.host_seqlen_k.resize(p.num_batches);
+
       FMHA_HIP_CHECK(hipMemcpy(
           p.host_seqlen_k.data(),
           seqlen_k->data_ptr(),
           p.num_batches * sizeof(int32_t),
           hipMemcpyDeviceToHost));
+    }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
     char* k_ptr = reinterpret_cast<char*>(key.data_ptr());

From 99da85c16752099074d4e13df56cd27b066f63dc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 22 Aug 2023 21:18:33 +0000
Subject: [PATCH 026/837] Split the C++ codes called by
 attention_forward_generic.cpp into 4 cpp files to speed-up the compiling

---
 .../hip_fmha/attention_forward_generic.cpp    | 31 ++++++++++++++---
 .../hip_fmha/ck_fmha_batched_forward.h        | 32 ------------------
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp | 28 ++++++++++++++++
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp | 28 ++++++++++++++++
 .../hip_fmha/ck_fmha_grouped_forward.h        | 32 ------------------
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp | 28 ++++++++++++++++
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp | 33 +++++++++++++++++++
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  1 +
 8 files changed, 145 insertions(+), 68 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 24b9f6b3bb..652ef80920 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -11,10 +11,21 @@
 #include <c10/util/Optional.h>
 #include <torch/library.h>
 
-#include "ck_fmha_batched_forward.h"
-#include "ck_fmha_grouped_forward.h"
 #include "ck_fmha_util.h"
 
+extern void batched_forward_fp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void batched_forward_bp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_fp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_bp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+
 namespace {
 
 /*
@@ -358,12 +369,24 @@ efficient_attention_forward_ck(
       BatchedForwardParams batched_forward_params;
 
       set_batched_forward_params(batched_forward_params);
-      batched_forward<scalar_t>(batched_forward_params, stream);
+
+      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
+        batched_forward_fp16(batched_forward_params, stream);
+      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
+        batched_forward_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported");
     } else { // input is grouped
       GroupedForwardParams grouped_forward_params;
 
       set_grouped_forward_params(grouped_forward_params);
-      grouped_forward<scalar_t>(grouped_forward_params, stream);
+
+      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
+        grouped_forward_fp16(grouped_forward_params, stream);
+      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
+        grouped_forward_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported");
     }
   });
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 5cb94229d9..e8ce9302a8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -11,38 +11,6 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void batched_forward_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-
-template <typename scalar_t>
-void batched_forward(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<scalar_t, 0, true>(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<scalar_t, 0, false>(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<scalar_t, 1, true>(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<scalar_t, 1, false>(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<scalar_t, 2, true>(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<scalar_t, 2, false>(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
-};
-
 template <typename scalar_t, int32_t custom_mask_type = 0, bool has_attn_bias>
 void batched_forward_masktype_attnbias_dispatched(
     BatchedForwardParams& param,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
new file mode 100644
index 0000000000..82f6373daa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
new file mode 100644
index 0000000000..d502ea8a49
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+          param, stream);
+    else
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index b895d47f7c..91e16df746 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -12,38 +12,6 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void grouped_forward_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream);
-
-template <typename scalar_t>
-void grouped_forward(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<scalar_t, 0, true>(
-          param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<scalar_t, 0, false>(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<scalar_t, 1, true>(
-          param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<scalar_t, 1, false>(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<scalar_t, 2, true>(
-          param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<scalar_t, 2, false>(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
-};
-
 template <typename scalar_t, int32_t custom_mask_type = 0, bool has_attn_bias>
 void grouped_forward_masktype_attnbias_dispatched(
     GroupedForwardParams& param,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
new file mode 100644
index 0000000000..9d0e48a28a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
new file mode 100644
index 0000000000..578197f83f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -0,0 +1,33 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void grouped_forward_masktype_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+
+void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+          param, stream);
+    else
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 32e3d0a7e5..0aed26cf94 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -11,6 +11,7 @@
 #include <ck/ck.hpp>
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/sequence.hpp>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
 
 // Here flag can be a constant, variable or function call
 #define FMHA_HIP_CHECK(ret_or_call)                                          \

From 3fc8e220798fb3af0ed55e4c770135b4552640dd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 23 Aug 2023 10:19:03 +0000
Subject: [PATCH 027/837] Split the C++ codes called by
 attention_backward_generic.cpp into 4 cpp files to speed-up the compiling

---
 .../hip_fmha/attention_backward_generic.cpp   | 32 ++++++++++++++++---
 .../hip_fmha/ck_fmha_batched_backward.h       | 18 +----------
 .../ck_fmha_batched_backward_bp16.cpp         | 15 +++++++++
 .../ck_fmha_batched_backward_fp16.cpp         | 15 +++++++++
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp |  2 ++
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp |  2 ++
 .../hip_fmha/ck_fmha_grouped_backward.h       | 18 +----------
 .../ck_fmha_grouped_backward_bp16.cpp         | 15 +++++++++
 .../ck_fmha_grouped_backward_fp16.cpp         | 15 +++++++++
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp |  2 ++
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp |  7 ++--
 11 files changed, 98 insertions(+), 43 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index c4eb660dee..1e73be6e9e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -9,11 +9,23 @@
 #include <c10/cuda/CUDAGuard.h>
 #include <torch/library.h>
 
-#include "ck_fmha_batched_backward.h"
-#include "ck_fmha_grouped_backward.h"
 #include "ck_fmha_util.h"
 
+extern void batched_backward_fp16(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+extern void batched_backward_bp16(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+extern void grouped_backward_fp16(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
+extern void grouped_backward_bp16(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
+
 namespace {
+
 std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
 efficient_attention_backward_ck(
     const at::Tensor& grad_out,
@@ -344,12 +356,24 @@ efficient_attention_backward_ck(
       BatchedBackwardParams batched_backward_params;
 
       set_batched_backward_params(batched_backward_params);
-      batched_backward<scalar_t>(batched_backward_params, stream);
+
+      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
+        batched_backward_fp16(batched_backward_params, stream);
+      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
+        batched_backward_bp16(batched_backward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported");
     } else { // input is grouped
       GroupedBackwardParams grouped_backward_params;
 
       set_grouped_backward_params(grouped_backward_params);
-      grouped_backward<scalar_t>(grouped_backward_params, stream);
+
+      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
+        grouped_backward_fp16(grouped_backward_params, stream);
+      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
+        grouped_backward_bp16(grouped_backward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported");
     }
   });
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index b267b8590d..9ce99c2643 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -1,5 +1,6 @@
 #pragma once
 
+#include <numeric>
 #include <sstream>
 #include <stdexcept>
 
@@ -11,23 +12,6 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type>
-void batched_backward_mask_type_dispatched(
-    BatchedBackwardParams& param,
-    hipStream_t stream);
-
-template <typename scalar_t>
-void batched_backward(BatchedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    batched_backward_mask_type_dispatched<scalar_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    batched_backward_mask_type_dispatched<scalar_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    batched_backward_mask_type_dispatched<scalar_t, 2>(param, stream);
-  else
-    throw std::runtime_error("Invalid custom_mask_type value");
-};
-
 template <typename scalar_t, int32_t custom_mask_type = 0>
 void batched_backward_mask_type_dispatched(
     BatchedBackwardParams& param,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
new file mode 100644
index 0000000000..69b1e50653
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -0,0 +1,15 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    batched_backward_mask_type_dispatched<ck::bhalf_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    batched_backward_mask_type_dispatched<ck::bhalf_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    batched_backward_mask_type_dispatched<ck::bhalf_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
new file mode 100644
index 0000000000..273a2ee06e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -0,0 +1,15 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    batched_backward_mask_type_dispatched<ck::half_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    batched_backward_mask_type_dispatched<ck::half_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    batched_backward_mask_type_dispatched<ck::half_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 82f6373daa..10bf8ee59f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -1,4 +1,6 @@
 #include <ck/ck.hpp>
+#include <stdexcept>
+
 #include "ck_fmha_batched_forward.h"
 
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index d502ea8a49..ea11d170aa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -1,4 +1,6 @@
 #include <ck/ck.hpp>
+#include <stdexcept>
+
 #include "ck_fmha_batched_forward.h"
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 62ce0df013..eabbfa84a5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -1,5 +1,6 @@
 #pragma once
 
+#include <numeric>
 #include <sstream>
 #include <stdexcept>
 
@@ -13,23 +14,6 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type>
-void grouped_backward_mask_type_dispatched(
-    GroupedBackwardParams& param,
-    hipStream_t stream);
-
-template <typename scalar_t>
-void grouped_backward(GroupedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    grouped_backward_mask_type_dispatched<scalar_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    grouped_backward_mask_type_dispatched<scalar_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    grouped_backward_mask_type_dispatched<scalar_t, 2>(param, stream);
-  else
-    throw std::runtime_error("Invalid custom_mask_type value");
-};
-
 template <typename scalar_t, int32_t custom_mask_type = 0>
 void grouped_backward_mask_type_dispatched(
     GroupedBackwardParams& param,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
new file mode 100644
index 0000000000..3c76d137d2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -0,0 +1,15 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    grouped_backward_mask_type_dispatched<ck::bhalf_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    grouped_backward_mask_type_dispatched<ck::bhalf_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    grouped_backward_mask_type_dispatched<ck::bhalf_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
new file mode 100644
index 0000000000..912023ca41
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -0,0 +1,15 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0)
+    grouped_backward_mask_type_dispatched<ck::half_t, 0>(param, stream);
+  else if (param.custom_mask_type == 1)
+    grouped_backward_mask_type_dispatched<ck::half_t, 1>(param, stream);
+  else if (param.custom_mask_type == 2)
+    grouped_backward_mask_type_dispatched<ck::half_t, 2>(param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index 9d0e48a28a..161818a39b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -1,4 +1,6 @@
 #include <ck/ck.hpp>
+#include <stdexcept>
+
 #include "ck_fmha_grouped_forward.h"
 
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index 578197f83f..592bc89e4b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -1,10 +1,7 @@
 #include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
+#include <stdexcept>
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void grouped_forward_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream);
+#include "ck_fmha_grouped_forward.h"
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {

From 5575ba034dd94b238e49e0d793c1f6344162d4bf Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 23 Aug 2023 17:55:11 +0000
Subject: [PATCH 028/837] Add comments for the commented code-line in
 create_attn_bias

---
 tests/test_ck_3.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 6c69f5fd69..3b4458dd8e 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -216,6 +216,8 @@ def create_attn_bias(
                 dtype=dtype,
             )
 
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
             # make sure it also works if the first columns are partially masked out
             # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
 

From 478ec41206a8dcd7b611817bff57816ee56f17f0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 23 Aug 2023 18:17:10 +0000
Subject: [PATCH 029/837] Update to composable_kernel to latest commit and
 remove un-needed including

---
 third_party/composable_kernel                               | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h | 1 -
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h | 1 -
 3 files changed, 1 insertion(+), 3 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index e296ee56b3..226355e7e8 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit e296ee56b35207af047ef3a5cb0f00788c9f2cf0
+Subproject commit 226355e7e885881cdd904aec4df872fedb5447cd
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 9ce99c2643..1b14c772f9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -1,6 +1,5 @@
 #pragma once
 
-#include <numeric>
 #include <sstream>
 #include <stdexcept>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index eabbfa84a5..bd86d7c32d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -1,6 +1,5 @@
 #pragma once
 
-#include <numeric>
 #include <sstream>
 #include <stdexcept>
 

From 161a7d5095b258cd4ab2fe9b309eebdbfeaf8451 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 24 Aug 2023 16:43:02 +0000
Subject: [PATCH 030/837] Add test_mem_eff_attention_ck.py and
 tests/readme_test_on_rocm.txt

---
 tests/readme_test_on_rocm.txt      |    8 +
 tests/test_ck_1.py                 |   33 -
 tests/test_ck_2.py                 |  558 ---------
 tests/test_ck_3.py                 |  434 -------
 tests/test_ck_4.py                 |  583 ---------
 tests/test_mem_eff_attention_ck.py | 1783 ++++++++++++++++++++++++++++
 6 files changed, 1791 insertions(+), 1608 deletions(-)
 create mode 100644 tests/readme_test_on_rocm.txt
 delete mode 100644 tests/test_ck_1.py
 delete mode 100644 tests/test_ck_2.py
 delete mode 100644 tests/test_ck_3.py
 delete mode 100644 tests/test_ck_4.py
 create mode 100644 tests/test_mem_eff_attention_ck.py

diff --git a/tests/readme_test_on_rocm.txt b/tests/readme_test_on_rocm.txt
new file mode 100644
index 0000000000..5b5ce25aae
--- /dev/null
+++ b/tests/readme_test_on_rocm.txt
@@ -0,0 +1,8 @@
+
+   1. pip install -e ./
+
+   2. verify testing for memory_efficient_attention inference 
+
+      pytest -k test_forward tests/test_mem_eff_attention_ck.py
+
+
diff --git a/tests/test_ck_1.py b/tests/test_ck_1.py
deleted file mode 100644
index b5dba2d215..0000000000
--- a/tests/test_ck_1.py
+++ /dev/null
@@ -1,33 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import random
-
-import pytest
-import torch
-
-from xformers.ops.common import get_xformers_operator
-
-B = 7
-M = 1000
-N = 1000
-H = 13
-K = 64
-Kv = 64
-
-_types = [torch.float16, torch.bfloat16]
-
-@pytest.mark.parametrize("test_type", _types)
-def test_types(test_type):
-    query = torch.rand((B, M, H, K), device=torch.device("cuda"), dtype=test_type)
-    key = torch.rand((B, N, H, K), device=torch.device("cuda"), dtype=test_type)
-    val = torch.rand((B, N, H, Kv), device=torch.device("cuda"), dtype=test_type)
-
-    Operator=get_xformers_operator("efficient_attention_forward_ck")
-
-    out, lse, rng_seed, rng_offset = Operator(query=query, key=key, value=val, attn_bias=None, seqstart_q=None, seqstart_k=None, dropout_p=0.0, compute_logsumexp=False, custom_mask_type=0, scale=None, seqlen_k=None)
-
-    print(rng_seed)
-
diff --git a/tests/test_ck_2.py b/tests/test_ck_2.py
deleted file mode 100644
index 5382ba5bf7..0000000000
--- a/tests/test_ck_2.py
+++ /dev/null
@@ -1,558 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import math
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
-
-import pytest
-import torch
-
-## need to FIX
-##from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
-
-import xformers.ops
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-
-from .utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cuda"] if torch.cuda.is_available() else ["cpu"]
-_types = [torch.float16, torch.bfloat16]
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
-    fmha.ck.BwOp,
-]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    for B in op._TEST_BATCH_SIZES:
-        for Mq in [32, 256]:
-            for Mkv in [32, 64, 256]:
-                for K in op._TEST_K:
-                    shapes.append((B, Mq, Mkv, 1, K, K))
-        Mq = 256
-        Mkv = 128
-        K = 32
-        H = 1
-        # Weird values of parameters
-        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
-            shapes.append((B, M, Mkv, H, K, K))
-            shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 256 + 2, 256 + 8, 512]:
-            if _K <= op.SUPPORTED_MAX_K:
-                shapes.append((B, Mq, Mkv, H, _K, _K))
-        # Different value for K / Kv
-        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-            for _K in [32, 36, 64, 256 + 8]:
-                shapes.append((B, Mq, Mkv, H, K, _K))
-                shapes.append((B, Mq, Mkv, H, _K, K))
-        # Exotic sizes
-        for K in op._TEST_K:
-            shapes.append((B, 16, 1024, H, K, K))
-            shapes.append((B, 1024, 16, H, K, K))
-        # Some number of heads
-        for H in [3, 5, 12]:
-            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
-    # Add some random shapes
-    if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        for _ in range(20):
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(
-            sorted(list(op.SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
-        )
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-    return {
-        "argvalues": combination,
-        "ids": ids,
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
-)
-
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-
-            # make sure it also works if the first columns are partially masked out
-            attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-'''
-def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
-    tensor_with_grad: Optional[torch.Tensor] = None
-    if isinstance(attn_bias, torch.Tensor):
-        tensor_with_grad = attn_bias
-    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-        tensor_with_grad = attn_bias._bias
-    if tensor_with_grad is not None:
-        grad = tensor_with_grad.grad
-        if clear:
-            tensor_with_grad.grad = None
-        return grad
-    return None
-'''
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
-@pytest.mark.parametrize("k_len", [32, 64])
-@pytest.mark.parametrize("batch_size", [4])
-@pytest.mark.parametrize("kv_len", [128, 512])
-@pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("device", _devices)
-@pytest.mark.parametrize("test_type", _types)
-def test_key_query_all_ones(test_type, device, q_len, kv_len, batch_size, k_len):
-    scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=test_type)
-    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=test_type)
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=test_type) * scale
-
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
-    # this should be equivalent to the average over value
-    ref = value.mean(1, keepdim=True).expand_as(query)
-
-    if test_type is torch.float16:
-        assert_allclose(out, ref, atol=1e-5)
-    else:
-        assert_allclose(out, ref, atol=1e-2)
-
-
diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
deleted file mode 100644
index 3b4458dd8e..0000000000
--- a/tests/test_ck_3.py
+++ /dev/null
@@ -1,434 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import math
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Set, Any
-
-import pytest
-import torch
-
-## need to FIX
-##from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
-
-import xformers.ops
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-
-from tests.utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        ##`small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-## The same set of supported attn_bias types as defined by ck.FwOp
-SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        type(None),
-        torch.Tensor,
-        fmha.attn_bias.LowerTriangularMask,
-        fmha.attn_bias.LowerTriangularMaskWithTensorBias,
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        }
-
-@pytest.mark.parametrize("bias_type", SUPPORTED_ATTN_BIAS_TYPES)
-@pytest.mark.parametrize("packed", [False, True])
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
-def test_forward(dtype, fmt, packed, bias_type):
-    op = fmha.ck.FwOp
-    device = torch.device("cuda")
-    batch_size = 7
-    q_len = 200
-
-    ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
-    if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-        kv_len = int(q_len * 1.2) 
-    else:
-        kv_len = q_len
-    h = 3 
-    k = 64 
-    kv = 64
-
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    query, key, value, attn_bias = create_tensors(
-        op, device, dtype, bias_type, batch_size, q_len, kv_len, h, k, kv, fmt="BMHK" if packed else fmt
-    )
-
-    print("query shape: ", query.shape)
-    print("key shape: ", key.shape)
-    print("value shape: ", value.shape)
-
-    ## when packed, the query, key, value is in BMHK format
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).reshape([3, batch_size*h, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        else:
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-        ##assert not query.is_contiguous()
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
diff --git a/tests/test_ck_4.py b/tests/test_ck_4.py
deleted file mode 100644
index 7358b36c68..0000000000
--- a/tests/test_ck_4.py
+++ /dev/null
@@ -1,583 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import math
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Any, Set
-
-import pytest
-import torch
-
-## need to FIX
-##from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
-
-import xformers.ops
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-
-from .utils import assert_allclose
-
-from xformers.ops.fmha.attn_bias import (
-    AttentionBias,
-    BlockDiagonalCausalMask,
-    BlockDiagonalCausalWithOffsetPaddedKeysMask,
-    BlockDiagonalMask,
-    BlockDiagonalCausalFromBottomRightMask,
-    LowerTriangularMask,
-    LowerTriangularMaskWithTensorBias,
-)
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cuda"] if torch.cuda.is_available() else ["cpu"]
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    # Add some random shapes
-    if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        for _ in range(20):
-            B = r.randint(4, 400)
-            Mq = r.randint(4, 500)
-            Mkv = r.randint(4, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 4)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        type(None),
-        torch.Tensor,
-        LowerTriangularMask,
-        LowerTriangularMaskWithTensorBias,
-        BlockDiagonalMask,
-        BlockDiagonalCausalMask,
-        BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        BlockDiagonalCausalFromBottomRightMask,
-    }
-
-SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(
-            sorted(list(SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
-        )
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                ##for dtype in op.SUPPORTED_DTYPES:
-                for dtype in SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (4, 128, 128, 4, 128, 128),
-            (13, 4, 67, 16, 8, 8),
-            (4, 320, 4, 1, 8, 8),
-            (4, 4, 320, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-    return {
-        "argvalues": combination,
-        "ids": ids,
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-
-            # make sure it also works if the first columns are partially masked out
-            #attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("packed", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed,
-    fmt,
-):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
-    )
-
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).reshape([3, -1, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        else:
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-        ##assert not query.is_contiguous()
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL[dtype],
-    )
-
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
new file mode 100644
index 0000000000..bd083cdb8d
--- /dev/null
+++ b/tests/test_mem_eff_attention_ck.py
@@ -0,0 +1,1783 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+##from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+compute_capability = (0, 0)
+if torch.cuda.is_available():
+    compute_capability = torch.cuda.get_device_capability("cuda")
+sm75_or_better_only = pytest.mark.skipif(
+    compute_capability < (7, 5), reason="requires sm75+"
+)
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
+    fmha.ck.BwOp,
+]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+
+def _filter_unsupported_ops(ops: Sequence[T]) -> Sequence[T]:
+    return [
+        op
+        for op in ops
+        if (
+            "cpu" in op.SUPPORTED_DEVICES
+            or op.CUDA_MINIMUM_COMPUTE_CAPABILITY <= compute_capability
+        )
+        and op.is_available()
+    ]
+
+
+ALL_FW_OPS = _filter_unsupported_ops(ALL_FW_OPS)
+ALL_BW_OPS = _filter_unsupported_ops(ALL_BW_OPS)
+
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    for B in op._TEST_BATCH_SIZES:
+        for Mq in [32, 256]:
+            for Mkv in [32, 64, 256]:
+                for K in op._TEST_K:
+                    shapes.append((B, Mq, Mkv, 1, K, K))
+        Mq = 256
+        Mkv = 128
+        K = 32
+        H = 1
+        # Weird values of parameters
+        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
+            shapes.append((B, M, Mkv, H, K, K))
+            shapes.append((B, Mq, M, H, K, K))
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 256 + 2, 256 + 8, 512]:
+            if _K <= op.SUPPORTED_MAX_K:
+                shapes.append((B, Mq, Mkv, H, _K, _K))
+        # Different value for K / Kv
+        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+            for _K in [32, 36, 64, 256 + 8]:
+                shapes.append((B, Mq, Mkv, H, K, _K))
+                shapes.append((B, Mq, Mkv, H, _K, K))
+        # Exotic sizes
+        for K in op._TEST_K:
+            shapes.append((B, 16, 1024, H, K, K))
+            shapes.append((B, 1024, 16, H, K, K))
+        # Some number of heads
+        for H in [3, 5, 12]:
+            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Add some random shapes
+    if op in [
+        fmha.cutlass.FwOp,
+        fmha.cutlass.BwOp,
+        fmha.flash.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        for _ in range(20):
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(
+            sorted(list(op.SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
+        )
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+    return {
+        "argvalues": combination,
+        "ids": ids,
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
+)
+
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor.float()
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
+            # make sure it also works if the first columns are partially masked out
+            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
+    tensor_with_grad: Optional[torch.Tensor] = None
+    if isinstance(attn_bias, torch.Tensor):
+        tensor_with_grad = attn_bias
+    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+        tensor_with_grad = attn_bias._bias
+    if tensor_with_grad is not None:
+        grad = tensor_with_grad.grad
+        if clear:
+            tensor_with_grad.grad = None
+        return grad
+    return None
+
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("packed", [False, True])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_forward(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed,
+    fmt,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+   
+    if kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
+
+    if packed and not (k == kv and q_len == kv_len):
+        pytest.skip(
+            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
+        )
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
+        pytest.skip("BMK incompatible with this bias")
+
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+    )
+
+    if packed:
+        c = torch.stack([query, key, value], 2)
+        if fmt == "BMK":
+            # bm3hk -> 3bhmk -> 3Bmk
+            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            query, key, value = c[0], c[1], c[2]
+            # Re-create bias in the right format
+            attn_bias = create_attn_bias(
+                bias_type=bias_type,
+                batch_size=batch_size,
+                num_heads=h,
+                q_len=q_len,
+                kv_len=kv_len,
+                device=device,
+                dtype=dtype,
+                requires_grad=False,
+                fmt=fmt,
+                op=op,
+            )
+        else:
+            # bm3hk -> 3 x bmhk
+            query, key, value = xformers.ops.unbind(c, 2)
+        assert not query.is_contiguous()
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    if dtype is torch.bfloat16:
+        assert_allclose(
+             out.float(),
+             ref,
+             atol=2.5e-2,
+             rtol=1e-2,
+        )
+    else:
+        assert_allclose(
+             out.float(),
+             ref,
+             atol=op.ERROR_ATOL[dtype],
+             rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+        )
+
+
+@pytest.mark.parametrize("k_len", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 4])
+@pytest.mark.parametrize("kv_len", [128, 512])
+@pytest.mark.parametrize("q_len", [128, 512])
+@pytest.mark.parametrize("device", _devices)
+def test_key_query_all_ones(device, q_len, kv_len, batch_size, k_len):
+    scale = 3
+    query = torch.ones((batch_size, q_len, k_len), device=device)
+    key = torch.ones((batch_size, kv_len, k_len), device=device)
+    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+
+    out = xformers.ops.memory_efficient_attention(query, key, value)
+    # this should be equivalent to the average over value
+    ref = value.mean(1, keepdim=True).expand_as(query)
+
+    assert_allclose(out, ref, atol=1e-5)
+
+
+def _block_diag_reshape_lse(
+    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
+) -> torch.Tensor:
+    """LSE can be padded, let's remove the padding"""
+    parts = []
+    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
+        parts.append(slice[:, : end - start])
+    return torch.cat(parts, dim=1).unsqueeze(1)
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+
+    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+        attn_bias=attn_bias,
+    )
+    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            tensor_bias = attn_bias.materialize(
+                (query.shape[0], 1, query.shape[1], key.shape[1]),
+                device=query.device,
+                dtype=torch.float32,
+            )
+        else:
+            assert isinstance(attn_bias, torch.Tensor)
+            tensor_bias = attn_bias
+        if tensor_bias.ndim == 4:
+            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
+        attn = attn + tensor_bias.float()
+    ref_lse = attn.logsumexp(-1)
+    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
+        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
+    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("grad_out_contiguous", [False, True])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_backward(
+    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    grad_out_contiguous,
+    fmt,
+):
+    (
+        op_bw,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    attn_bias_requires_grad = (
+        random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
+    )
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        attn_bias_requires_grad=attn_bias_requires_grad,
+        fmt=fmt,
+    )
+    op_fw = (
+        sample_random_supported_fw(
+            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
+            seed=q_len * kv + kv_len * k,
+        )
+        if op_bw != fmha.cutlass.BwOp
+        else fmha.cutlass.FwOp
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
+        pytest.skip("inputs not supported")
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, op=(op_fw, op_bw)
+    )
+
+    grad_out = torch.ones_like(out)
+    if grad_out_contiguous is False:
+        grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
+            None, None, :
+        ].expand_as(out)
+
+    out.backward(grad_out)
+
+    if qkv is None and op_bw == fmha.cutlass.BwOp:
+        assert query.stride() == query.grad.stride()
+
+    grads = []
+    if qkv is None:
+        grads = [query.grad, key.grad, value.grad]
+        query.grad = None
+        key.grad = None
+        value.grad = None
+    else:
+        grads = [qkv.grad]
+        qkv.grad = None
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
+        if attn_bias_grad is not None:
+            grads.append(attn_bias_grad)
+
+    ref = ref_attention(query, key, value, attn_bias)
+    ref.backward(grad_out)
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        "fw pass",
+        atol=op_fw.ERROR_ATOL[dtype],
+        rtol=op_fw.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+    del out
+    del grad_out
+    del ref
+
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+
+    grads_ref = []
+    grads_name = []
+    if qkv is None:
+        assert isinstance(query.grad, torch.Tensor)
+        assert isinstance(key.grad, torch.Tensor)
+        assert isinstance(value.grad, torch.Tensor)
+        grads_ref = [query.grad, key.grad, value.grad]
+        grads_name = ["query", "key", "value"]
+    else:
+        assert isinstance(qkv.grad, torch.Tensor)
+        grads_ref = [qkv.grad]
+        grads_name = ["qkv"]
+
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias)
+        if attn_bias_grad is not None:
+            grads_ref.append(attn_bias.grad)
+            grads_name.append("bias")
+
+    del query
+    del key
+    del value
+    del qkv
+
+    assert len(grads_ref) == len(
+        grads
+    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
+    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
+        assert_allclose(
+            calc_grad,
+            ref_grad,
+            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
+            atol=atol,
+            rtol=rtol,
+        )
+
+
+def _vec_binom_test(x, n, p):
+    """
+    vectorized implementation of scipy.stats.binom_test
+    this makes our tests much faster
+    reference: https://github.com/scipy/scipy/blob/v1.8.0/scipy/stats/_morestats.py#L2609-L2702
+    """
+    import numpy as np
+    from scipy.stats import distributions
+
+    x = np.atleast_1d(x)
+    d = distributions.binom.pmf(x, n, p)[:, None]
+    rerr = 1 + 1e-7
+    # x < p * n case
+    i = np.arange(np.ceil(p * n), n + 1)
+    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
+    pval1 = distributions.binom.cdf(x, n, p) + distributions.binom.sf(n - y, n, p)
+
+    # other case
+    i = np.arange(np.floor(p * n) + 1)
+    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
+    pval2 = distributions.binom.cdf(y - 1, n, p) + distributions.binom.sf(x - 1, n, p)
+
+    pval = np.where(x < p * n, pval1, pval2)
+    pval = np.minimum(1.0, pval)
+    return pval
+
+
+def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
+    if op == fmha.cutlass.FwOp:
+        mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
+        rand_uniform = torch.ops.xformers._cutlass_rand_uniform(p, mask)
+        mask = (rand_uniform > p).to(torch.float32)
+        mask = mask.reshape(batch_size, q_len, kv_len)
+    else:
+        mask = torch.empty((batch_size, q_len, kv_len), device=device)
+        mask = torch.ops.xformers._temp_dropout(mask, p)
+
+    return mask
+
+
+### disable this test due to the un-availability of binomtest
+'''
+@cuda_only
+@pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
+@pytest.mark.parametrize("seed", [42, 124])
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k_len", [32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
+@pytest.mark.parametrize("q_len", [2, 33])
+@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
+def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
+    device = "cuda"
+    scale = 3
+    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+
+    inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
+    if not op.supports(inputs_for_support_check):
+        del query, key, value, attn_bias
+        pytest.skip(f"{op.NAME}: unsupported input")
+
+    torch.manual_seed(seed)
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, p, op=(op, None)
+    )
+
+    torch.manual_seed(seed)
+    out2 = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, p, op=(op, None)
+    )
+
+    assert_allclose(out, out2, "dropout reproducibility")
+
+    torch.manual_seed(seed)
+    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+    ref = ref_attention(query, key, value, attn_bias, mask, p)
+    assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
+
+    num_trials = 1000
+    p_val_tol = 1e-6
+    keep_prob = 1 - p
+    masks = []
+    for i in range(num_trials):
+        mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+        masks.append(mask.clone().cpu())
+    masks = torch.stack(masks, dim=0)
+    p_value = binomtest(int(masks.sum()), masks.numel(), p=keep_prob).pvalue
+    assert p_value > p_val_tol, p_value
+    masks = masks.sum(0).flatten()
+    p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
+    assert all(p_values > p_val_tol)
+'''
+
+def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
+    if dtype is torch.bfloat16 and compute_capability < (8, 0):
+        pytest.skip("bf16 requires Sm80")
+    if not op.is_available():
+        pytest.skip()
+
+    scale = 3
+    device = "cuda"
+    query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    grad_out = torch.ones_like(query)
+
+    assert op.supports(fmha.Inputs(query=query, key=key, value=value, p=p))
+
+    seed = 42
+    torch.manual_seed(seed)
+    out = xformers.ops.memory_efficient_attention(query, key, value, p=p, op=(op, None))
+
+    out.backward(grad_out)
+
+    grad_q = query.grad
+    grad_k = key.grad
+    grad_v = value.grad
+
+    query.grad = None
+    key.grad = None
+    value.grad = None
+
+    torch.manual_seed(seed)
+    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+
+    ref = ref_attention(query, key, value, None, mask, p)
+    ref.backward(grad_out)
+
+    atol, rtol = (
+        fmha.AttentionBwOpBase.ERROR_ATOL[dtype],
+        fmha.AttentionBwOpBase.ERROR_RTOL[dtype],
+    )
+    assert_allclose(
+        grad_v,
+        value.grad,
+        "grad_v",
+        atol=atol,
+        rtol=rtol,
+    )
+    # TODO: Investigate why precision is worse
+    if dtype in [torch.float16, torch.bfloat16]:
+        atol = atol * 2 + 0.15
+        rtol = rtol * 2
+    assert_allclose(
+        grad_q,
+        query.grad,
+        "grad_q",
+        atol=atol,
+        rtol=rtol,
+    )
+    assert_allclose(
+        grad_k,
+        key.grad,
+        "grad_k",
+        atol=atol,
+        rtol=rtol,
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
+@pytest.mark.parametrize("q_len", [2, 33])
+def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
+@pytest.mark.parametrize("k", [16, 128, 256])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 248, 256])
+@pytest.mark.parametrize("q_len", [3, 248, 256])
+@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
+def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len,
+        kv_len,
+        batch_size,
+        k,
+        p,
+        op=fmha.cutlass.FwOp,
+        dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
+    )
+
+
+@pytest.mark.parametrize("k_len", [32])
+@pytest.mark.parametrize("batch_size", [1])
+@pytest.mark.parametrize("kv_len", [3 * 32])
+@pytest.mark.parametrize("q_len", [3 * 32])
+@pytest.mark.parametrize("device", _devices)
+def test_memory_efficient_attention_full_block_masked(
+    device, q_len, kv_len, batch_size, k_len
+):
+    op_fw = fmha.small_k.FwOp
+    op_bw = fmha.small_k.BwOp
+
+    scale = 3
+    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+
+    # in this case, most of the blocks in a row get masked
+    attn_bias = torch.full((3, 32), float("-inf"), device=device)
+    attn_bias[:2, :4] = 0
+    attn_bias = attn_bias.flatten()[None, None, :].expand(1, q_len, -1)
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, op=(op_fw, op_bw)
+    )
+    ref = ref_attention(query, key, value, attn_bias)
+
+    assert_allclose(
+        out, ref, atol=op_fw.ERROR_ATOL[query.dtype], rtol=op_fw.ERROR_RTOL[query.dtype]
+    )
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    grad_out = torch.ones_like(query)
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, attn_bias)
+    out.backward(grad_out)
+
+    grad_q = query.grad
+    grad_k = key.grad
+    grad_v = value.grad
+
+    query.grad = None
+    key.grad = None
+    value.grad = None
+
+    ref = ref_attention(query, key, value, attn_bias)
+    ref.backward(grad_out)
+
+    atol = op_bw.ERROR_ATOL[query.dtype]
+    rtol = op_bw.ERROR_RTOL[query.dtype]
+    assert_allclose(grad_q, query.grad, "grad_q", atol=atol, rtol=rtol)
+    assert_allclose(grad_k, key.grad, "grad_k", atol=atol, rtol=rtol)
+    assert_allclose(grad_v, value.grad, "grad_v", atol=atol, rtol=rtol)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt=fmt
+    )
+    grad_out = torch.ones_like(query)
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query, key, value, attn_bias
+    )
+    assert out.ndim == query.ndim
+    dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
+        grad_out, out, lse, query, key, value, attn_bias
+    )
+    assert dq.shape == query.shape
+    assert dk.shape == key.shape
+    assert dv.shape == value.shape
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_cuda_streams(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    if device != "cuda":
+        pytest.skip("Not CUDA")
+    bias_type = None
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ]
+    s_hipri = torch.cuda.Stream(priority=-1)
+    s_lopri = torch.cuda.Stream(priority=0)
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK"
+    )
+    torch.cuda.synchronize()
+    with torch.cuda.stream(s_lopri):
+        torch.cuda._sleep(100_000_000)  # wait 100m cycles
+        query *= 2
+    s_hipri.wait_stream(s_lopri)
+    with torch.cuda.stream(s_hipri):
+        # If the kernel is scheduled in the main stream
+        # `query * 2` has not been executed yet
+        out = xformers.ops.memory_efficient_attention(query, key, value, op=(op, None))
+    # Test that `s_lopri` is still sleeping
+    # and that `query *= 2` has not been executed yet
+    query2_main_stream = query * 2
+    torch.cuda.synchronize()
+    # TODO: Figure out why this is failing sometimes
+    # The sleep timer seems to be high enough already ...
+    # assert torch.allclose(query2_main_stream, query), "Need to increase sleep time"
+    del query2_main_stream
+
+    ref = ref_attention(query, key, value)
+    assert out.shape == ref.shape, out.shape
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    p = 0.0
+    scale = 1.0
+
+    (
+        op_bw,
+        device,
+        dtype,
+        _,
+        _,
+        q_len,
+        kv_len,
+        _,
+        k,
+        _,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    torch.manual_seed(q_len + kv_len + k)
+    if device != "cuda":
+        pytest.skip("Not CUDA")
+
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+    inputs = fmha.Inputs(
+        query=query, key=key, value=value, attn_bias=attn_bias, scale=scale
+    )
+    op_fw = sample_random_supported_fw(inputs, seed=q_len * k + kv_len * k)
+    grad_out = torch.ones_like(query)
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    reasons = op_fw.not_supported_reasons(inputs)
+    if reasons:
+        pytest.skip(f"{op_fw.NAME}: unsupported ({'/'.join(reasons)})")
+    reasons = op_bw.not_supported_reasons(inputs)
+    if reasons:
+        pytest.skip(f"{op_bw.NAME}: unsupported ({'/'.join(reasons)})")
+
+    # NOTE: we still need to scale the inputs to not blowup
+    # the pre-softmax values (numerical stability)
+    s = k**-0.5
+    out = xformers.ops.memory_efficient_attention(
+        query * s, key, value, attn_bias, p, scale, op=(op_fw, op_bw)
+    )
+    out.backward(grad_out)
+    grad_q, grad_k, grad_v = query.grad, key.grad, value.grad
+    query.grad = key.grad = value.grad = None
+
+    ref = ref_attention(query * s, key, value, attn_bias, None, p, scale)
+    ref.backward(grad_out)
+    ref_grad_q, ref_grad_k, ref_grad_v = query.grad, key.grad, value.grad
+    query.grad = key.grad = value.grad = None
+
+    atol = op_fw.ERROR_ATOL[dtype]
+    rtol = op_fw.ERROR_RTOL[dtype]
+    assert_allclose(out.float(), ref.float(), "out", atol=atol, rtol=rtol)
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+    assert_allclose(grad_q, ref_grad_q, "grad_q", atol=atol, rtol=rtol)
+    assert_allclose(grad_k, ref_grad_k, "grad_k", atol=atol, rtol=rtol)
+    assert_allclose(grad_v, ref_grad_v, "grad_v", atol=atol, rtol=rtol)
+
+
+def apply_attention(query, key, value, attn_bias, op_fw, proj):
+    x = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias=attn_bias, op=(op_fw, None)
+    )
+    x = proj(x)
+    return x
+
+
+@pytest.mark.parametrize("use_reentrant", [False, True])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_grad_checkpointing(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    use_reentrant,
+):
+    fmt = "BMHK"
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    bias_type = None
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    )
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt=fmt,
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    proj = torch.nn.Linear(kv, k, device=device, dtype=dtype)
+
+    x = query
+    for _ in range(5):
+        x = checkpoint(
+            apply_attention,
+            x,
+            key,
+            value,
+            attn_bias,
+            op,
+            proj,
+            use_reentrant=use_reentrant,
+        )
+    x.mean().backward()
+
+
+ALL_FW_OPS_NO_SMALLK = [op for op in ALL_FW_OPS if op is not fmha.small_k.FwOp]
+
+
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_cpu(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 1, 1, 32])
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
+        0, 1, 3, 2
+    )
+    try:
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+    except ValueError as e:
+        if "Only work on pre-MLIR triton for now" in str(e):
+            pytest.skip("Only work on pre-MLIR triton for now")
+        q = q.contiguous()
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 2, 2, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
+    try:
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+    except ValueError as e:
+        if "Only work on pre-MLIR triton for now" in str(e):
+            pytest.skip("Only work on pre-MLIR triton for now")
+        q = q.contiguous()
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@sm75_or_better_only
+def test_unsupported_dropout_combine_flash_cutlass() -> None:
+    q = torch.empty(
+        [1, 4, 1, 16], device="cuda", dtype=torch.float16, requires_grad=True
+    )
+    with pytest.raises(ValueError):
+        out = fmha.memory_efficient_attention(
+            q, q, q, p=0.1, op=(fmha.cutlass.FwOp, fmha.flash.BwOp)
+        )
+        out.backward(out)
+    with pytest.raises(ValueError):
+        out = fmha.memory_efficient_attention(
+            q, q, q, p=0.1, op=(fmha.flash.FwOp, fmha.cutlass.BwOp)
+        )
+        out.backward(out)
+
+
+def test_attn_bias_causal() -> None:
+    m = -math.inf
+    causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
+    tensor_bias = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
+
+    attn_bias = fmha.attn_bias.LowerTriangularMask()
+    assert_allclose(attn_bias.materialize(causal_mask.shape), causal_mask, "causal")
+    attn_bias = attn_bias.add_bias(tensor_bias)
+    assert_allclose(
+        attn_bias.materialize(causal_mask.shape),
+        tensor_bias + causal_mask,
+        "causal+tensor_bias",
+    )
+
+
+def test_attn_bias_torch_tensor() -> None:
+    tensor_bias = torch.tensor([[1.0, 2.0, 3.0], [3.0, 4.0, 5.0]])
+    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias)
+    m = -math.inf
+    causal_bias = torch.tensor([[0, m, m], [0, 0, m]])
+    assert_allclose(
+        attn_bias.materialize((2, 3)), causal_bias + tensor_bias, "tensor_bias+causal"
+    )
+
+
+def test_attn_bias_blockdiag() -> None:
+    queries = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([1, 5, 1, 8]),
+    ]
+    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((10, 10))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 2 * 2 + 5 * 5
+    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
+    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1")
+    assert_allclose(as_tensor[5:, 5:], torch.zeros([5, 5]), "batch2")
+
+    # Verify we can split it back
+    queries2 = attn_bias.split(q)
+    assert len(queries) == len(queries2)
+    for q1, q2 in zip(queries, queries2):
+        assert_allclose(q1, q2)
+
+
+def test_attn_bias_blockdiag_batched() -> None:
+    queries = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([3, 2, 1, 8]),
+        torch.randn([1, 5, 1, 8]),
+    ]
+    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((14, 14))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 3 * 2 * 2 + 5 * 5
+    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
+    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1.0")
+    assert_allclose(as_tensor[5:7, 5:7], torch.zeros([2, 2]), "batch1.1")
+    assert_allclose(as_tensor[7:9, 7:9], torch.zeros([2, 2]), "batch1.2")
+    assert_allclose(as_tensor[9:, 9:], torch.zeros([5, 5]), "batch2")
+
+    # Verify we can split it back
+    queries2 = attn_bias.split(q)
+    assert len(queries) == len(queries2)
+    for q1, q2 in zip(queries, queries2):
+        assert_allclose(q1, q2)
+
+
+def test_attn_bias_blockdiag_crossattn_causal() -> None:
+    # Q / KV have different seqlen
+    list_q = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([2, 1, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 3, 1, 8]),
+    ]
+
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((q.shape[1], k.shape[1]))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 2 + 2 * 3 * 1
+    assert_allclose(as_tensor[0:3, 0:2], torch.zeros([3, 2]), "batch0")
+    assert_allclose(as_tensor[3:4, 2:5], torch.zeros([1, 3]), "batch1.0")
+    assert_allclose(as_tensor[4:, 5:], torch.zeros([1, 3]), "batch1.1")
+
+    # Also test causal version
+    as_tensor = attn_bias.make_causal().materialize((q.shape[1], k.shape[1]))
+    assert_allclose(
+        as_tensor[3:4, 2:5],
+        fmha.attn_bias.LowerTriangularMask().materialize((1, 3)),
+        "batch1.0[causal]",
+    )
+
+    # Verify we can split it back
+    list_q2 = attn_bias.split_queries(q)
+    assert len(list_q) == len(list_q2)
+    for q1, q2 in zip(list_q, list_q2):
+        assert_allclose(q1, q2)
+    with pytest.raises(ValueError):
+        attn_bias.split_queries(k)
+    list_k2 = attn_bias.split_kv(k)
+    assert len(list_k) == len(list_k2)
+    for k1, k2 in zip(list_k, list_k2):
+        assert_allclose(k1, k2)
+
+
+def test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond() -> None:
+    list_q = [
+        torch.randn([1, 3, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+    ]
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+    with pytest.raises(ValueError):
+        attn_bias.make_causal_from_bottomright()
+
+
+def test_attn_bias_blockdiag_crossattn_causal_with_prefix() -> None:
+    # Q / KV have different seqlen
+    list_q = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 2, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 5, 1, 8]),
+    ]
+
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+    as_tensor = attn_bias.make_causal_from_bottomright().materialize(
+        (q.shape[1], k.shape[1])
+    )
+    m = -math.inf
+    assert_allclose(
+        as_tensor[0:2, 0:2],
+        torch.tensor([[0, m], [0, 0]], dtype=torch.float32),
+        "batch1.1[causal_with_prefix]",
+    )
+    assert_allclose(
+        as_tensor[2:4, 2:7],
+        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
+        "batch2.1[causal_with_prefix]",
+    )
+    assert_allclose(
+        as_tensor[4:6, 7:12],
+        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
+        "batch2.2[causal_with_prefix]",
+    )
+
+
+@cuda_only
+def test_attn_bias_padded() -> None:
+    bsize, n_heads, d, padding = 8, 3, 8, 32
+
+    # Q / KV have different seqlen
+    k = torch.randn((bsize, padding, n_heads, d)).cuda().half()
+    k_seqlen = [5, 8, 7, 1, 9, 3, 12, 32]
+    other = bsize - 1
+    v = torch.randn((bsize, padding, n_heads, d)).cuda().half()
+    n_q_first = 4
+    q = [
+        torch.randn((1, n_q_first, n_heads, d)).cuda().half(),
+        torch.randn((1, other, n_heads, d)).cuda().half(),
+    ]
+    q_cat = torch.cat([x.view(1, -1, n_heads, d) for x in q], dim=1)
+    # causal_diagonal = torch.tensor(
+    #     [0] + [i - 1 for i in k_seqlen[1:]], dtype=torch.int32
+    # ).cuda()
+
+    q_seqlen = [n_q_first] + [1] * other
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=q_seqlen,
+        kv_seqlen=k_seqlen,
+        kv_padding=padding,
+    )
+
+    v = v.view(1, -1, n_heads, d)
+    k = k.view(1, -1, n_heads, d)
+
+    scores = (q_cat.transpose(1, 2) @ k.transpose(1, 2).transpose(2, 3)).float()
+    assert not scores.isnan().any()
+    mask = torch.full_like(scores, -float("inf"))
+    for i, (slen, qlen) in enumerate(zip(k_seqlen, q_seqlen)):
+        kseq_start = i * padding
+        qstart = sum(q_seqlen[:i])
+        mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen] = torch.triu(
+            mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen].float(),
+            diagonal=1 + slen - qlen,
+        ).float()
+
+    scores += mask
+    assert not scores.isnan().any()
+    # 1,3,10,8 @ 1,3,8,256 -> 1,3,10,256
+    scores = torch.nn.functional.softmax(scores, -1).half()
+    # torch.Size([1, 3, 3, 32]) @ torch.Size([1, 3, 32, 8])
+    output = scores @ v.transpose(1, 2)  # 1,3,10,256 @ 1,3,256, 8 -> 1,3,10,8
+    output = output.transpose(1, 2).contiguous()
+
+    fmha_output = fmha.memory_efficient_attention_forward(
+        q_cat, k, v, attn_bias, scale=1.0
+    )
+
+    # assert torch.allclose(output, fmha_output)
+    assert_allclose(
+        output,
+        fmha_output,
+        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
+        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
+    )
+
+
+def test_attn_bias_from_seqlens() -> None:
+    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
+    out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
+    assert len(out) == 3
+    assert tuple(out[0].shape) == (1, 3, 16)
+
+
+@cuda_only
+def test_attn_bias_blockdiag_doc() -> None:
+    """IMPORTANT:
+    This is the example in the doc for `BlockDiagonalMask`.
+    If this example needs to be updated, please also update the doc
+    """
+    import torch
+
+    from xformers.ops import fmha
+
+    K = 16
+    dtype = torch.float16
+    device = "cuda"
+    list_x = [
+        torch.randn([1, 3, 1, K], dtype=dtype, device=device),
+        torch.randn([1, 6, 1, K], dtype=dtype, device=device),
+        torch.randn([1, 2, 1, K], dtype=dtype, device=device),
+    ]
+    attn_bias, x = fmha.BlockDiagonalMask.from_tensor_list(list_x)
+
+    linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
+
+    q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
+    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias)
+    list_out = attn_bias.split(out)
+    print(list_out[0].shape)  # [1, 3, 1, K]
+    assert tuple(list_out[0].shape) == (1, 3, 1, K)
+
+
+@cuda_only
+class TestAttnBias:
+    @staticmethod
+    def create_tensors(
+        dtype,
+        B: int = 2,
+        Mq: int = 32,
+        Mkv: int = 32,
+        H: int = 3,
+        K: int = 16,
+        Kv: int = 16,
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        return (
+            torch.randn([B, Mq, H, K], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, Mkv, H, K], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, Mkv, H, Kv], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, H, Mq, Mkv], device="cuda", dtype=dtype) * 3,
+        )
+
+    @staticmethod
+    def pad_bias(bias: torch.Tensor) -> torch.Tensor:
+        align_to = 16
+        if (bias.shape[-1] % align_to) == 0:
+            return bias
+        pad_count = align_to - (bias.shape[-1] % align_to)
+        return torch.nn.functional.pad(bias, [0, pad_count])[:, :, :, : bias.shape[-1]]
+
+    def test_f16_biasf32(self) -> None:
+        q, k, v, bias = self.create_tensors(torch.float16)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        bias = bias.to(torch.float32)
+        with pytest.raises((ValueError, RuntimeError)):
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+
+    def test_f32_biasf16(self) -> None:
+        q, k, v, bias = self.create_tensors(torch.float32)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        bias = bias.to(torch.float16)
+        with pytest.raises((ValueError, RuntimeError)):
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+
+    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+    def test_wrong_alignment(self, dtype) -> None:
+        op = fmha.cutlass.FwOp
+        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
+        try:
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
+            return
+        except (ValueError, RuntimeError):
+            pass
+        # This case is not supported, likely due to padding issues
+        # Let's make sure it works with padding
+        assert bias.ndim == 4, bias.shape
+        bias_padded = self.pad_bias(bias)
+        out = fmha.memory_efficient_attention(
+            q, k, v, attn_bias=bias_padded, op=(op, None)
+        ).float()
+        ref_out = ref_attention_bmhk(q, k, v, bias)
+        assert_allclose(
+            out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
+        )
+
+    def test_permuted_attn_bias(self) -> None:
+        op = fmha.cutlass.FwOp
+        dtype = torch.float16
+        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
+        bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
+        # Either it works, or it raises an exception
+        # but we should never get a CUDA error
+        try:
+            out = fmha.memory_efficient_attention(
+                q, k, v, attn_bias=bias, op=(op, None)
+            ).float()
+            ref_out = ref_attention_bmhk(q, k, v, bias)
+            assert_allclose(
+                out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
+            )
+        except (ValueError, RuntimeError):
+            pass
+
+
+SM_AND_SHMEM_KBYTES = [
+    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
+    (50, 64),
+    (60, 64),
+    (70, 96),
+    (75, 64),
+    (80, 163),
+    (86, 99),
+    (89, 99),
+    # (90, 227),
+]
+
+
+@cuda_only
+@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
+@pytest.mark.parametrize(
+    "sm_shmem",
+    SM_AND_SHMEM_KBYTES,
+    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
+)
+def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
+    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
+    sm, shmem_kbytes = sm_shmem
+    if sm < 80 and dtype_str == "bf16":
+        return
+
+    for k in [16, 32, 64, 128, 256]:
+        assert torch.ops.xformers._has_cutlassF_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+        assert torch.ops.xformers._has_cutlassB_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"

From efecc7d3675ca213d215ffa4604cfe7f2eca7db2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 24 Aug 2023 20:53:36 +0000
Subject: [PATCH 031/837] Update in test_mem_eff_attention_ck.py to make
 test_forward passed all suitable cases

---
 tests/test_ck_3.py                 | 437 +++++++++++++++++++++++++++++
 tests/test_mem_eff_attention_ck.py |  73 ++---
 xformers/ops/fmha/ck.py            |  12 +-
 3 files changed, 456 insertions(+), 66 deletions(-)
 create mode 100644 tests/test_ck_3.py

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
new file mode 100644
index 0000000000..2c6e42860f
--- /dev/null
+++ b/tests/test_ck_3.py
@@ -0,0 +1,437 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Set, Any
+
+import pytest
+import torch
+
+## need to FIX
+##from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from tests.utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor.float()
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        ##`small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
+            # make sure it also works if the first columns are partially masked out
+            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+## The same set of supported attn_bias types as defined by ck.FwOp
+SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        torch.Tensor,
+        fmha.attn_bias.LowerTriangularMask,
+        fmha.attn_bias.LowerTriangularMaskWithTensorBias,
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        }
+
+@pytest.mark.parametrize("bias_type", SUPPORTED_ATTN_BIAS_TYPES)
+@pytest.mark.parametrize("packed", [False, True])
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+def test_forward(dtype, fmt, packed, bias_type):
+    op = fmha.ck.FwOp
+    device = torch.device("cuda")
+    batch_size = 7
+    q_len = 200
+
+    ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
+    if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+        kv_len = int(q_len * 1.2) 
+    else:
+        kv_len = q_len
+    h = 3 
+    k = 64 
+    kv = 64
+
+    if kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
+
+    if packed and not (k == kv and q_len == kv_len):
+        pytest.skip(
+            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
+        )
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
+        pytest.skip("BMK incompatible with this bias")
+
+    ## packed type always creates the tensors in "BMHK" even the fmt is "BMK", so for packed type, one
+    ## should always assume h is already merged in B, and set h to be 1
+    if packed and fmt is "BMK" and batch_size > 1 and h > 1:
+        pytest.skip("Shape of this is type is skipped")
+
+    query, key, value, attn_bias = create_tensors(
+        op, device, dtype, bias_type, batch_size, q_len, kv_len, h, k, kv, fmt="BMHK" if packed else fmt
+    )
+
+    ## when packed, the query, key, value is in BMHK format
+    if packed:
+        c = torch.stack([query, key, value], 2)
+        if fmt == "BMK":
+            # bm3hk -> 3bhmk -> 3Bmk
+            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            query, key, value = c[0], c[1], c[2]
+            # Re-create bias in the right format
+            attn_bias = create_attn_bias(
+                bias_type=bias_type,
+                batch_size=batch_size,
+                num_heads=h,
+                q_len=q_len,
+                kv_len=kv_len,
+                device=device,
+                dtype=dtype,
+                requires_grad=False,
+                fmt=fmt,
+                op=op,
+            )
+        else:
+            # bm3hk -> 3 x bmhk
+            query, key, value = xformers.ops.unbind(c, 2)
+
+        print("The query shaped for packed: ", query.size())
+        assert not query.is_contiguous()
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index bd083cdb8d..be0c355a31 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -20,13 +20,8 @@
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-compute_capability = (0, 0)
-if torch.cuda.is_available():
-    compute_capability = torch.cuda.get_device_capability("cuda")
-sm75_or_better_only = pytest.mark.skipif(
-    compute_capability < (7, 5), reason="requires sm75+"
-)
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_types = [torch.float16, torch.bfloat16]
 
 ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
     fmha.ck.FwOp,
@@ -45,11 +40,7 @@ def _filter_unsupported_ops(ops: Sequence[T]) -> Sequence[T]:
     return [
         op
         for op in ops
-        if (
-            "cpu" in op.SUPPORTED_DEVICES
-            or op.CUDA_MINIMUM_COMPUTE_CAPABILITY <= compute_capability
-        )
-        and op.is_available()
+        if op.is_available()
     ]
 
 
@@ -101,9 +92,8 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
             shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
     # Add some random shapes
     if op in [
-        fmha.cutlass.FwOp,
-        fmha.cutlass.BwOp,
-        fmha.flash.BwOp,
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
     ]:
         K_CHOICES = [8 * i for i in range(1, 256 // 8)]
         r = random.Random(0)
@@ -557,7 +547,6 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
         (0, 2, 1, 3)
     )
 
-
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
@@ -635,7 +624,7 @@ def test_forward(
         assert_allclose(
              out.float(),
              ref,
-             atol=2.5e-2,
+             atol=2.8e-2,
              rtol=1e-2,
         )
     else:
@@ -651,18 +640,22 @@ def test_forward(
 @pytest.mark.parametrize("batch_size", [1, 4])
 @pytest.mark.parametrize("kv_len", [128, 512])
 @pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("device", _devices)
-def test_key_query_all_ones(device, q_len, kv_len, batch_size, k_len):
+@pytest.mark.parametrize("device", [torch.device("cuda")])
+@pytest.mark.parametrize("test_type", _types)
+def test_key_query_all_ones(test_type, device, q_len, kv_len, batch_size, k_len):
     scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device)
-    key = torch.ones((batch_size, kv_len, k_len), device=device)
-    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=test_type)
+    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=test_type)
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=test_type) * scale
 
-    out = xformers.ops.memory_efficient_attention(query, key, value)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
     # this should be equivalent to the average over value
     ref = value.mean(1, keepdim=True).expand_as(query)
 
-    assert_allclose(out, ref, atol=1e-5)
+    if test_type is torch.float16:
+        assert_allclose(out, ref, atol=1e-5)
+    else:
+        assert_allclose(out, ref, atol=1e-2)
 
 
 def _block_diag_reshape_lse(
@@ -1026,18 +1019,6 @@ def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     )
 
 
-@cuda_only
-@pytest.mark.parametrize("p", [0.3, 0.7])
-@pytest.mark.parametrize("k", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
-@pytest.mark.parametrize("q_len", [2, 33])
-def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
-    _test_dropout_backward(
-        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
-    )
-
-
 @cuda_only
 @pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
 @pytest.mark.parametrize("k", [16, 128, 256])
@@ -1045,14 +1026,14 @@ def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
 @pytest.mark.parametrize("kv_len", [3, 248, 256])
 @pytest.mark.parametrize("q_len", [3, 248, 256])
 @pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
-def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
+def test_dropout_backward_ck(dt, q_len, kv_len, batch_size, k, p):
     _test_dropout_backward(
         q_len,
         kv_len,
         batch_size,
         k,
         p,
-        op=fmha.cutlass.FwOp,
+        op=fmha.ck.FwOp,
         dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
     )
 
@@ -1388,24 +1369,6 @@ def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
         q = q.contiguous()
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
 
-
-@sm75_or_better_only
-def test_unsupported_dropout_combine_flash_cutlass() -> None:
-    q = torch.empty(
-        [1, 4, 1, 16], device="cuda", dtype=torch.float16, requires_grad=True
-    )
-    with pytest.raises(ValueError):
-        out = fmha.memory_efficient_attention(
-            q, q, q, p=0.1, op=(fmha.cutlass.FwOp, fmha.flash.BwOp)
-        )
-        out.backward(out)
-    with pytest.raises(ValueError):
-        out = fmha.memory_efficient_attention(
-            q, q, q, p=0.1, op=(fmha.flash.FwOp, fmha.cutlass.BwOp)
-        )
-        out.backward(out)
-
-
 def test_attn_bias_causal() -> None:
     m = -math.inf
     causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 4bc21251d9..f339b31e8c 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -29,17 +29,7 @@
 )
 
 def _minimum_gemm_alignment(inp: Inputs) -> int:
-    if inp.device.type != "cuda":
-        return 1
-    bits_per_scalar = {torch.float: 32, torch.half: 16, torch.bfloat16: 16}[
-        inp.query.dtype
-    ]
-    ## for MI200/MI300 only
-    uses_tensorcores = True 
-    matmul_alignment_mn = 4 
-    if uses_tensorcores:
-        matmul_alignment_mn = max(matmul_alignment_mn, 128 // bits_per_scalar)
-    return matmul_alignment_mn
+    return 1 
 
 
 def _get_seqlen_info(

From da83285b53d325ca678d2af5e47174f8fa6083c6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 25 Aug 2023 16:57:35 +0000
Subject: [PATCH 032/837] Update test_mem_eff_attention_ck.py to make
 TestAttnBias/test_attn_bias_*/test_unsupported_xxx pass

---
 tests/test_mem_eff_attention_ck.py | 49 +++++-------------------------
 1 file changed, 8 insertions(+), 41 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index be0c355a31..58f4c86965 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1582,7 +1582,7 @@ def test_attn_bias_padded() -> None:
     output = output.transpose(1, 2).contiguous()
 
     fmha_output = fmha.memory_efficient_attention_forward(
-        q_cat, k, v, attn_bias, scale=1.0
+        q_cat, k, v, attn_bias, scale=1.0, op=fmha.ck.FwOp
     )
 
     # assert torch.allclose(output, fmha_output)
@@ -1624,7 +1624,7 @@ def test_attn_bias_blockdiag_doc() -> None:
     linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
 
     q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
-    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias)
+    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None))
     list_out = attn_bias.split(out)
     print(list_out[0].shape)  # [1, 3, 1, K]
     assert tuple(list_out[0].shape) == (1, 3, 1, K)
@@ -1659,21 +1659,22 @@ def pad_bias(bias: torch.Tensor) -> torch.Tensor:
 
     def test_f16_biasf32(self) -> None:
         q, k, v, bias = self.create_tensors(torch.float16)
-        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(fmha.ck.FwOp, None))
         bias = bias.to(torch.float32)
         with pytest.raises((ValueError, RuntimeError)):
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(fmha.ck.FwOp, None))
 
     def test_f32_biasf16(self) -> None:
+        pytest.skip("float32 is not supported currently by CK-FlashAttention-1")
         q, k, v, bias = self.create_tensors(torch.float32)
         fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
         bias = bias.to(torch.float16)
         with pytest.raises((ValueError, RuntimeError)):
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
 
-    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+    @pytest.mark.parametrize("dtype", [torch.float16])
     def test_wrong_alignment(self, dtype) -> None:
-        op = fmha.cutlass.FwOp
+        op = fmha.ck.FwOp
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
         try:
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
@@ -1693,7 +1694,7 @@ def test_wrong_alignment(self, dtype) -> None:
         )
 
     def test_permuted_attn_bias(self) -> None:
-        op = fmha.cutlass.FwOp
+        op = fmha.ck.FwOp
         dtype = torch.float16
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
         bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
@@ -1710,37 +1711,3 @@ def test_permuted_attn_bias(self) -> None:
         except (ValueError, RuntimeError):
             pass
 
-
-SM_AND_SHMEM_KBYTES = [
-    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
-    (50, 64),
-    (60, 64),
-    (70, 96),
-    (75, 64),
-    (80, 163),
-    (86, 99),
-    (89, 99),
-    # (90, 227),
-]
-
-
-@cuda_only
-@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
-@pytest.mark.parametrize(
-    "sm_shmem",
-    SM_AND_SHMEM_KBYTES,
-    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
-)
-def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
-    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
-    sm, shmem_kbytes = sm_shmem
-    if sm < 80 and dtype_str == "bf16":
-        return
-
-    for k in [16, 32, 64, 128, 256]:
-        assert torch.ops.xformers._has_cutlassF_kernel_for(
-            dtype, sm, shmem_kbytes * 1024, k
-        ), f"k={k}"
-        assert torch.ops.xformers._has_cutlassB_kernel_for(
-            dtype, sm, shmem_kbytes * 1024, k
-        ), f"k={k}"

From 97bc5516788b6f8966c716502739655527e4a0c6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 25 Aug 2023 18:41:03 +0000
Subject: [PATCH 033/837] Update to backward related C++ codes

---
 xformers/csrc/attention/attention.cpp         |  2 +-
 .../hip_fmha/attention_backward_generic.cpp   | 68 ++++++++++---------
 .../hip_fmha/attention_forward_generic.cpp    |  1 +
 .../hip_fmha/ck_fmha_batched_backward.h       |  4 +-
 .../ck_fmha_batched_backward_bp16.cpp         | 29 ++++++--
 .../ck_fmha_batched_backward_fp16.cpp         | 29 ++++++--
 .../hip_fmha/ck_fmha_batched_forward.h        |  2 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       |  4 +-
 .../ck_fmha_grouped_backward_bp16.cpp         | 30 ++++++--
 .../ck_fmha_grouped_backward_fp16.cpp         | 29 ++++++--
 .../hip_fmha/ck_fmha_grouped_forward.h        |  2 +-
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  2 +
 12 files changed, 136 insertions(+), 66 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index ee0e07cc22..2bb528d116 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -36,5 +36,5 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
+      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 1e73be6e9e..ce9ce08ce8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -165,6 +165,10 @@ efficient_attention_backward_ck(
         static_cast<int>(grad_out.stride(3))};
 
     if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
       p.attn_bias_ptr = bias->data_ptr();
 
       const at::Tensor bias_4d_view =
@@ -235,6 +239,10 @@ efficient_attention_backward_ck(
         static_cast<int>(grad_out.stride(3))};
 
     if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true; 
       const at::Tensor bias_4d_view =
           get_bias_4d_view(*bias, B, num_heads, M, N);
       p.attn_bias_strides = {
@@ -242,7 +250,9 @@ efficient_attention_backward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
-    };
+    }
+    else 
+	p.has_attn_bias = false; 
 
     p.dropout_prob = static_cast<float>(dropout_p);
     p.rng_engine_inputs = rng_engine_inputs;
@@ -259,9 +269,6 @@ efficient_attention_backward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    if (seqlen_k.has_value())
-      p.host_seqlen_k.resize(p.num_batches);
-
     FMHA_HIP_CHECK(hipMemcpy(
         p.host_seqstart_q.data(),
         seqstart_q->data_ptr(),
@@ -279,6 +286,21 @@ efficient_attention_backward_ck(
           p.num_batches * sizeof(int),
           hipMemcpyDeviceToHost));
 
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+      CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqlen_k));
+
+      p.host_seqlen_k.resize(p.num_batches);
+
+      FMHA_HIP_CHECK(hipMemcpy(
+          p.host_seqlen_k.data(),
+          seqlen_k->data_ptr(),
+          p.num_batches * sizeof(int32_t),
+          hipMemcpyDeviceToHost));
+    }
+
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
     char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
     char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
@@ -312,26 +334,14 @@ efficient_attention_backward_ck(
               p.host_seqstart_k[i] * p.randvals_strides[2],
           randvals.scalar_type());
 
-      p.q_ptrs.push_back(reinterpret_cast<void*>(q_ptr));
-      p.grad_q_ptrs.push_back(reinterpret_cast<void*>(grad_q_ptr));
-
-      q_ptr = q_ptr + tmp_q_stride;
-      grad_q_ptr = grad_q_ptr + tmp_q_stride;
-
-      p.k_ptrs.push_back(reinterpret_cast<void*>(k_ptr));
-      p.grad_k_ptrs.push_back(reinterpret_cast<void*>(grad_k_ptr));
-      k_ptr = k_ptr + tmp_k_stride;
-      grad_k_ptr = grad_k_ptr + tmp_k_stride;
-
-      p.v_ptrs.push_back(reinterpret_cast<void*>(v_ptr));
-      p.grad_v_ptrs.push_back(reinterpret_cast<void*>(grad_v_ptr));
-      v_ptr = v_ptr + tmp_k_stride;
-      grad_v_ptr = grad_v_ptr + tmp_k_stride;
-
-      p.out_ptrs.push_back(reinterpret_cast<void*>(out_ptr));
-      p.grad_out_ptrs.push_back(reinterpret_cast<void*>(grad_out_ptr));
-      out_ptr = out_ptr + tmp_o_stride;
-      grad_out_ptr = grad_out_ptr + tmp_o_stride;
+      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_stride]));
+      p.grad_q_ptrs.push_back(reinterpret_cast<void*>(&grad_q_ptr[tmp_q_stride]));
+      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_stride]));
+      p.grad_k_ptrs.push_back(reinterpret_cast<void*>(&grad_k_ptr[tmp_k_stride]));
+      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_stride]));
+      p.grad_v_ptrs.push_back(reinterpret_cast<void*>(&grad_v_ptr[tmp_v_stride]));
+      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_stride]));
+      p.grad_out_ptrs.push_back(reinterpret_cast<void*>(&grad_out_ptr[tmp_grad_o_stride]));
 
       if (bias.has_value()) {
         int32_t tmp_bias_stride = get_size_in_bytes(
@@ -339,15 +349,11 @@ efficient_attention_backward_ck(
                 p.host_seqstart_k[i] * p.attn_bias_strides[3],
             bias->scalar_type());
 
-        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(attn_bias_ptr));
-        attn_bias_ptr = attn_bias_ptr + tmp_bias_stride;
+        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_stride]));
       };
 
-      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
-      logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
-
-      p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
-      randvals_ptr = randvals_ptr + tmp_randvals_stride;
+      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_stride]));
+      p.randvals_ptrs.push_back(reinterpret_cast<void*>(&randvals_ptr[tmp_randvals_stride]));
     }
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 652ef80920..6367cb5178 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -235,6 +235,7 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
       p.has_attn_bias = true;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 1b14c772f9..4ab8465633 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -11,8 +11,8 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type = 0>
-void batched_backward_mask_type_dispatched(
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void batched_backward_masktype_attnbias_dispatched(
     BatchedBackwardParams& param,
     hipStream_t stream) {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 69b1e50653..9d55a2d6ea 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -4,12 +4,27 @@
 #include "ck_fmha_batched_backward.h"
 
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    batched_backward_mask_type_dispatched<ck::bhalf_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    batched_backward_mask_type_dispatched<ck::bhalf_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    batched_backward_mask_type_dispatched<ck::bhalf_t, 2>(param, stream);
-  else
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+          param, stream);
+    else
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+          param, stream);
+    else
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+          param, stream);
+    else
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(
+          param, stream);
+  } else
     throw std::runtime_error("Invalid custom_mask_type value");
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index 273a2ee06e..77dd96de41 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -4,12 +4,27 @@
 #include "ck_fmha_batched_backward.h"
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    batched_backward_mask_type_dispatched<ck::half_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    batched_backward_mask_type_dispatched<ck::half_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    batched_backward_mask_type_dispatched<ck::half_t, 2>(param, stream);
-  else
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+          param, stream);
+    else
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+          param, stream);
+    else
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+          param, stream);
+    else
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+          param, stream);
+  } else
     throw std::runtime_error("Invalid custom_mask_type value");
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index e8ce9302a8..b2daa90c2a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -11,7 +11,7 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type = 0, bool has_attn_bias>
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void batched_forward_masktype_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index bd86d7c32d..1bba8b6781 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -13,8 +13,8 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type = 0>
-void grouped_backward_mask_type_dispatched(
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void grouped_backward_masktype_attnbias_dispatched(
     GroupedBackwardParams& param,
     hipStream_t stream) {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index 3c76d137d2..dbee4f9e09 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -4,12 +4,28 @@
 #include "ck_fmha_grouped_backward.h"
 
 void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    grouped_backward_mask_type_dispatched<ck::bhalf_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    grouped_backward_mask_type_dispatched<ck::bhalf_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    grouped_backward_mask_type_dispatched<ck::bhalf_t, 2>(param, stream);
-  else
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+          param, stream);
+    else
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+          param, stream);
+    else
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+          param, stream);
+
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+          param, stream);
+    else
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+          param, stream);
+  } else
     throw std::runtime_error("Invalid custom_mask_type value");
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index 912023ca41..dd0c0f1b84 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -4,12 +4,27 @@
 #include "ck_fmha_grouped_backward.h"
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    grouped_backward_mask_type_dispatched<ck::half_t, 0>(param, stream);
-  else if (param.custom_mask_type == 1)
-    grouped_backward_mask_type_dispatched<ck::half_t, 1>(param, stream);
-  else if (param.custom_mask_type == 2)
-    grouped_backward_mask_type_dispatched<ck::half_t, 2>(param, stream);
-  else
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+          param, stream);
+    else
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+          param, stream);
+    else
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+          param, stream);
+    else
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+          param, stream);
+  } else
     throw std::runtime_error("Invalid custom_mask_type value");
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 91e16df746..4f3d9a9855 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -12,7 +12,7 @@
 
 #include "ck_fmha_util.h"
 
-template <typename scalar_t, int32_t custom_mask_type = 0, bool has_attn_bias>
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void grouped_forward_masktype_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 0aed26cf94..9ce11c399a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -279,6 +279,7 @@ struct BatchedBackwardParams {
   int Kv; // embed_dim for Value
 
   float scale;
+  bool has_attn_bias; 
 
   // BMHK mode strides, last-dim contiguous
   std::array<int, 4> q_strides;
@@ -331,6 +332,7 @@ struct GroupedBackwardParams {
   std::vector<int> host_seqlen_k;
 
   float scale;
+  bool has_attn_bias; 
 
   // MHK mode strides, last-dim contiguous
   std::array<int, 3> q_strides;

From 8d4024ce67786eebe39ac5136d77c35af38f3feb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 29 Aug 2023 09:08:09 +0000
Subject: [PATCH 034/837] Update to test_mem_eff_attention_ck.py

---
 tests/test_mem_eff_attention_ck.py | 4 +---
 xformers/ops/fmha/ck.py            | 7 ++++---
 2 files changed, 5 insertions(+), 6 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 58f4c86965..ab3e2826ad 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -9,7 +9,7 @@
 
 import pytest
 import torch
-##from scipy.stats import binomtest
+from scipy.stats import binomtest
 from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
@@ -894,7 +894,6 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 
 
 ### disable this test due to the un-availability of binomtest
-'''
 @cuda_only
 @pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
 @pytest.mark.parametrize("seed", [42, 124])
@@ -946,7 +945,6 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     masks = masks.sum(0).flatten()
     p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
     assert all(p_values > p_val_tol)
-'''
 
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     if dtype is torch.bfloat16 and compute_capability < (8, 0):
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index f339b31e8c..d4e03238e6 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -330,9 +330,10 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             inp.query,
             inp.key,
             inp.value,
-            _get_tensor_bias(inp.attn_bias),
-            cu_seqlens_q=seqstart_q,
-            cu_seqlens_k=seqstart_k,
+            attn_bias=_get_tensor_bias(inp.attn_bias),
+            seqstart_q=seqstart_q,
+            seqstart_k=seqstart_k,
+            seqlen_k=None,
             logsumexp=ctx.get_padded_lse(32, force_pad_inf=force_pad_inf),
             output=ctx.out.to(dtype),
             dropout_p=inp.p,

From 1fd480a499f446ec477939b5a169a6ca3a82f74f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 29 Aug 2023 12:40:11 +0000
Subject: [PATCH 035/837] Move the change in test_forward testing threshold to
 xformers/ops/fmha/ck.py

---
 tests/test_mem_eff_attention_ck.py | 10 +---------
 xformers/ops/fmha/ck.py            |  2 +-
 2 files changed, 2 insertions(+), 10 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index ab3e2826ad..a7bddf41bf 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -620,15 +620,7 @@ def test_forward(
 
     ref = ref_attention(query, key, value, attn_bias)
     assert out.shape == ref.shape, out.shape
-    if dtype is torch.bfloat16:
-        assert_allclose(
-             out.float(),
-             ref,
-             atol=2.8e-2,
-             rtol=1e-2,
-        )
-    else:
-        assert_allclose(
+    assert_allclose(
              out.float(),
              ref,
              atol=op.ERROR_ATOL[dtype],
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index d4e03238e6..f117624221 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -150,7 +150,7 @@ class FwOp(AttentionFwOpBase):
     ERROR_ATOL: Mapping[torch.dtype, float] = {
         torch.float: 3e-4,
         torch.half: 4e-3,
-        torch.bfloat16: 2e-2,
+        torch.bfloat16: 2.8e-2,
     }
     ERROR_RTOL: Mapping[torch.dtype, float] = {
         torch.float: 2e-5,

From e12ebafb4968b34ce0f11e89399b3f518f281558 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 30 Aug 2023 12:32:01 +0000
Subject: [PATCH 036/837] Update to test_mem_eff_attention_ck and
 readme_test_on_rocm.txt

---
 tests/readme_test_on_rocm.txt      | 21 +++++++++++++++++++++
 tests/test_mem_eff_attention_ck.py | 16 ++++++++--------
 2 files changed, 29 insertions(+), 8 deletions(-)

diff --git a/tests/readme_test_on_rocm.txt b/tests/readme_test_on_rocm.txt
index 5b5ce25aae..392a2a427e 100644
--- a/tests/readme_test_on_rocm.txt
+++ b/tests/readme_test_on_rocm.txt
@@ -5,4 +5,25 @@
 
       pytest -k test_forward tests/test_mem_eff_attention_ck.py
 
+   3. The following tests in tests/memory_eff_attention_ck.py have passed
+
+      * test_forward
+      * test_key_query_all_ones
+      * test_logsumexp
+      * test_attn_bias 
+        - test_attn_bias_causal
+        - test_attn_bias_torch_tensor 
+        - test_attn_bias_blockdiag
+        - test_attn_bias_blockdiag_batched
+        - test_attn_bias_blockdiag_crossattn_causal
+        - test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond
+        - test_attn_bias_blockdiag_crossattn_causal_with_prefix()
+        - test_attn_bias_padded
+        - test_attn_bias_from_seqlens
+        - test_attn_bias_blockdiag_doc
+      * test_unsupported_cpu
+      * test_unsupported_stride_lastdim
+      * test_unsupported_stride_alignment
+      * test_cuda_streams
+
 
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index a7bddf41bf..228ab0971d 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -738,8 +738,8 @@ def test_backward(
             fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
             seed=q_len * kv + kv_len * k,
         )
-        if op_bw != fmha.cutlass.BwOp
-        else fmha.cutlass.FwOp
+        if op_bw != fmha.ck.BwOp
+        else fmha.ck.FwOp
     )
     qkv = None
 
@@ -773,7 +773,7 @@ def test_backward(
 
     out.backward(grad_out)
 
-    if qkv is None and op_bw == fmha.cutlass.BwOp:
+    if qkv is None and op_bw == fmha.ck.BwOp:
         assert query.stride() == query.grad.stride()
 
     grads = []
@@ -873,7 +873,7 @@ def _vec_binom_test(x, n, p):
 
 
 def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
-    if op == fmha.cutlass.FwOp:
+    if op == fmha.ck.FwOp:
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
         rand_uniform = torch.ops.xformers._cutlass_rand_uniform(p, mask)
         mask = (rand_uniform > p).to(torch.float32)
@@ -1097,11 +1097,11 @@ def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
     value.requires_grad_(True)
 
     out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query, key, value, attn_bias
+        query, key, value, attn_bias, op=fmha.ck.FwOp
     )
     assert out.ndim == query.ndim
     dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
-        grad_out, out, lse, query, key, value, attn_bias
+        grad_out, out, lse, query, key, value, attn_bias, op=fmha.ck.BwOp
     )
     assert dq.shape == query.shape
     assert dk.shape == key.shape
@@ -1579,8 +1579,8 @@ def test_attn_bias_padded() -> None:
     assert_allclose(
         output,
         fmha_output,
-        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
-        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
+        atol=fmha.ck.FwOp.ERROR_ATOL[torch.float16],
+        rtol=fmha.ck.FwOp.ERROR_RTOL[torch.float16],
     )
 
 
From 9907061d588078622bb194d1e2e56a0a0ab1eec7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 30 Aug 2023 16:24:26 +0000
Subject: [PATCH 037/837] Update C++ extension to add bias support for backward
 due to enabled by ck-flashAttn

---
 third_party/composable_kernel                 |  2 +-
 .../hip_fmha/ck_fmha_batched_backward.h       | 86 ++++++++++++-------
 .../hip_fmha/ck_fmha_grouped_backward.h       | 86 ++++++++++++-------
 3 files changed, 109 insertions(+), 65 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 226355e7e8..4c8b47c04d 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 226355e7e885881cdd904aec4df872fedb5447cd
+Subproject commit 4c8b47c04d8fe9d3e7074bf207590eee833fa51f
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 4ab8465633..9c24662146 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -5,9 +5,9 @@
 
 #include <ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_kloop_v1.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
 #include "ck_fmha_util.h"
 
@@ -28,8 +28,9 @@ void batched_backward_masktype_attnbias_dispatched(
   using ShuffleDataType = F32;
   using LSEDataType = F32;
   using ZDataType = unsigned short;
-  using Acc0BiasDataType = ck::Tuple<>;
-  using Acc1BiasDataType = ck::Tuple<>;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
 
   static constexpr ck::index_t NumDimG = 2;
   static constexpr ck::index_t NumDimM = 1;
@@ -56,8 +57,13 @@ void batched_backward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
+  // Tunables
+  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
   using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionBackward_Kloop_Xdl_CShuffle_V1<
+      DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
           NumDimG,
           NumDimM,
           NumDimN,
@@ -84,42 +90,47 @@ void batched_backward_masktype_attnbias_dispatched(
           TensorSpecY,
           1,
           256,
-          128, // MPerBlock
+          64, // MPerBlock
           128, // NPerBlock
-          64, // KPerBlock
-          64, // Gemm1NPerBlock
+          128, // KPerBlock
+          128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           8, // AK1
           8, // BK1
-          2, // B1K1
+          2, // A1K1
           32, // MPerXDL
           32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
-          2, // Gemm1NXdlPerWave
-          2, // Gemm2NXdlPerWave
+          2, // MXdlPerWave
+          1, // NXdlPerWave
+          4, // Gemm1NXdlPerWave
+          1, // Gemm2NXdlPerWave
           S<4, 64, 1>, // ABlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
-          S<4, 64, 1>, // BBlockTransfer
+          S<4, 64, 1>, // B0BlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
+          Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+          S<8, 32, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          2,
+          false,
           1, // CShuffleMXdlPerWavePerShuffle
-          2, // CShuffleNXdlPerWavePerShuffle
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          CShuffleBlockTransferScalarPerVector_NPerBlock, // CShuffleBlockTransferScalarPerVector_NPerBlock
-          MaskingSpec, // MaskingSpecialization
+          4, // CShuffleNXdlPerWavePerShuffle
+          S<1, 32, 1, 8>,
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          MaskingSpec,
           Deterministic>;
 
   std::vector<ck::index_t> q_gs_ms_ks_lengths{
@@ -167,6 +178,21 @@ void batched_backward_masktype_attnbias_dispatched(
 
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
+  std::vector<ck::index_t> d_gs_ms_ns_lengths;
+  std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+  if constexpr (has_attn_bias) {
+    d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+    d_gs_ms_ns_strides = {
+        param.attn_bias_strides[0],
+        param.attn_bias_strides[1],
+        param.attn_bias_strides[2],
+        param.attn_bias_strides[3]};
+  } else {
+    d_gs_ms_ns_lengths = {1, 1, 1, 1};
+    d_gs_ms_ns_strides = {0, 0, 0, 0};
+  };
+
   float alpha = param.scale;
 
   auto op = DeviceOpInstance{};
@@ -183,8 +209,8 @@ void batched_backward_masktype_attnbias_dispatched(
       param.grad_q_ptr,
       param.grad_k_ptr,
       param.grad_v_ptr,
-      {}, // std::array<void*, 1> p_acc0_biases;
-      {}, // std::array<void*, 1> p_acc1_biases;
+      param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+      nullptr, // p_acc1_bias
       q_gs_ms_ks_lengths,
       q_gs_ms_ks_strides,
       k_gs_ns_ks_lengths,
@@ -196,14 +222,10 @@ void batched_backward_masktype_attnbias_dispatched(
       y_gs_ms_os_lengths,
       y_gs_ms_os_strides,
       lse_gs_ms_lengths,
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc0_biases_gs_ms_ns_lengths},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc0_biases_gs_ms_ns_strides},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc1_biases_gs_ms_os_lengths},
-      {}, // std::array<std::vector<ck::index_t>,
-          // 1>{acc1_biases_gs_ms_os_strides},
+      d_gs_ms_ns_lengths,
+      d_gs_ms_ns_strides,
+      {}, // acc1_biases_gs_ms_os_lengths
+      {}, // acc1_biases_gs_ms_os_strides
       QKVElementOp{},
       QKVElementOp{},
       Scale{alpha},
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 1bba8b6781..620ebf26ca 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -5,11 +5,10 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_kloop_v1.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_kloop_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/sequence.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
 #include "ck_fmha_util.h"
 
@@ -30,8 +29,9 @@ void grouped_backward_masktype_attnbias_dispatched(
   using ShuffleDataType = F32;
   using LSEDataType = F32;
   using ZDataType = unsigned short;
-  using Acc0BiasDataType = ck::Tuple<>;
-  using Acc1BiasDataType = ck::Tuple<>;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
 
   static constexpr ck::index_t NumDimG = 2;
   static constexpr ck::index_t NumDimM = 1;
@@ -58,8 +58,13 @@ void grouped_backward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
+  // Tunables
+  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
   using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionBackward_Kloop_Xdl_CShuffle_V1<
+      DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
           NumDimG,
           NumDimM,
           NumDimN,
@@ -86,42 +91,47 @@ void grouped_backward_masktype_attnbias_dispatched(
           TensorSpecY,
           1,
           256,
-          128, // MPerBlock
+          64, // MPerBlock
           128, // NPerBlock
-          64, // KPerBlock
-          64, // Gemm1NPerBlock
+          128, // KPerBlock
+          128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           8, // AK1
           8, // BK1
           2, // B1K1
           32, // MPerXDL
           32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
-          2, // Gemm1NXdlPerWave
-          2, // Gemm2NXdlPerWave
+          2, // MXdlPerWave
+          1, // NXdlPerWave
+          4, // Gemm1NXdlPerWave
+          1, // Gemm2NXdlPerWave
           S<4, 64, 1>, // ABlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
-          S<4, 64, 1>, // BBlockTransfer
+          S<4, 64, 1>, // B0BlockTransfer
           S<1, 0, 2>,
           S<1, 0, 2>,
           2,
-          8,
+          ABBlockTransferSrcScalarPerVector, // TUNABLE
           8,
           true,
+          Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+          S<8, 32, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          2,
+          false,
           1, // CShuffleMXdlPerWavePerShuffle
-          2, // CShuffleNXdlPerWavePerShuffle
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          CShuffleBlockTransferScalarPerVector_NPerBlock, // CShuffleBlockTransferScalarPerVector_NPerBlock
-          MaskingSpec, // MaskingSpecialization
+          4, // CShuffleNXdlPerWavePerShuffle
+          S<1, 32, 1, 8>,
+          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          MaskingSpec,
           Deterministic>;
 
   std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
@@ -162,6 +172,22 @@ void grouped_backward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
 
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {1, G1, M, N};
+      d_gs_ms_ns_strides = {
+          0,
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2]};
+
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    };
+
     problem_descs.push_back({
         q_gs_ms_ks_lengths,
         q_gs_ms_ks_strides,
@@ -175,14 +201,10 @@ void grouped_backward_masktype_attnbias_dispatched(
         y_gs_ms_os_strides,
         lse_gs_ms_lengths,
         lse_gs_ms_strides,
-        {}, // std::array<std::vector<ck::index_t>,
-            // 1>{acc0_biases_gs_ms_ns_lengths},
-        {}, // std::array<std::vector<ck::index_t>,
-            // 1>{acc0_biases_gs_ms_ns_strides},
-        {}, // std::array<std::vector<ck::index_t>,
-            // 1>{acc1_biases_gs_ms_os_lengths},
-        {}, // std::array<std::vector<ck::index_t>,
-            // 1>{acc1_biases_gs_ms_os_strides},
+        d_gs_ms_ns_lengths,
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides
     });
   }
 
@@ -202,8 +224,8 @@ void grouped_backward_masktype_attnbias_dispatched(
       param.grad_q_ptrs,
       param.grad_k_ptrs,
       param.grad_v_ptrs,
-      {}, // std::array<void*, 1> p_acc0_biases;
-      {}, // std::array<void*, 1> p_acc1_biases;
+      param.attn_bias_ptrs,
+      {}, // p_acc1_bias_vec;
       problem_descs,
       QKVElementOp{},
       QKVElementOp{},

From 94be1647fdd54b53fd656b2ad95b6fc216c755e9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 1 Sep 2023 15:44:42 +0000
Subject: [PATCH 038/837] Synchronize the updates in test_mem_eff_attention.py
 to test_mem_eff_attention_ck.py

---
 tests/test_mem_eff_attention_ck.py | 161 ++++++++++++++++++++---------
 1 file changed, 115 insertions(+), 46 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 228ab0971d..0d20a10921 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -20,9 +20,14 @@
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
 _types = [torch.float16, torch.bfloat16]
 
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
 ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
     fmha.ck.FwOp,
 ]
@@ -31,23 +36,6 @@
     fmha.ck.BwOp,
 ]
 
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-
-def _filter_unsupported_ops(ops: Sequence[T]) -> Sequence[T]:
-    return [
-        op
-        for op in ops
-        if op.is_available()
-    ]
-
-
-ALL_FW_OPS = _filter_unsupported_ops(ALL_FW_OPS)
-ALL_BW_OPS = _filter_unsupported_ops(ALL_BW_OPS)
-
-
 def sample_random_supported_fw(
     inp: fmha.Inputs, seed: int
 ) -> Type[fmha.common.AttentionFwOpBase]:
@@ -64,7 +52,7 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
     shapes = []
     for B in op._TEST_BATCH_SIZES:
         for Mq in [32, 256]:
-            for Mkv in [32, 64, 256]:
+            for Mkv in [32, 64, 256, 1024]:
                 for K in op._TEST_K:
                     shapes.append((B, Mq, Mkv, 1, K, K))
         Mq = 256
@@ -75,7 +63,7 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
         for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
             shapes.append((B, M, Mkv, H, K, K))
             shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 256 + 2, 256 + 8, 512]:
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
             if _K <= op.SUPPORTED_MAX_K:
                 shapes.append((B, Mq, Mkv, H, _K, _K))
         # Different value for K / Kv
@@ -90,6 +78,17 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
         # Some number of heads
         for H in [3, 5, 12]:
             shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Filter-out not supported shapes
+    shapes = [
+        shape
+        for shape in shapes
+        if len(
+            op.shape_not_supported_reasons(
+                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
+            )
+        )
+        == 0
+    ]
     # Add some random shapes
     if op in [
         fmha.ck.FwOp,
@@ -97,7 +96,8 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
     ]:
         K_CHOICES = [8 * i for i in range(1, 256 // 8)]
         r = random.Random(0)
-        for _ in range(20):
+        found_count = 0
+        while found_count < 20:
             B = r.randint(1, 400)
             Mq = r.randint(1, 500)
             Mkv = r.randint(1, 500)
@@ -107,10 +107,20 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
             Kv = r.choice(K_CHOICES)
             if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
                 Kv = K
+            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
+                continue
+            found_count += 1
             shapes.append((B, Mq, Mkv, H, K, Kv))
     return shapes
 
 
+def make_id(op, device, dtype, bias_type, *shape):
+    return (
+        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+        f"-{'-'.join([str(s) for s in shape])}"
+    )
+
+
 def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
 ):
@@ -120,9 +130,7 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     for op in ops_list:
         op_count = 0
         # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(
-            sorted(list(op.SUPPORTED_ATTN_BIAS_TYPES), key=lambda x: str(x))
-        )
+        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
         for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
             has_one = False
             for device in _devices:
@@ -176,13 +184,9 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
                     continue
                 for dtype in op.SUPPORTED_DTYPES:
                     combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
     return {
         "argvalues": combination,
-        "ids": ids,
+        "ids": [make_id(*c) for c in combination],
     }
 
 
@@ -396,7 +400,6 @@ def create_attn_bias(
                 device=device,
                 dtype=dtype,
             )
-
             # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
             #       with the data read by one-thread
             # make sure it also works if the first columns are partially masked out
@@ -404,6 +407,8 @@ def create_attn_bias(
 
         if requires_grad:
             attn_bias.requires_grad_(True)
+        if fmt == "BMK":
+            attn_bias = attn_bias[:, 0]
         return attn_bias
     if bias_type is fmha.attn_bias.LowerTriangularMask:
         return fmha.attn_bias.LowerTriangularMask()
@@ -547,6 +552,7 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
         (0, 2, 1, 3)
     )
 
+
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
@@ -567,7 +573,7 @@ def test_forward(
         k,
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-   
+
     if kv > 128:
         pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
 
@@ -621,11 +627,11 @@ def test_forward(
     ref = ref_attention(query, key, value, attn_bias)
     assert out.shape == ref.shape, out.shape
     assert_allclose(
-             out.float(),
-             ref,
-             atol=op.ERROR_ATOL[dtype],
-             rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-        )
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
 
 
 @pytest.mark.parametrize("k_len", [5, 6, 32])
@@ -633,23 +639,22 @@ def test_forward(
 @pytest.mark.parametrize("kv_len", [128, 512])
 @pytest.mark.parametrize("q_len", [128, 512])
 @pytest.mark.parametrize("device", [torch.device("cuda")])
-@pytest.mark.parametrize("test_type", _types)
-def test_key_query_all_ones(test_type, device, q_len, kv_len, batch_size, k_len):
+@pytest.mark.parametrize("dtype", _types)
+def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
     scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=test_type)
-    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=test_type)
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=test_type) * scale
+    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
+    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
 
     out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
     # this should be equivalent to the average over value
     ref = value.mean(1, keepdim=True).expand_as(query)
 
-    if test_type is torch.float16:
+    if dtype is torch.float16:
         assert_allclose(out, ref, atol=1e-5)
     else:
         assert_allclose(out, ref, atol=1e-2)
 
-
 def _block_diag_reshape_lse(
     lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
 ) -> torch.Tensor:
@@ -875,7 +880,7 @@ def _vec_binom_test(x, n, p):
 def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
     if op == fmha.ck.FwOp:
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
-        rand_uniform = torch.ops.xformers._cutlass_rand_uniform(p, mask)
+        rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
         mask = (rand_uniform > p).to(torch.float32)
         mask = mask.reshape(batch_size, q_len, kv_len)
     else:
@@ -885,7 +890,6 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
     return mask
 
 
-### disable this test due to the un-availability of binomtest
 @cuda_only
 @pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
 @pytest.mark.parametrize("seed", [42, 124])
@@ -938,6 +942,7 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
     assert all(p_values > p_val_tol)
 
+
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     if dtype is torch.bfloat16 and compute_capability < (8, 0):
         pytest.skip("bf16 requires Sm80")
@@ -1009,6 +1014,18 @@ def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     )
 
 
+@cuda_only
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
+@pytest.mark.parametrize("q_len", [2, 33])
+def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len, kv_len, batch_size, k, p, op=fmha.ck.FwOp, dtype=torch.float16
+    )
+
+
 @cuda_only
 @pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
 @pytest.mark.parametrize("k", [16, 128, 256])
@@ -1334,7 +1351,7 @@ def test_unsupported_cpu(op: Type[fmha.AttentionFwOpBase]):
 )
 def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
     q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
-        0, 1, 3, 2
+        0, 3, 1, 2
     )
     try:
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
@@ -1350,7 +1367,7 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
     "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
 )
 def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 2, 2, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
+    q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
     try:
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
     except ValueError as e:
@@ -1584,6 +1601,57 @@ def test_attn_bias_padded() -> None:
     )
 
 
+@pytest.mark.parametrize("op", [fmha.decoder.FwOp])
+@pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "")
+@pytest.mark.parametrize("n_heads", [1, 16, 32])
+@pytest.mark.parametrize("padding", [32, 4096])
+@pytest.mark.parametrize("bsz", [1, 8])
+@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
+def test_decoder(
+    op, multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str
+) -> None:
+    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
+    torch.manual_seed(1)
+    d = 128
+    k_shape = (1, bsz * padding, n_heads, d)
+    # TODO: support 2 kv heads etc.
+    k = torch.randn(k_shape, dtype=dtype_).cuda()
+    k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
+    v = torch.randn(k_shape, dtype=dtype_).cuda()
+    q = torch.randn((1, bsz, n_heads, d), dtype=dtype_).cuda()
+    causal_diagonal = torch.tensor(  # TODO: make unnecessary
+        [i - 1 for i in k_seqlen], dtype=torch.int32
+    ).cuda()
+
+    if multiquery:
+        k = k[:, :, :1].expand(k_shape)
+        v = v[:, :, :1].expand(k_shape)
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=[1] * bsz,
+        kv_seqlen=k_seqlen,
+        causal_diagonal=causal_diagonal,
+        kv_padding=padding,
+    )
+    inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
+    if not op.supports(inp):
+        pytest.skip("not supported")
+
+    decoder_output = fmha.memory_efficient_attention_forward(
+        q, k, v, attn_bias, op=fmha.decoder.FwOp
+    )
+
+    ck_output = fmha.memory_efficient_attention_forward(
+        q, k, v, attn_bias, op=fmha.ck.FwOp
+    )
+    assert_allclose(
+        decoder_output,
+        ck_output,
+        atol=fmha.ck.FwOp.ERROR_ATOL[dtype_] * 4,
+        rtol=fmha.ck.FwOp.ERROR_RTOL[dtype_],
+    )
+
+
 def test_attn_bias_from_seqlens() -> None:
     bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
     out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
@@ -1701,3 +1769,4 @@ def test_permuted_attn_bias(self) -> None:
         except (ValueError, RuntimeError):
             pass
 
+# end of file

From ee90d6b4d8c899ed89cf338011364fa946b4b2ca Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 3 Sep 2023 23:54:33 +0000
Subject: [PATCH 039/837] Add _ck_rand_uniform() interface to c++ extension

---
 tests/test_mem_eff_attention_ck.py            |   4 +-
 xformers/csrc/attention/attention.cpp         |   2 +
 .../hip_fmha/attention_ck_rand_uniform.cpp    | 104 ++++++++++++++++++
 3 files changed, 109 insertions(+), 1 deletion(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 0d20a10921..8a44de2d85 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -880,8 +880,10 @@ def _vec_binom_test(x, n, p):
 def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
     if op == fmha.ck.FwOp:
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
+        ## rand_uniform is an int32 tensor
         rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
-        mask = (rand_uniform > p).to(torch.float32)
+        mask = (rand_uniform > int(p*65535)).to(torch.float32)
+        print("call _ck_rand_uniform passed")
         mask = mask.reshape(batch_size, q_len, kv_len)
     else:
         mask = torch.empty((batch_size, q_len, kv_len), device=device)
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 40922e241a..a837d1c193 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -39,4 +39,6 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
new file mode 100644
index 0000000000..b786b0837c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -0,0 +1,104 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ATen/ATen.h>
+#include <c10/core/TensorOptions.h>
+#include <torch/library.h>
+#include <torch/types.h>
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_batched_dropout.hpp"
+
+namespace {
+
+/**
+ * generate a tensor with random uniform values. only used for testing, not much
+ * attention is paid to performance
+ */
+at::Tensor rand_uniform_int(
+    double dropout_prob,
+    const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
+{
+  int B = out_pattern.size(0);
+  int num_heads = out_pattern.size(1);
+  int M = out_pattern.size(2);
+  int N = out_pattern.size(3);
+
+  at::Tensor randvals;
+
+  randvals = at::empty(
+      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+
+  using DeviceOpInstance = ck::tensor_operation::device::DeviceBatchedDropout<
+      2, // NumDimG
+      ck::half_t,
+      int,
+      ck::half_t,
+      GemmSpec,
+      TensorSpecA,
+      TensorSpecB0,
+      TensorSpecB1,
+      TensorSpecC,
+      256, // BlockSize
+      64, // MPerBlock
+      128, // NPerBlock
+      32, // KPerBlock
+      8, // AK1
+      8, // BK1
+      32, // MPerXDL
+      32, // NPerXDL
+      2, // MXdlPerWave
+      1>; // NXdlPerWave
+
+  const uint64_t seed = 1;
+  const uint64_t offset = 0;
+
+  std::vector<ck::index_t> z_gs_ms_ns_lengths = {B, num_heads, M, N};
+  std::vector<ck::index_t> z_gs_ms_ns_strides = {
+      static_cast<int>(randvals.stride(0)),
+      static_cast<int>(randvals.stride(1)),
+      static_cast<int>(randvals.stride(2)),
+      static_cast<int>(randvals.stride(3))};
+
+  auto dropout_op = DeviceOpInstance();
+  auto dropout_invoker = dropout_op.MakeInvoker();
+
+  auto dropout_arg = dropout_op.MakeArgument(
+      static_cast<int*>(randvals.data_ptr()),
+      z_gs_ms_ns_lengths,
+      z_gs_ms_ns_strides,
+      {seed, offset});
+
+  dropout_invoker.Run(dropout_arg, StreamConfig{nullptr, false});
+
+  return randvals;
+} // namespace
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"),
+      TORCH_FN(rand_uniform_int));
+}

From bf7401c9266886e8351085e2b3f8b74e67508eba Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 4 Sep 2023 12:41:25 +0000
Subject: [PATCH 040/837] Use hipMemcpyAsync() to replace hipMemcpy() to avoid
 some failure while running benchmark_mem_eff_attn_decoder.py

---
 .../hip_fmha/attention_forward_generic.cpp        | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 6367cb5178..f6dd8e3d8e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -254,16 +254,18 @@ efficient_attention_forward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    FMHA_HIP_CHECK(hipMemcpy(
+    FMHA_HIP_CHECK(hipMemcpyAsync(
         p.host_seqstart_q.data(),
         seqstart_q->data_ptr(),
         (p.num_batches + 1) * sizeof(int32_t),
-        hipMemcpyDeviceToHost));
-    FMHA_HIP_CHECK(hipMemcpy(
+        hipMemcpyDeviceToHost,
+        stream));
+    FMHA_HIP_CHECK(hipMemcpyAsync(
         p.host_seqstart_k.data(),
         seqstart_k->data_ptr(),
         (p.num_batches + 1) * sizeof(int32_t),
-        hipMemcpyDeviceToHost));
+        hipMemcpyDeviceToHost,
+        stream));
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
@@ -273,11 +275,12 @@ efficient_attention_forward_ck(
 
       p.host_seqlen_k.resize(p.num_batches);
 
-      FMHA_HIP_CHECK(hipMemcpy(
+      FMHA_HIP_CHECK(hipMemcpyAsync(
           p.host_seqlen_k.data(),
           seqlen_k->data_ptr(),
           p.num_batches * sizeof(int32_t),
-          hipMemcpyDeviceToHost));
+          hipMemcpyDeviceToHost,
+          stream));
     }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());

From 973d5f44e4ca722303d104ba97328b4ed3dc43a6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 4 Sep 2023 18:33:45 +0000
Subject: [PATCH 041/837] Update in SimpleDeviceMem

---
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 9ce11c399a..851c8dbda1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -8,10 +8,10 @@
 
 #include <torch/torch.h>
 
+#include <ATen/cuda/CUDAGeneratorImpl.h>
 #include <ck/ck.hpp>
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/sequence.hpp>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
 
 // Here flag can be a constant, variable or function call
 #define FMHA_HIP_CHECK(ret_or_call)                                          \
@@ -166,17 +166,17 @@ struct MaxVectorSizeForType<ck::bhalf_t> {
 
 struct SimpleDeviceMem {
   SimpleDeviceMem() = delete;
-  SimpleDeviceMem(std::size_t mem_size) : p_mem_{} {
-    FMHA_HIP_CHECK(hipMalloc(static_cast<void**>(&p_mem_), mem_size));
+  SimpleDeviceMem(std::size_t mem_size) {
+    auto options = torch::TensorOptions();
+    mem = at::empty(
+        mem_size, options.dtype(at::ScalarType::Byte).device(torch::kCUDA));
   }
   void* GetDeviceBuffer() {
-    return p_mem_;
-  }
-  ~SimpleDeviceMem() {
-    (void)hipFree(p_mem_);
+    return mem.data_ptr();
   }
+  ~SimpleDeviceMem() {}
 
-  void* p_mem_;
+  at::Tensor mem;
 };
 
 struct BatchedInferParams {
@@ -279,7 +279,7 @@ struct BatchedBackwardParams {
   int Kv; // embed_dim for Value
 
   float scale;
-  bool has_attn_bias; 
+  bool has_attn_bias;
 
   // BMHK mode strides, last-dim contiguous
   std::array<int, 4> q_strides;
@@ -332,7 +332,7 @@ struct GroupedBackwardParams {
   std::vector<int> host_seqlen_k;
 
   float scale;
-  bool has_attn_bias; 
+  bool has_attn_bias;
 
   // MHK mode strides, last-dim contiguous
   std::array<int, 3> q_strides;

From 6b6e3705cf01e838d4353cc87febafead3e0a239 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 4 Sep 2023 19:29:42 +0000
Subject: [PATCH 042/837] Misc updates in
 attention_forward/backward_generic.cpp

---
 .../hip_fmha/attention_backward_generic.cpp   | 56 +++++++++++--------
 .../hip_fmha/attention_forward_generic.cpp    | 11 +++-
 2 files changed, 40 insertions(+), 27 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index ce9ce08ce8..0faf23be94 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -79,6 +79,11 @@ efficient_attention_backward_ck(
   TORCH_CHECK(query.size(3) == key.size(3));
   TORCH_CHECK(value.size(3) == grad_out.size(3));
 
+  // Query, Key, Value must use the same CUDA device
+  TORCH_CHECK(query.device() == key.device());
+  TORCH_CHECK(query.device() == value.device());
+  TORCH_CHECK(query.device().type() == torch::kCUDA)
+
   // handle potentially non-contiguous grad_out through a copy
   CHECK_NOSPARSE_CONTIGUOUS_CUDA(grad_out);
 
@@ -242,7 +247,7 @@ efficient_attention_backward_ck(
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
-      p.has_attn_bias = true; 
+      p.has_attn_bias = true;
       const at::Tensor bias_4d_view =
           get_bias_4d_view(*bias, B, num_heads, M, N);
       p.attn_bias_strides = {
@@ -250,9 +255,8 @@ efficient_attention_backward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
-    }
-    else 
-	p.has_attn_bias = false; 
+    } else
+      p.has_attn_bias = false;
 
     p.dropout_prob = static_cast<float>(dropout_p);
     p.rng_engine_inputs = rng_engine_inputs;
@@ -269,22 +273,18 @@ efficient_attention_backward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    FMHA_HIP_CHECK(hipMemcpy(
+    FMHA_HIP_CHECK(hipMemcpyAsync(
         p.host_seqstart_q.data(),
         seqstart_q->data_ptr(),
         (p.num_batches + 1) * sizeof(int),
-        hipMemcpyDeviceToHost));
-    FMHA_HIP_CHECK(hipMemcpy(
+        hipMemcpyDeviceToHost,
+        stream));
+    FMHA_HIP_CHECK(hipMemcpyAsync(
         p.host_seqstart_k.data(),
         seqstart_k->data_ptr(),
         (p.num_batches + 1) * sizeof(int),
-        hipMemcpyDeviceToHost));
-    if (seqlen_k.has_value())
-      FMHA_HIP_CHECK(hipMemcpy(
-          p.host_seqlen_k.data(),
-          seqlen_k->data_ptr(),
-          p.num_batches * sizeof(int),
-          hipMemcpyDeviceToHost));
+        hipMemcpyDeviceToHost,
+        stream));
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
@@ -294,11 +294,12 @@ efficient_attention_backward_ck(
 
       p.host_seqlen_k.resize(p.num_batches);
 
-      FMHA_HIP_CHECK(hipMemcpy(
+      FMHA_HIP_CHECK(hipMemcpyAsync(
           p.host_seqlen_k.data(),
           seqlen_k->data_ptr(),
           p.num_batches * sizeof(int32_t),
-          hipMemcpyDeviceToHost));
+          hipMemcpyDeviceToHost,
+          stream));
     }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
@@ -335,13 +336,17 @@ efficient_attention_backward_ck(
           randvals.scalar_type());
 
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_stride]));
-      p.grad_q_ptrs.push_back(reinterpret_cast<void*>(&grad_q_ptr[tmp_q_stride]));
+      p.grad_q_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_stride]));
       p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_stride]));
-      p.grad_k_ptrs.push_back(reinterpret_cast<void*>(&grad_k_ptr[tmp_k_stride]));
+      p.grad_k_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_k_ptr[tmp_k_stride]));
       p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_stride]));
-      p.grad_v_ptrs.push_back(reinterpret_cast<void*>(&grad_v_ptr[tmp_v_stride]));
+      p.grad_v_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_v_ptr[tmp_v_stride]));
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_stride]));
-      p.grad_out_ptrs.push_back(reinterpret_cast<void*>(&grad_out_ptr[tmp_grad_o_stride]));
+      p.grad_out_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_out_ptr[tmp_grad_o_stride]));
 
       if (bias.has_value()) {
         int32_t tmp_bias_stride = get_size_in_bytes(
@@ -349,11 +354,14 @@ efficient_attention_backward_ck(
                 p.host_seqstart_k[i] * p.attn_bias_strides[3],
             bias->scalar_type());
 
-        p.attn_bias_ptrs.push_back(reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_stride]));
+        p.attn_bias_ptrs.push_back(
+            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_stride]));
       };
 
-      p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_stride]));
-      p.randvals_ptrs.push_back(reinterpret_cast<void*>(&randvals_ptr[tmp_randvals_stride]));
+      p.logsumexp_ptrs.push_back(
+          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_stride]));
+      p.randvals_ptrs.push_back(
+          reinterpret_cast<void*>(&randvals_ptr[tmp_randvals_stride]));
     }
   };
 
@@ -385,7 +393,7 @@ efficient_attention_backward_ck(
 
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 #endif
-}
+} // namespace
 
 } // namespace
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index f6dd8e3d8e..89786cccd1 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -72,6 +72,11 @@ efficient_attention_forward_ck(
   TORCH_CHECK(query.scalar_type() == key.scalar_type());
   TORCH_CHECK(query.scalar_type() == value.scalar_type());
 
+  // Query, Key, Value must use the same CUDA device
+  TORCH_CHECK(query.device() == key.device());
+  TORCH_CHECK(query.device() == value.device());
+  TORCH_CHECK(query.device().type() == torch::kCUDA)
+
   TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
   if (seqstart_q.has_value()) {
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
@@ -87,7 +92,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
-  // at::cuda::CUDAGuard device_guard(query.device());
+  at::cuda::CUDAGuard device_guard(query.device());
   hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
@@ -379,7 +384,7 @@ efficient_attention_forward_ck(
       } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
         batched_forward_bp16(batched_forward_params, stream);
       } else
-        throw std::runtime_error("input data-type is not supported");
+        throw std::runtime_error("input data-type is not supported!");
     } else { // input is grouped
       GroupedForwardParams grouped_forward_params;
 
@@ -390,7 +395,7 @@ efficient_attention_forward_ck(
       } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
         grouped_forward_bp16(grouped_forward_params, stream);
       } else
-        throw std::runtime_error("input data-type is not supported");
+        throw std::runtime_error("input data-type is not supported!");
     }
   });
 

From 82c365117d2792b5133f98355e6e34ab07b08f74 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 4 Sep 2023 23:36:16 +0000
Subject: [PATCH 043/837] Split file ck_fmha_util.h

---
 .../hip_fmha/attention_backward_generic.cpp   |   1 +
 .../hip_fmha/attention_ck_rand_uniform.cpp    |   5 +-
 .../hip_fmha/attention_forward_generic.cpp    |   1 +
 .../hip_fmha/ck_fmha_batched_backward.h       |   3 +-
 .../hip_fmha/ck_fmha_batched_forward.h        |   3 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       |   3 +-
 .../hip_fmha/ck_fmha_grouped_forward.h        |   3 +-
 .../attention/hip_fmha/ck_fmha_op_helper.h    |  41 ++++
 .../csrc/attention/hip_fmha/ck_fmha_params.h  | 200 +++++++++++++++++
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 202 ------------------
 10 files changed, 253 insertions(+), 209 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_params.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 0faf23be94..e82f0ef809 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -9,6 +9,7 @@
 #include <c10/cuda/CUDAGuard.h>
 #include <torch/library.h>
 
+#include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
 extern void batched_backward_fp16(
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index b786b0837c..5aab035684 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -10,14 +10,13 @@
 #include <torch/library.h>
 #include <torch/types.h>
 
-#include <sstream>
-#include <stdexcept>
-
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_batched_dropout.hpp"
 
+#include "ck_fmha_util.h"
+
 namespace {
 
 /**
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 89786cccd1..87a45e158e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -11,6 +11,7 @@
 #include <c10/util/Optional.h>
 #include <torch/library.h>
 
+#include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
 extern void batched_forward_fp16(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 9c24662146..136a6b0aae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -9,7 +9,8 @@
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
-#include "ck_fmha_util.h"
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void batched_backward_masktype_attnbias_dispatched(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index b2daa90c2a..f63c70dd55 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -9,7 +9,8 @@
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp"
 
-#include "ck_fmha_util.h"
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void batched_forward_masktype_attnbias_dispatched(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 620ebf26ca..161067616c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -10,7 +10,8 @@
 #include <ck/utility/sequence.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
-#include "ck_fmha_util.h"
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void grouped_backward_masktype_attnbias_dispatched(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 4f3d9a9855..9c23e1676b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -10,7 +10,8 @@
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/sequence.hpp>
 
-#include "ck_fmha_util.h"
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void grouped_forward_masktype_attnbias_dispatched(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
new file mode 100644
index 0000000000..ffc53514bb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
@@ -0,0 +1,41 @@
+#pragma once
+
+#include <torch/torch.h>
+
+#include <ck/utility/data_type.hpp>
+
+template <typename scalar_t>
+struct MaxVectorSizeForType {
+  static constexpr int value = 4;
+};
+
+template <>
+struct MaxVectorSizeForType<ck::half_t> {
+  static constexpr int value = 8;
+};
+
+template <>
+struct MaxVectorSizeForType<ck::bhalf_t> {
+  static constexpr int value = 8;
+};
+
+struct SimpleDeviceMem {
+  SimpleDeviceMem() = delete;
+  SimpleDeviceMem(std::size_t mem_size) {
+    auto options = torch::TensorOptions();
+    mem = at::empty(
+        mem_size, options.dtype(at::ScalarType::Byte).device(torch::kCUDA));
+  }
+  void* GetDeviceBuffer() {
+    return mem.data_ptr();
+  }
+  ~SimpleDeviceMem() {}
+
+  at::Tensor mem;
+};
+
+// useful aliasing for making the codes easy
+template <ck::index_t... Is>
+using S = ck::Sequence<Is...>;
+
+using F32 = float;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
new file mode 100644
index 0000000000..50c478c33d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -0,0 +1,200 @@
+#pragma once
+
+#include <array>
+#include <cstdint>
+
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+
+struct BatchedInferParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+
+  // BMHK mode strides
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> out_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* out_ptr;
+};
+
+struct BatchedForwardParams : public BatchedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
+
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // BHMN mode strides, completely contiguous
+  std::array<int32_t, 4> randvals_strides;
+  void* randvals_ptr;
+
+  // completely contiguous
+  void* logsumexp_ptr;
+};
+
+struct GroupedInferParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+  bool has_attn_bias;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<void*> out_ptrs;
+
+  uint8_t custom_mask_type;
+};
+
+struct GroupedForwardParams : public GroupedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
+
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // HMN mode strides, completely contiguous
+  std::array<int, 3> randvals_strides;
+  std::vector<void*> randvals_ptrs;
+
+  // completely contiguous
+  std::vector<void*> logsumexp_ptrs;
+};
+
+struct BatchedBackwardParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+
+  // BMHK mode strides, last-dim contiguous
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+  std::array<int, 4> out_strides;
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+  const void* out_ptr;
+
+  uint8_t custom_mask_type;
+
+  std::array<int, 4> grad_out_strides;
+
+  const void* grad_out_ptr;
+
+  void* grad_q_ptr;
+  void* grad_k_ptr;
+  void* grad_v_ptr;
+  // void* grad_bias_ptr;
+
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // completely contiguous
+  const void* logsumexp_ptr;
+
+  // BHMN mode strides, completely contiguous
+  std::array<int, 4> randvals_strides;
+  void* randvals_ptr;
+
+  int64_t rng_seed;
+  int64_t rng_offset;
+};
+
+struct GroupedBackwardParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int num_heads; //
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+  bool has_attn_bias;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<const void*> out_ptrs;
+
+  uint8_t custom_mask_type;
+
+  std::array<int, 3> grad_out_strides;
+
+  std::vector<const void*> grad_out_ptrs;
+
+  std::vector<void*> grad_q_ptrs;
+  std::vector<void*> grad_k_ptrs;
+  std::vector<void*> grad_v_ptrs;
+  // std::vector<void *> grad_bias_ptrs;
+
+  float dropout_prob;
+  at::PhiloxCudaState rng_engine_inputs;
+
+  // HM mode strides, completely contiguous
+  std::vector<const void*> logsumexp_ptrs;
+
+  // HMN mode strides, completely contiguous
+  std::array<int, 3> randvals_strides;
+  std::vector<void*> randvals_ptrs;
+
+  int64_t rng_seed;
+  int64_t rng_offset;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 851c8dbda1..9e4d0e5fa9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -1,6 +1,5 @@
 #pragma once
 
-#include <array>
 #include <cstdint>
 #include <iostream>
 #include <sstream>
@@ -8,7 +7,6 @@
 
 #include <torch/torch.h>
 
-#include <ATen/cuda/CUDAGeneratorImpl.h>
 #include <ck/ck.hpp>
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/sequence.hpp>
@@ -178,203 +176,3 @@ struct SimpleDeviceMem {
 
   at::Tensor mem;
 };
-
-struct BatchedInferParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int num_heads; //
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-
-  // BMHK mode strides
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> out_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* out_ptr;
-};
-
-struct BatchedForwardParams : public BatchedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
-
-  float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
-
-  // BHMN mode strides, completely contiguous
-  std::array<int32_t, 4> randvals_strides;
-  void* randvals_ptr;
-
-  // completely contiguous
-  void* logsumexp_ptr;
-};
-
-struct GroupedInferParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int num_heads; //
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<void*> out_ptrs;
-
-  uint8_t custom_mask_type;
-};
-
-struct GroupedForwardParams : public GroupedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
-
-  float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
-
-  // HMN mode strides, completely contiguous
-  std::array<int, 3> randvals_strides;
-  std::vector<void*> randvals_ptrs;
-
-  // completely contiguous
-  std::vector<void*> logsumexp_ptrs;
-};
-
-struct BatchedBackwardParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int num_heads; //
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-
-  // BMHK mode strides, last-dim contiguous
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-  std::array<int, 4> out_strides;
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-  const void* out_ptr;
-
-  uint8_t custom_mask_type;
-
-  std::array<int, 4> grad_out_strides;
-
-  const void* grad_out_ptr;
-
-  void* grad_q_ptr;
-  void* grad_k_ptr;
-  void* grad_v_ptr;
-  // void* grad_bias_ptr;
-
-  float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
-
-  // completely contiguous
-  const void* logsumexp_ptr;
-
-  // BHMN mode strides, completely contiguous
-  std::array<int, 4> randvals_strides;
-  void* randvals_ptr;
-
-  int64_t rng_seed;
-  int64_t rng_offset;
-};
-
-struct GroupedBackwardParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int num_heads; //
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<const void*> out_ptrs;
-
-  uint8_t custom_mask_type;
-
-  std::array<int, 3> grad_out_strides;
-
-  std::vector<const void*> grad_out_ptrs;
-
-  std::vector<void*> grad_q_ptrs;
-  std::vector<void*> grad_k_ptrs;
-  std::vector<void*> grad_v_ptrs;
-  // std::vector<void *> grad_bias_ptrs;
-
-  float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
-
-  // HM mode strides, completely contiguous
-  std::vector<const void*> logsumexp_ptrs;
-
-  // HMN mode strides, completely contiguous
-  std::array<int, 3> randvals_strides;
-  std::vector<void*> randvals_ptrs;
-
-  int64_t rng_seed;
-  int64_t rng_offset;
-};
-
-// useful aliasing for making the codes easy
-template <ck::index_t... Is>
-using S = ck::Sequence<Is...>;
-
-using F32 = float;

From 1299d4d63418d65407b057b9af2870e9fd8c53f3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 5 Sep 2023 15:31:48 +0000
Subject: [PATCH 044/837] Update and get the test_dropout passes all comparison
 tests

---
 .gitignore                                    |  7 +++++
 tests/test_mem_eff_attention_ck.py            | 24 ++++++++-------
 .../hip_fmha/attention_forward_generic.cpp    |  2 ++
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 29 -------------------
 4 files changed, 22 insertions(+), 40 deletions(-)

diff --git a/.gitignore b/.gitignore
index 38b453363b..56869b496f 100644
--- a/.gitignore
+++ b/.gitignore
@@ -60,3 +60,10 @@ outputs
 xformers/_flash_attn
 xformers/version.py
 xformers/cpp_lib.json
+
+## temporary files
+xformers/csrc/attention/hip_fmha/*.cu
+xformers/csrc/attention/hip_fmha/*.hip
+xformers/csrc/attention/hip_fmha/*_hip.h
+
+
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 8a44de2d85..bbede9f2bd 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -882,8 +882,7 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
         ## rand_uniform is an int32 tensor
         rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
-        mask = (rand_uniform > int(p*65535)).to(torch.float32)
-        print("call _ck_rand_uniform passed")
+        mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
         mask = mask.reshape(batch_size, q_len, kv_len)
     else:
         mask = torch.empty((batch_size, q_len, kv_len), device=device)
@@ -900,14 +899,15 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 @pytest.mark.parametrize("batch_size", [1, 2])
 @pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
 @pytest.mark.parametrize("q_len", [2, 33])
-@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
-def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
+@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+def test_dropout(dtype, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     device = "cuda"
-    scale = 3
-    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
-    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-
+    scale = 0.05 
+    query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+    op = fmha.ck.FwOp
+  
     inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
     if not op.supports(inputs_for_support_check):
         del query, key, value, attn_bias
@@ -928,8 +928,10 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     torch.manual_seed(seed)
     mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
     ref = ref_attention(query, key, value, attn_bias, mask, p)
-    assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
+    assert_allclose(out.float(), ref, atol=3e-3, rtol=5e-4), f"{(out - ref).abs().max()}"
 
+    ## CK generated random numbers failed with the binomtest
+    '''
     num_trials = 1000
     p_val_tol = 1e-6
     keep_prob = 1 - p
@@ -943,7 +945,7 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     masks = masks.sum(0).flatten()
     p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
     assert all(p_values > p_val_tol)
-
+    '''
 
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     if dtype is torch.bfloat16 and compute_capability < (8, 0):
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 87a45e158e..1653c9a3ff 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -400,6 +400,8 @@ efficient_attention_forward_ck(
     }
   });
 
+  // torch::save(randvals, "randvals_dev.zip"); 
+
   std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
   std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 9e4d0e5fa9..3459147160 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -147,32 +147,3 @@ inline at::Tensor get_bias_4d_view(
   }
 }
 
-template <typename scalar_t>
-struct MaxVectorSizeForType {
-  static constexpr int value = 4;
-};
-
-template <>
-struct MaxVectorSizeForType<ck::half_t> {
-  static constexpr int value = 8;
-};
-
-template <>
-struct MaxVectorSizeForType<ck::bhalf_t> {
-  static constexpr int value = 8;
-};
-
-struct SimpleDeviceMem {
-  SimpleDeviceMem() = delete;
-  SimpleDeviceMem(std::size_t mem_size) {
-    auto options = torch::TensorOptions();
-    mem = at::empty(
-        mem_size, options.dtype(at::ScalarType::Byte).device(torch::kCUDA));
-  }
-  void* GetDeviceBuffer() {
-    return mem.data_ptr();
-  }
-  ~SimpleDeviceMem() {}
-
-  at::Tensor mem;
-};

From 6af177bd9249832510366f8f222b32c970151846 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 5 Sep 2023 17:24:52 +0000
Subject: [PATCH 045/837] Use CUDAGenerator to get PhiloxCudaState for {seed,
 offset}

---
 .../benchmark_mem_eff_attn_decoder_ck.py      | 186 ++++++++++++++++++
 .../hip_fmha/attention_backward_generic.cpp   |  13 +-
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  20 +-
 .../hip_fmha/attention_forward_generic.cpp    |  29 +--
 .../hip_fmha/ck_fmha_batched_backward.h       |   3 +-
 .../hip_fmha/ck_fmha_batched_forward.h        |   9 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       |   3 +-
 .../hip_fmha/ck_fmha_grouped_forward.h        |   6 +-
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  20 +-
 9 files changed, 239 insertions(+), 50 deletions(-)
 create mode 100644 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
new file mode 100644
index 0000000000..0e81d2a7af
--- /dev/null
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -0,0 +1,186 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+import itertools
+from functools import partial
+
+import torch
+from torch.utils import benchmark
+from utils import benchmark_main_helper
+
+import xformers.ops
+import xformers.ops.fmha as fmha
+
+torch.backends.cuda.matmul.allow_tf32 = False
+
+# Run with
+#  python xformers/benchmarks/benchmark_mem_eff_attn_decoder.py --omit-baselines --quiet
+# The baselines for these benchmarks are really slow because there is
+# so much padding in the inputs, so there is no point running them.
+
+
+def ref_attention_bmk(q, k, v, attn_bias=None):
+    if isinstance(attn_bias, xformers.ops.AttentionMask):
+        attn_bias = (
+            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
+            .to(q)
+            .squeeze()
+        )
+    q = q * (1.0 / q.shape[-1] ** 0.5)
+    if attn_bias is None:
+        attn = q @ k.transpose(-2, -1)
+    else:
+        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
+        # but faster, and is what is used in PyTorch now
+        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
+    attn = attn.softmax(-1)
+    return attn @ v
+
+
+def ref_attention(q, k, v, attn_bias):
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+min_run_time = 0.5
+device = torch.device("cuda")
+
+NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
+
+OPS = [
+    xformers.ops.fmha.ck.FwOp,
+]
+
+KV_SHAPES = [
+    # list of n_keys, padding_length, batchsize
+    (2, 64, 3),
+    (32, 1024, 500),
+    (1000, 1024, 2),
+    (8000, 8192, 1),
+    (240, 256, 32),
+    (2048, 2 * 1024, 4),
+    (4096 * 2, 8 * 1024, 1),
+]
+
+N_HEADS = [8, 16, 64]
+
+
+def product_dict(**kwargs):
+    keys = kwargs.keys()
+    vals = kwargs.values()
+    for instance in itertools.product(*vals):
+        yield dict(zip(keys, instance))
+
+
+CASES = list(
+    product_dict(
+        kv_shape=KV_SHAPES,
+        n_heads=N_HEADS,
+        num_threads=NUM_THREADS,
+        multiquery=[True, False],
+    )
+)
+
+
+def mem_eff_attention_decoder(
+    kv_shape, n_heads: int, num_threads: int, multiquery: bool
+):
+    n_keys, padding, B = kv_shape
+    torch.manual_seed(42)
+    k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
+    K = 128
+
+    q = torch.rand(1, B, n_heads, K, device=device, dtype=torch.bfloat16)
+    if multiquery:
+        k = torch.rand(
+            1, B * padding, 1, K, device=device, dtype=torch.bfloat16
+        ).expand(1, B * padding, n_heads, K)
+        v = torch.rand(
+            1, B * padding, 1, K, device=device, dtype=torch.bfloat16
+        ).expand(1, B * padding, n_heads, K)
+    else:
+        k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=torch.bfloat16)
+        v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=torch.bfloat16)
+
+    bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=[1] * B,
+        kv_seqlen=k_seqlen,
+        kv_padding=padding,
+    )
+
+    sub_label = f"{B}batch-{k_seqlen[0]}keys-{n_heads}heads"
+    if multiquery:
+        sub_label += "-mq"
+
+    has_run = False
+    for fw_op in OPS:
+        inp = fmha.Inputs(q, k, v, attn_bias=bias)
+        if not fw_op.supports(inp):
+            continue
+
+        fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
+
+        yield benchmark.Timer(
+            stmt="fn(q, k, v, attn_bias)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": bias,
+                "fn": fn,
+            },
+            label="attention",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+
+        graph = torch.cuda.CUDAGraph()
+        with torch.cuda.graph(graph):
+            fn(q, k, v, bias)
+        yield benchmark.Timer(
+            stmt="graph.replay()",
+            globals={
+                "graph": graph,
+            },
+            label="cuda graphed attention",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+
+        has_run = True
+
+    if not has_run:
+        return
+
+    RUN_BASELINES = False
+    if RUN_BASELINES:
+        yield benchmark.Timer(
+            stmt="fn(q, k, v, attn_bias)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": bias,
+                "fn": ref_attention,
+            },
+            label="attention",
+            description="eager",
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+
+
+benchmark_main_helper(mem_eff_attention_decoder, CASES, min_run_time=min_run_time)
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index e82f0ef809..c16e7725dc 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -4,8 +4,6 @@
 #include <ATen/ScalarOps.h>
 #include <ATen/Tensor.h>
 #include <ATen/TensorOperators.h>
-#include <ATen/cuda/CUDAContext.h>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
 #include <c10/cuda/CUDAGuard.h>
 #include <torch/library.h>
 
@@ -125,8 +123,6 @@ efficient_attention_backward_ck(
 
   at::Tensor randvals;
 
-  at::PhiloxCudaState rng_engine_inputs(rng_seed, rng_offset);
-
   auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
     p.B = B;
     p.M = M;
@@ -191,7 +187,8 @@ efficient_attention_backward_ck(
     p.custom_mask_type = custom_mask_type;
 
     p.dropout_prob = static_cast<float>(dropout_p);
-    p.rng_engine_inputs = rng_engine_inputs;
+    p.philox_seed = rng_seed;
+    p.philox_offset = rng_offset;
 
     randvals = at::empty(
         {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
@@ -203,9 +200,6 @@ efficient_attention_backward_ck(
     p.randvals_ptr = randvals.data_ptr();
 
     p.logsumexp_ptr = logsumexp.data_ptr();
-
-    p.rng_seed = rng_seed;
-    p.rng_offset = rng_offset;
   };
 
   auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
@@ -260,7 +254,8 @@ efficient_attention_backward_ck(
       p.has_attn_bias = false;
 
     p.dropout_prob = static_cast<float>(dropout_p);
-    p.rng_engine_inputs = rng_engine_inputs;
+    p.philox_seed = rng_seed;
+    p.philox_offset = rng_offset;
 
     randvals = at::empty(
         {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index 5aab035684..bf45f579a3 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -6,9 +6,12 @@
  * LICENSE file in the root directory of this source tree.
  */
 #include <ATen/ATen.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
 #include <c10/core/TensorOptions.h>
 #include <torch/library.h>
 #include <torch/types.h>
+#include <ATen/cuda/CUDAGraphsUtils.cuh>
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
@@ -32,6 +35,21 @@ at::Tensor rand_uniform_int(
   int M = out_pattern.size(2);
   int N = out_pattern.size(3);
 
+  at::CUDAGeneratorImpl* gen =
+      at::get_generator_or_default<at::CUDAGeneratorImpl>(
+          c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+  at::PhiloxCudaState rng_engine_inputs;
+  {
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+  }
+
+  const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+  int64_t philox_seed = std::get<0>(seeds);
+  int64_t philox_offset = std::get<1>(seeds);
+
   at::Tensor randvals;
 
   randvals = at::empty(
@@ -87,7 +105,7 @@ at::Tensor rand_uniform_int(
       static_cast<int*>(randvals.data_ptr()),
       z_gs_ms_ns_lengths,
       z_gs_ms_ns_strides,
-      {seed, offset});
+      {philox_seed, philox_offset});
 
   dropout_invoker.Run(dropout_arg, StreamConfig{nullptr, false});
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 1653c9a3ff..665eb44f4e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -10,6 +10,7 @@
 #include <c10/cuda/CUDAGuard.h>
 #include <c10/util/Optional.h>
 #include <torch/library.h>
+#include <ATen/cuda/CUDAGraphsUtils.cuh>
 
 #include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
@@ -108,8 +109,11 @@ efficient_attention_forward_ck(
   at::Tensor randvals;
 
   const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-  at::PhiloxCudaState rng_engine_inputs;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
   if (use_dropout) {
+    at::PhiloxCudaState rng_engine_inputs;
     at::CUDAGeneratorImpl* gen =
         at::get_generator_or_default<at::CUDAGeneratorImpl>(
             c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
@@ -118,6 +122,11 @@ efficient_attention_forward_ck(
     // if using dropout, we produce 1 random number for each element of the
     // attention tensor
     rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+
+    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+    philox_seed = std::get<0>(seeds);
+    philox_offset = std::get<1>(seeds);
   }
 
   auto set_batched_forward_params = [&](BatchedForwardParams& p) {
@@ -180,14 +189,14 @@ efficient_attention_forward_ck(
     p.custom_mask_type = custom_mask_type;
 
     p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
     p.compute_logsumexp = compute_logsumexp;
 
     // the following parameters are only used by training forward
     if (p.use_dropout) {
       p.dropout_prob = static_cast<float>(dropout_p);
 
-      p.rng_engine_inputs = rng_engine_inputs;
-
       randvals = at::empty(
           {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
       p.randvals_strides = {
@@ -324,12 +333,13 @@ efficient_attention_forward_ck(
     }
 
     p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
     p.compute_logsumexp = compute_logsumexp;
 
     // the following parameters are only used by training forward
     if (p.use_dropout) {
       p.dropout_prob = static_cast<float>(dropout_p);
-      p.rng_engine_inputs = rng_engine_inputs;
 
       randvals = at::empty(
           {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
@@ -366,10 +376,6 @@ efficient_attention_forward_ck(
     };
   };
 
-  // uint64_t -> int64_t bitwise casting as PyTorch don't support uint64_t
-  // so just fake it as a int64_t
-  int64_t seed, offset;
-
   DISPATCH_TYPES(query.scalar_type(), [&]() {
     out = at::zeros(
         {B, M, num_heads, Kv},
@@ -400,12 +406,9 @@ efficient_attention_forward_ck(
     }
   });
 
-  // torch::save(randvals, "randvals_dev.zip"); 
-
-  std::memcpy(&seed, &rng_engine_inputs.seed_, sizeof(seed));
-  std::memcpy(&offset, &rng_engine_inputs.offset_.val, sizeof(offset));
+  // torch::save(randvals, "randvals_dev.zip");
 
-  return std::make_tuple(out, logsumexp, seed, offset);
+  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 } // namespace
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 136a6b0aae..0a7d1fcfe0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -233,8 +233,7 @@ void batched_backward_masktype_attnbias_dispatched(
       QKVElementOp{},
       YElementOp{},
       param.dropout_prob,
-      std::tuple<unsigned long long, unsigned long long>(
-          param.rng_seed, param.rng_offset));
+      std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
 
   SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index f63c70dd55..f5b5dd8d9d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -214,10 +214,6 @@ void batched_forward_masktype_attnbias_dispatched(
   auto b1_element_op = B1ElementOp{};
   auto c_element_op = CElementOp{};
 
-  // TODO, how to initialize seed, offset
-  const uint64_t seed = 1;
-  const uint64_t offset = 0;
-
   auto op = DeviceOpInstance{};
   auto invoker = op.MakeInvoker();
 
@@ -251,8 +247,9 @@ void batched_forward_masktype_attnbias_dispatched(
       b1_element_op,
       c_element_op,
       param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-      {seed, offset}); // dropout random seed and offset, offset should be at
-                       // least the number of elements on a thread
+      std::tuple<int64_t, int64_t>(
+          param.philox_seed,
+          param.philox_offset)); // dropout random seed and offset
 
   SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 161067616c..c7c1602ae6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -234,8 +234,7 @@ void grouped_backward_masktype_attnbias_dispatched(
       QKVElementOp{},
       YElementOp{},
       param.dropout_prob,
-      std::tuple<unsigned long long, unsigned long long>(
-          param.rng_seed, param.rng_offset));
+      std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
 
   SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 9c23e1676b..4a29ad39b9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -215,10 +215,6 @@ void grouped_forward_masktype_attnbias_dispatched(
          {}}); // acc1_bias_gs_ms_os_strides
   }
 
-  // TODO, how to initialize seed, offset
-  const uint64_t seed = 1;
-  const uint64_t offset = 0;
-
   float alpha = param.scale;
 
   auto a_element_op = AElementOp{};
@@ -246,7 +242,7 @@ void grouped_forward_masktype_attnbias_dispatched(
       b1_element_op,
       c_element_op,
       param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-      {seed, offset});
+      std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
 
   SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 50c478c33d..b48f6fa8f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -3,8 +3,6 @@
 #include <array>
 #include <cstdint>
 
-#include <ATen/cuda/CUDAGeneratorImpl.h>
-
 struct BatchedInferParams {
   int B; // batch size
   int M; // seq_len for Query
@@ -38,7 +36,8 @@ struct BatchedForwardParams : public BatchedInferParams {
   bool compute_logsumexp;
 
   float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
   // BHMN mode strides, completely contiguous
   std::array<int32_t, 4> randvals_strides;
@@ -86,7 +85,8 @@ struct GroupedForwardParams : public GroupedInferParams {
   bool compute_logsumexp;
 
   float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
   // HMN mode strides, completely contiguous
   std::array<int, 3> randvals_strides;
@@ -132,7 +132,8 @@ struct BatchedBackwardParams {
   // void* grad_bias_ptr;
 
   float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
   // completely contiguous
   const void* logsumexp_ptr;
@@ -140,9 +141,6 @@ struct BatchedBackwardParams {
   // BHMN mode strides, completely contiguous
   std::array<int, 4> randvals_strides;
   void* randvals_ptr;
-
-  int64_t rng_seed;
-  int64_t rng_offset;
 };
 
 struct GroupedBackwardParams {
@@ -186,7 +184,8 @@ struct GroupedBackwardParams {
   // std::vector<void *> grad_bias_ptrs;
 
   float dropout_prob;
-  at::PhiloxCudaState rng_engine_inputs;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
   // HM mode strides, completely contiguous
   std::vector<const void*> logsumexp_ptrs;
@@ -194,7 +193,4 @@ struct GroupedBackwardParams {
   // HMN mode strides, completely contiguous
   std::array<int, 3> randvals_strides;
   std::vector<void*> randvals_ptrs;
-
-  int64_t rng_seed;
-  int64_t rng_offset;
 };

From e72bf95d3bcc8d4d429ee2f6cd7da7e31bb71049 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 5 Sep 2023 17:55:45 +0000
Subject: [PATCH 046/837] Update to test_mem_eff_attention_ck.py and
 readme_test_on_rocm.txt with test_dropout completely passed

---
 tests/readme_test_on_rocm.txt      | 6 +++++-
 tests/test_mem_eff_attention_ck.py | 7 ++-----
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/tests/readme_test_on_rocm.txt b/tests/readme_test_on_rocm.txt
index 392a2a427e..16e283ccbe 100644
--- a/tests/readme_test_on_rocm.txt
+++ b/tests/readme_test_on_rocm.txt
@@ -3,7 +3,7 @@
 
    2. verify testing for memory_efficient_attention inference 
 
-      pytest -k test_forward tests/test_mem_eff_attention_ck.py
+      pytest tests/test_mem_eff_attention_ck.py::test_forward
 
    3. The following tests in tests/memory_eff_attention_ck.py have passed
 
@@ -25,5 +25,9 @@
       * test_unsupported_stride_lastdim
       * test_unsupported_stride_alignment
       * test_cuda_streams
+      * test_dropout
 
+   4. verify testing for memory_efficient_attention forward (with dropout)
+
+      pytest tests/test_mem_eff_attention_ck.py::test_dropout
 
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index bbede9f2bd..e655e3a84e 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -899,14 +899,14 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 @pytest.mark.parametrize("batch_size", [1, 2])
 @pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
 @pytest.mark.parametrize("q_len", [2, 33])
+@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
 @pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
-def test_dropout(dtype, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
+def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     device = "cuda"
     scale = 0.05 
     query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
     key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
     value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-    op = fmha.ck.FwOp
   
     inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
     if not op.supports(inputs_for_support_check):
@@ -930,8 +930,6 @@ def test_dropout(dtype, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     ref = ref_attention(query, key, value, attn_bias, mask, p)
     assert_allclose(out.float(), ref, atol=3e-3, rtol=5e-4), f"{(out - ref).abs().max()}"
 
-    ## CK generated random numbers failed with the binomtest
-    '''
     num_trials = 1000
     p_val_tol = 1e-6
     keep_prob = 1 - p
@@ -945,7 +943,6 @@ def test_dropout(dtype, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     masks = masks.sum(0).flatten()
     p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
     assert all(p_values > p_val_tol)
-    '''
 
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     if dtype is torch.bfloat16 and compute_capability < (8, 0):

From cf04a8adf0a455b28503350754d62686ac85efa7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 5 Sep 2023 19:45:20 +0000
Subject: [PATCH 047/837] Fix in xformers/benchmarks/utils.py for file naming
 in ROCM

---
 xformers/benchmarks/utils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/xformers/benchmarks/utils.py b/xformers/benchmarks/utils.py
index a3d10d63da..0a722846be 100644
--- a/xformers/benchmarks/utils.py
+++ b/xformers/benchmarks/utils.py
@@ -470,6 +470,7 @@ def benchmark_run_and_compare(
             .replace(" ", "_")
             .replace("-", "_")
             .replace(".", "_")
+            .replace("/", "_")
         )
     except (RuntimeError, AssertionError):  # No GPU
         env = "cpu"

From 7a3d169649332c6cede691ce818074e33840abe1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Sep 2023 16:59:39 +0000
Subject: [PATCH 048/837] Remove one shape case from
 benchmark_mem_eff_attn_decoder_ck.py due to too big memory requirement

---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index 0e81d2a7af..c700109e90 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -65,7 +65,7 @@ def T(t):
 KV_SHAPES = [
     # list of n_keys, padding_length, batchsize
     (2, 64, 3),
-    (32, 1024, 500),
+    ##(32, 1024, 500),  // this one fails due to consuming too much GPU memory
     (1000, 1024, 2),
     (8000, 8192, 1),
     (240, 256, 32),

From 59ae73fe1f45a967fe2dce36150c2f8f78a47f6c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 10 Sep 2023 11:52:43 +0000
Subject: [PATCH 049/837] Remove the using of hipMemcpyAsync in C++ extension

---
 .../hip_fmha/attention_backward_generic.cpp   | 39 ++++++++-----------
 .../hip_fmha/attention_forward_generic.cpp    | 39 ++++++++-----------
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 13 -------
 3 files changed, 32 insertions(+), 59 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index c16e7725dc..a86b683301 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -78,14 +78,10 @@ efficient_attention_backward_ck(
   TORCH_CHECK(query.size(3) == key.size(3));
   TORCH_CHECK(value.size(3) == grad_out.size(3));
 
-  // Query, Key, Value must use the same CUDA device
-  TORCH_CHECK(query.device() == key.device());
-  TORCH_CHECK(query.device() == value.device());
-  TORCH_CHECK(query.device().type() == torch::kCUDA)
-
   // handle potentially non-contiguous grad_out through a copy
   CHECK_NOSPARSE_CONTIGUOUS_CUDA(grad_out);
 
+  // last dim is contiguous, device is CUDA
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
@@ -269,18 +265,16 @@ efficient_attention_backward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    FMHA_HIP_CHECK(hipMemcpyAsync(
-        p.host_seqstart_q.data(),
-        seqstart_q->data_ptr(),
-        (p.num_batches + 1) * sizeof(int),
-        hipMemcpyDeviceToHost,
-        stream));
-    FMHA_HIP_CHECK(hipMemcpyAsync(
-        p.host_seqstart_k.data(),
-        seqstart_k->data_ptr(),
-        (p.num_batches + 1) * sizeof(int),
-        hipMemcpyDeviceToHost,
-        stream));
+    auto seqstart_q_cpu = seqstart_q->to(at::kCPU);
+    auto seqstart_k_cpu = seqstart_k->to(at::kCPU);
+
+    for (int i = 0; i < p.host_seqstart_q.size(); i++)
+      p.host_seqstart_q[i] =
+          *(reinterpret_cast<int*>(seqstart_q_cpu.data_ptr()) + i);
+
+    for (int i = 0; i < p.host_seqstart_k.size(); i++)
+      p.host_seqstart_k[i] =
+          *(reinterpret_cast<int*>(seqstart_k_cpu.data_ptr()) + i);
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
@@ -290,12 +284,11 @@ efficient_attention_backward_ck(
 
       p.host_seqlen_k.resize(p.num_batches);
 
-      FMHA_HIP_CHECK(hipMemcpyAsync(
-          p.host_seqlen_k.data(),
-          seqlen_k->data_ptr(),
-          p.num_batches * sizeof(int32_t),
-          hipMemcpyDeviceToHost,
-          stream));
+      auto seqlen_k_cpu = seqlen_k->to(at::kCPU);
+
+      for (int i = 0; i < p.host_seqlen_k.size(); i++)
+        p.host_seqlen_k[i] =
+            *(reinterpret_cast<int*>(seqlen_k_cpu.data_ptr()) + i);
     }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 665eb44f4e..15cd396728 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -74,11 +74,6 @@ efficient_attention_forward_ck(
   TORCH_CHECK(query.scalar_type() == key.scalar_type());
   TORCH_CHECK(query.scalar_type() == value.scalar_type());
 
-  // Query, Key, Value must use the same CUDA device
-  TORCH_CHECK(query.device() == key.device());
-  TORCH_CHECK(query.device() == value.device());
-  TORCH_CHECK(query.device().type() == torch::kCUDA)
-
   TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
   if (seqstart_q.has_value()) {
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
@@ -90,6 +85,7 @@ efficient_attention_forward_ck(
     TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
   };
 
+  // last dim is contiguous, device is kCUDA
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
@@ -269,18 +265,16 @@ efficient_attention_forward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    FMHA_HIP_CHECK(hipMemcpyAsync(
-        p.host_seqstart_q.data(),
-        seqstart_q->data_ptr(),
-        (p.num_batches + 1) * sizeof(int32_t),
-        hipMemcpyDeviceToHost,
-        stream));
-    FMHA_HIP_CHECK(hipMemcpyAsync(
-        p.host_seqstart_k.data(),
-        seqstart_k->data_ptr(),
-        (p.num_batches + 1) * sizeof(int32_t),
-        hipMemcpyDeviceToHost,
-        stream));
+    auto seqstart_q_cpu = seqstart_q->to(at::kCPU);
+    auto seqstart_k_cpu = seqstart_k->to(at::kCPU);
+
+    for (int i = 0; i < p.host_seqstart_q.size(); i++)
+      p.host_seqstart_q[i] =
+          *(reinterpret_cast<int*>(seqstart_q_cpu.data_ptr()) + i);
+
+    for (int i = 0; i < p.host_seqstart_k.size(); i++)
+      p.host_seqstart_k[i] =
+          *(reinterpret_cast<int*>(seqstart_k_cpu.data_ptr()) + i);
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
@@ -290,12 +284,11 @@ efficient_attention_forward_ck(
 
       p.host_seqlen_k.resize(p.num_batches);
 
-      FMHA_HIP_CHECK(hipMemcpyAsync(
-          p.host_seqlen_k.data(),
-          seqlen_k->data_ptr(),
-          p.num_batches * sizeof(int32_t),
-          hipMemcpyDeviceToHost,
-          stream));
+      auto seqlen_k_cpu = seqlen_k->to(at::kCPU);
+
+      for (int i = 0; i < p.host_seqlen_k.size(); i++)
+        p.host_seqlen_k[i] =
+            *(reinterpret_cast<int*>(seqlen_k_cpu.data_ptr()) + i);
     }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 3459147160..36465e34cd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -11,18 +11,6 @@
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/sequence.hpp>
 
-// Here flag can be a constant, variable or function call
-#define FMHA_HIP_CHECK(ret_or_call)                                          \
-  do {                                                                       \
-    hipError_t _tmpVal;                                                      \
-    if ((_tmpVal = ret_or_call) != hipSuccess) {                             \
-      std::ostringstream ostr;                                               \
-      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
-           << hipGetErrorString(_tmpVal);                                    \
-      throw std::runtime_error(ostr.str());                                  \
-    }                                                                        \
-  } while (0)
-
 #define XFORMERS_CHECK(COND, ERR)          \
   if (!(COND)) {                           \
     std::ostringstream ostr;               \
@@ -146,4 +134,3 @@ inline at::Tensor get_bias_4d_view(
       TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
   }
 }
-

From c59c10d852664b645c2129267b7fbda99f9dbcb6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Sep 2023 15:36:37 +0000
Subject: [PATCH 050/837] Add hipStreamSynchronize

---
 .../csrc/attention/hip_fmha/attention_backward_generic.cpp  | 2 +-
 .../csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp   | 6 +++++-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h | 1 +
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h  | 2 ++
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h | 1 +
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h  | 1 +
 6 files changed, 11 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index a86b683301..ab8114e29c 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -102,7 +102,7 @@ efficient_attention_backward_ck(
   }
 
   at::cuda::CUDAGuard device_guard(query.device());
-  cudaStream_t stream = at::cuda::getCurrentCUDAStream();
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index bf45f579a3..17aed503ee 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -35,6 +35,9 @@ at::Tensor rand_uniform_int(
   int M = out_pattern.size(2);
   int N = out_pattern.size(3);
 
+  at::cuda::CUDAGuard device_guard(out_pattern.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
   at::CUDAGeneratorImpl* gen =
       at::get_generator_or_default<at::CUDAGeneratorImpl>(
           c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
@@ -107,7 +110,8 @@ at::Tensor rand_uniform_int(
       z_gs_ms_ns_strides,
       {philox_seed, philox_offset});
 
-  dropout_invoker.Run(dropout_arg, StreamConfig{nullptr, false});
+  dropout_invoker.Run(dropout_arg, StreamConfig{stream, false});
+  (void)hipStreamSynchronize(stream);
 
   return randvals;
 } // namespace
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 0a7d1fcfe0..bf9303f75c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -247,4 +247,5 @@ void batched_backward_masktype_attnbias_dispatched(
   }
 
   (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  (void)hipStreamSynchronize(stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index f5b5dd8d9d..154e2027b6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -264,4 +264,6 @@ void batched_forward_masktype_attnbias_dispatched(
   }
 
   invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+
+  (void)hipStreamSynchronize(stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index c7c1602ae6..d0b10c80ba 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -248,4 +248,5 @@ void grouped_backward_masktype_attnbias_dispatched(
   }
 
   (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  (void)hipStreamSynchronize(stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 4a29ad39b9..6c96673e56 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -257,4 +257,5 @@ void grouped_forward_masktype_attnbias_dispatched(
   }
 
   (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  (void)hipStreamSynchronize(stream);
 };

From 71d3dc4aba5238eb9071a3b8782f64d5e60b97d4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Sep 2023 15:45:53 +0000
Subject: [PATCH 051/837] Update in C++ backward extension due to the change in
 CK FlashAttention backward

---
 third_party/composable_kernel                               | 2 +-
 third_party/flash-attention                                 | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h | 1 +
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h | 1 +
 4 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 4c8b47c04d..172835a5f7 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 4c8b47c04d8fe9d3e7074bf207590eee833fa51f
+Subproject commit 172835a5f75ca5be7d0630fea7290e52b5f106a2
diff --git a/third_party/flash-attention b/third_party/flash-attention
index 9e5e8bc91e..eff9fe6b80 160000
--- a/third_party/flash-attention
+++ b/third_party/flash-attention
@@ -1 +1 @@
-Subproject commit 9e5e8bc91e30af5cdc321362b553f6c0da332e30
+Subproject commit eff9fe6b8076df59d64d7a3f464696738a3c7c24
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index bf9303f75c..04cce9ddb5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -96,6 +96,7 @@ void batched_backward_masktype_attnbias_dispatched(
           128, // KPerBlock
           128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
+          64, // Gemm2KPerBlock
           8, // AK1
           8, // BK1
           2, // A1K1
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index d0b10c80ba..a7c268ceb8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -97,6 +97,7 @@ void grouped_backward_masktype_attnbias_dispatched(
           128, // KPerBlock
           128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
+          64, // Gemm2KPerBlock
           8, // AK1
           8, // BK1
           2, // B1K1

From 0bb2dd929552bc9e71456bc76a88721dc742c48d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Sep 2023 18:27:00 +0000
Subject: [PATCH 052/837] Update to use uint8 random number generating in
 CK-FlashAttn

---
 tests/test_mem_eff_attention_ck.py | 3 ++-
 third_party/composable_kernel      | 2 +-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index e655e3a84e..49ab783c0f 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -882,7 +882,8 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
         ## rand_uniform is an int32 tensor
         rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
-        mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
+        ##mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
+        mask = (rand_uniform <= int((1.0-p)*255.0)).to(torch.float32)
         mask = mask.reshape(batch_size, q_len, kv_len)
     else:
         mask = torch.empty((batch_size, q_len, kv_len), device=device)
diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 172835a5f7..12dcba200a 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 172835a5f75ca5be7d0630fea7290e52b5f106a2
+Subproject commit 12dcba200a082ae40a0fb5aca3f093f1cc3470c7

From d16fd612274ceda387590cbd1ce6acdafaeaa196 Mon Sep 17 00:00:00 2001
From: fsx950223 <fsx950223@outlook.com>
Date: Tue, 12 Sep 2023 22:47:07 +0800
Subject: [PATCH 053/837] add ck into dispatch

---
 xformers/ops/fmha/dispatch.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 3ed6dd1cb4..7bcdcbabbf 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -8,7 +8,7 @@
 from collections import deque
 from typing import List, Sequence, Type, TypeVar
 
-from . import cutlass, decoder, flash, small_k, triton
+from . import cutlass, decoder, flash, small_k, triton, ck
 from .common import AttentionBwOpBase, AttentionFwOpBase, Inputs
 
 
@@ -78,6 +78,7 @@ def _dispatch_fw(inp: Inputs, needs_gradient: bool) -> Type[AttentionFwOpBase]:
             flash.FwOp,
             triton.FwOp,
             cutlass.FwOp,
+            ck.FwOp,
             small_k.FwOp,
         ]
     )

From 07b889c4161f3b3ff0c26a8cb123b7d5135df36f Mon Sep 17 00:00:00 2001
From: fsx950223 <fsx950223@outlook.com>
Date: Wed, 13 Sep 2023 00:13:51 +0800
Subject: [PATCH 054/837] add available condition

---
 xformers/ops/fmha/dispatch.py | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 7bcdcbabbf..1376e67669 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -3,7 +3,7 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
-
+import torch
 import textwrap
 from collections import deque
 from typing import List, Sequence, Type, TypeVar
@@ -74,13 +74,13 @@ def _dispatch_fw(inp: Inputs, needs_gradient: bool) -> Type[AttentionFwOpBase]:
     """
 
     priority_list_ops = deque(
-        [
+        [op for op in [
             flash.FwOp,
             triton.FwOp,
-            cutlass.FwOp,
             ck.FwOp,
+            cutlass.FwOp,
             small_k.FwOp,
-        ]
+        ] if op.is_available()]
     )
     if _is_cutlass_fwd_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.FwOp)
@@ -104,14 +104,15 @@ def _is_cutlassB_faster_than_flash(inp: Inputs) -> bool:
 
 
 def _dispatch_bw(inp: Inputs) -> Type[AttentionBwOpBase]:
-    priority_list_ops: List[Type[AttentionBwOpBase]] = [
+    priority_list_ops: List[Type[AttentionBwOpBase]] = [op for op in [
         flash.BwOp,
+        ck.BwOp,
         cutlass.BwOp,
         # CUDA illegal memory issues, race conditions etc..
         # triton.BwOp,
         # Deprecated
         small_k.BwOp,
-    ]
+    ] if op.is_available()]
     if _is_cutlassB_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.BwOp)
         priority_list_ops.insert(0, cutlass.BwOp)

From 6f54413d948f6975ed492b4aa71b74928b06a482 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Sep 2023 00:02:50 +0000
Subject: [PATCH 055/837] Add global workspace allocator to enable persistent
 workspace across CUDAGraph capturing

---
 .../hip_fmha/attention_backward_generic.cpp   |  2 +-
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  2 +-
 .../hip_fmha/attention_forward_generic.cpp    | 24 +++++++++-
 .../ck_fmha_global_workspace_allocator.cpp    | 44 +++++++++++++++++++
 .../ck_fmha_global_workspace_allocator.h      | 31 +++++++++++++
 .../hip_fmha/ck_fmha_grouped_forward.h        | 10 ++++-
 .../attention/hip_fmha/ck_fmha_op_helper.h    | 20 +++++----
 7 files changed, 119 insertions(+), 14 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index ab8114e29c..c750277055 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -101,7 +101,7 @@ efficient_attention_backward_ck(
     TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
   }
 
-  at::cuda::CUDAGuard device_guard(query.device());
+  // at::cuda::CUDAGuard device_guard(query.device());
   hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index 17aed503ee..ecf73c09b0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -35,7 +35,7 @@ at::Tensor rand_uniform_int(
   int M = out_pattern.size(2);
   int N = out_pattern.size(3);
 
-  at::cuda::CUDAGuard device_guard(out_pattern.device());
+  // at::cuda::CUDAGuard device_guard(out_pattern.device());
   hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   at::CUDAGeneratorImpl* gen =
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 15cd396728..eb42635369 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -90,7 +90,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
-  at::cuda::CUDAGuard device_guard(query.device());
+  // at::cuda::CUDAGuard device_guard(query.device());
   hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
@@ -100,6 +100,22 @@ efficient_attention_forward_ck(
   int64_t K = query.size(-1);
   int64_t Kv = value.size(-1);
 
+  fprintf(
+      stdout,
+      "query data pointer %p, size %lx\n",
+      query.data_ptr(),
+      at::numel(query));
+  fprintf(
+      stdout,
+      "key data pointer %p, size %lx\n",
+      key.data_ptr(),
+      at::numel(key));
+  fprintf(
+      stdout,
+      "value data pointer %p, size %lx\n",
+      value.data_ptr(),
+      at::numel(value));
+
   at::Tensor out;
   at::Tensor logsumexp;
   at::Tensor randvals;
@@ -169,6 +185,8 @@ efficient_attention_forward_ck(
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
+      fprintf(stdout, "bias is not empty!\n");
+
       p.has_attn_bias = true;
       p.attn_bias_ptr = bias->data_ptr();
 
@@ -249,6 +267,8 @@ efficient_attention_forward_ck(
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
+      fprintf(stdout, "bias is not empty!\n");
+
       p.has_attn_bias = true;
       const at::Tensor bias_4d_view =
           get_bias_4d_view(*bias, B, num_heads, M, N);
@@ -370,7 +390,7 @@ efficient_attention_forward_ck(
   };
 
   DISPATCH_TYPES(query.scalar_type(), [&]() {
-    out = at::zeros(
+    out = at::empty(
         {B, M, num_heads, Kv},
         query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp
new file mode 100644
index 0000000000..0382aa24be
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp
@@ -0,0 +1,44 @@
+#include "ck_fmha_global_workspace_allocator.h"
+
+GlobalWorkspace::GlobalWorkspace(){};
+
+void* GlobalWorkspace::allocate(size_t sizeInBytes, hipStream_t stream) {
+  std::lock_guard<std::mutex> lck(mtx_);
+
+  auto it = buffers_.find(stream);
+
+  if (it != buffers_.end()) {
+    size_t curr_size = it->second.first;
+
+    // if requested size is bigger than existing buffer, allocate a bigger
+    // buffer; else re-use the existing buffer
+    if (curr_size < sizeInBytes) {
+      c10::cuda::HIPCachingAllocator::raw_delete(it->second.second);
+
+      void* new_buf = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
+      it->second.first = sizeInBytes;
+      it->second.second = new_buf;
+
+      return new_buf;
+    } else
+      return it->second.second;
+  } else {
+    // allocate a buffer and keep it for the stream
+    void* new_buf = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
+
+    auto size_buf = std::make_pair(sizeInBytes, new_buf);
+
+    buffers_.insert(std::make_pair(stream, size_buf));
+
+    return new_buf;
+  };
+};
+
+GlobalWorkspace* GlobalWorkspace::getGlobalWorkspacePtr() {
+  if (singleton_ == nullptr)
+    singleton_ = new GlobalWorkspace();
+
+  return singleton_;
+};
+
+GlobalWorkspace* GlobalWorkspace::singleton_ = nullptr;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h b/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h
new file mode 100644
index 0000000000..9b1322f0e1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h
@@ -0,0 +1,31 @@
+#pragma once
+
+#include <map>
+#include <mutex>
+
+#include <c10/hip/HIPCachingAllocator.h>
+#include <ck/ck.hpp>
+
+class GlobalWorkspace {
+ private:
+  static GlobalWorkspace* singleton_;
+
+  std::map<hipStream_t, std::pair<size_t, void*>> buffers_;
+  std::mutex mtx_;
+
+ protected:
+  GlobalWorkspace();
+
+ public:
+  // for each stream, we assume only one workspace buffer is needed, so
+  // next allocation will implicitly de-allocate or reuse previous allocation
+  // for this stream
+  void* allocate(size_t sizeInBytes, hipStream_t stream);
+
+  static GlobalWorkspace* getGlobalWorkspacePtr();
+
+  GlobalWorkspace(const GlobalWorkspace&) = delete;
+  GlobalWorkspace(GlobalWorkspace&&) = delete;
+  GlobalWorkspace& operator=(const GlobalWorkspace&) = delete;
+  GlobalWorkspace& operator=(GlobalWorkspace&&) = delete;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 6c96673e56..1cc4d358ae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -244,9 +244,15 @@ void grouped_forward_masktype_attnbias_dispatched(
       param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
       std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
 
-  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+  auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
 
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+  void* workspace =
+      GlobalWorkspace::getGlobalWorkspacePtr()->allocate(sizeInBytes, stream);
+
+  fprintf(stdout, "\n[host]output pointer: %p\n", param.out_ptrs[0]);
+  fprintf(stdout, "\n[host]workspace pointer: %p\n", workspace);
+
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace);
 
   if (!op.IsSupportedArgument(arg_ptr.get())) {
     std::ostringstream ostr;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
index ffc53514bb..3ca1f1325d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
@@ -1,9 +1,13 @@
 #pragma once
 
-#include <torch/torch.h>
+#include <map>
+#include <mutex>
 
+#include <c10/hip/HIPCachingAllocator.h>
 #include <ck/utility/data_type.hpp>
 
+#include "ck_fmha_global_workspace_allocator.h"
+
 template <typename scalar_t>
 struct MaxVectorSizeForType {
   static constexpr int value = 4;
@@ -21,17 +25,17 @@ struct MaxVectorSizeForType<ck::bhalf_t> {
 
 struct SimpleDeviceMem {
   SimpleDeviceMem() = delete;
-  SimpleDeviceMem(std::size_t mem_size) {
-    auto options = torch::TensorOptions();
-    mem = at::empty(
-        mem_size, options.dtype(at::ScalarType::Byte).device(torch::kCUDA));
+  SimpleDeviceMem(size_t sizeInBytes) {
+    pData_ = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
   }
   void* GetDeviceBuffer() {
-    return mem.data_ptr();
+    return pData_;
+  }
+  ~SimpleDeviceMem() {
+    c10::cuda::HIPCachingAllocator::raw_delete(pData_);
   }
-  ~SimpleDeviceMem() {}
 
-  at::Tensor mem;
+  void* pData_;
 };
 
 // useful aliasing for making the codes easy

From 57126e6fb953e2cc567dc56b2a30d1426e7cdc45 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Sep 2023 00:03:22 +0000
Subject: [PATCH 056/837] Add tests/test_ck_3.py for temporary CUDAGraph
 hacking

---
 tests/test_ck_3.py | 38 ++++++++++++++++++++++++++------------
 1 file changed, 26 insertions(+), 12 deletions(-)

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
index 2c6e42860f..31f096615f 100644
--- a/tests/test_ck_3.py
+++ b/tests/test_ck_3.py
@@ -10,6 +10,8 @@
 import pytest
 import torch
 
+from functools import partial
+
 ## need to FIX
 ##from scipy.stats import binomtest
 from torch.utils.checkpoint import checkpoint
@@ -339,25 +341,25 @@ def create_tensors(
 
 ## The same set of supported attn_bias types as defined by ck.FwOp
 SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        type(None),
-        torch.Tensor,
-        fmha.attn_bias.LowerTriangularMask,
-        fmha.attn_bias.LowerTriangularMaskWithTensorBias,
+        ##type(None),
+        ##torch.Tensor,
+        ##fmha.attn_bias.LowerTriangularMask,
+        #fmha.attn_bias.LowerTriangularMaskWithTensorBias,
         fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        ##fmha.attn_bias.BlockDiagonalCausalMask,
+        ##fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ##fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
         }
 
 @pytest.mark.parametrize("bias_type", SUPPORTED_ATTN_BIAS_TYPES)
-@pytest.mark.parametrize("packed", [False, True])
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+@pytest.mark.parametrize("packed", [True])
+@pytest.mark.parametrize("fmt", ["BMHK"])
+@pytest.mark.parametrize("dtype", [torch.half])
 def test_forward(dtype, fmt, packed, bias_type):
     op = fmha.ck.FwOp
     device = torch.device("cuda")
     batch_size = 7
-    q_len = 200
+    q_len = 100
 
     ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
     if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
@@ -411,13 +413,14 @@ def test_forward(dtype, fmt, packed, bias_type):
             # bm3hk -> 3 x bmhk
             query, key, value = xformers.ops.unbind(c, 2)
 
-        print("The query shaped for packed: ", query.size())
         assert not query.is_contiguous()
 
+    '''
     out = xformers.ops.memory_efficient_attention_forward(
         query, key, value, attn_bias, op=op
     )
     assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+
     out2 = xformers.ops.memory_efficient_attention_forward(
         query, key, value, attn_bias, op=op
     )
@@ -434,4 +437,15 @@ def test_forward(dtype, fmt, packed, bias_type):
         atol=op.ERROR_ATOL[dtype],
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
+    '''
+
+    fn = partial(xformers.ops.memory_efficient_attention_forward, op=op)
+
+    graph = torch.cuda.CUDAGraph()
+    with torch.cuda.graph(graph):
+        fn(query, key, value, attn_bias)
+
+    print("\nExecuting the replaying...\n")
+
+    graph.replay()
 

From a457412e0301e42cd106a3a2c43b62b47581bc4c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Sep 2023 00:38:36 +0000
Subject: [PATCH 057/837] Revert "add available condition"

This reverts commit 07b889c4161f3b3ff0c26a8cb123b7d5135df36f.
---
 xformers/ops/fmha/dispatch.py | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 1376e67669..7bcdcbabbf 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -3,7 +3,7 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
-import torch
+
 import textwrap
 from collections import deque
 from typing import List, Sequence, Type, TypeVar
@@ -74,13 +74,13 @@ def _dispatch_fw(inp: Inputs, needs_gradient: bool) -> Type[AttentionFwOpBase]:
     """
 
     priority_list_ops = deque(
-        [op for op in [
+        [
             flash.FwOp,
             triton.FwOp,
-            ck.FwOp,
             cutlass.FwOp,
+            ck.FwOp,
             small_k.FwOp,
-        ] if op.is_available()]
+        ]
     )
     if _is_cutlass_fwd_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.FwOp)
@@ -104,15 +104,14 @@ def _is_cutlassB_faster_than_flash(inp: Inputs) -> bool:
 
 
 def _dispatch_bw(inp: Inputs) -> Type[AttentionBwOpBase]:
-    priority_list_ops: List[Type[AttentionBwOpBase]] = [op for op in [
+    priority_list_ops: List[Type[AttentionBwOpBase]] = [
         flash.BwOp,
-        ck.BwOp,
         cutlass.BwOp,
         # CUDA illegal memory issues, race conditions etc..
         # triton.BwOp,
         # Deprecated
         small_k.BwOp,
-    ] if op.is_available()]
+    ]
     if _is_cutlassB_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.BwOp)
         priority_list_ops.insert(0, cutlass.BwOp)

From 85f0ea8bed0067a956a993fe5754b357760ee0fd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Sep 2023 00:39:40 +0000
Subject: [PATCH 058/837] Revert "add ck into dispatch"

This reverts commit d16fd612274ceda387590cbd1ce6acdafaeaa196.
---
 xformers/ops/fmha/dispatch.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 7bcdcbabbf..3ed6dd1cb4 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -8,7 +8,7 @@
 from collections import deque
 from typing import List, Sequence, Type, TypeVar
 
-from . import cutlass, decoder, flash, small_k, triton, ck
+from . import cutlass, decoder, flash, small_k, triton
 from .common import AttentionBwOpBase, AttentionFwOpBase, Inputs
 
 
@@ -78,7 +78,6 @@ def _dispatch_fw(inp: Inputs, needs_gradient: bool) -> Type[AttentionFwOpBase]:
             flash.FwOp,
             triton.FwOp,
             cutlass.FwOp,
-            ck.FwOp,
             small_k.FwOp,
         ]
     )

From 2b499519315b19296b5f1393997a210db8c561bc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Sep 2023 18:03:45 +0000
Subject: [PATCH 059/837] Remove debugging info and useless script

---
 tests/test_ck_3.py                            | 451 ------------------
 .../hip_fmha/attention_forward_generic.cpp    |  20 -
 .../hip_fmha/ck_fmha_grouped_forward.h        |   3 -
 3 files changed, 474 deletions(-)
 delete mode 100644 tests/test_ck_3.py

diff --git a/tests/test_ck_3.py b/tests/test_ck_3.py
deleted file mode 100644
index 31f096615f..0000000000
--- a/tests/test_ck_3.py
+++ /dev/null
@@ -1,451 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import math
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Set, Any
-
-import pytest
-import torch
-
-from functools import partial
-
-## need to FIX
-##from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
-
-import xformers.ops
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-
-from tests.utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        ##`small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-## The same set of supported attn_bias types as defined by ck.FwOp
-SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        ##type(None),
-        ##torch.Tensor,
-        ##fmha.attn_bias.LowerTriangularMask,
-        #fmha.attn_bias.LowerTriangularMaskWithTensorBias,
-        fmha.attn_bias.BlockDiagonalMask,
-        ##fmha.attn_bias.BlockDiagonalCausalMask,
-        ##fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        ##fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        }
-
-@pytest.mark.parametrize("bias_type", SUPPORTED_ATTN_BIAS_TYPES)
-@pytest.mark.parametrize("packed", [True])
-@pytest.mark.parametrize("fmt", ["BMHK"])
-@pytest.mark.parametrize("dtype", [torch.half])
-def test_forward(dtype, fmt, packed, bias_type):
-    op = fmha.ck.FwOp
-    device = torch.device("cuda")
-    batch_size = 7
-    q_len = 100
-
-    ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
-    if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-        kv_len = int(q_len * 1.2) 
-    else:
-        kv_len = q_len
-    h = 3 
-    k = 64 
-    kv = 64
-
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    ## packed type always creates the tensors in "BMHK" even the fmt is "BMK", so for packed type, one
-    ## should always assume h is already merged in B, and set h to be 1
-    if packed and fmt is "BMK" and batch_size > 1 and h > 1:
-        pytest.skip("Shape of this is type is skipped")
-
-    query, key, value, attn_bias = create_tensors(
-        op, device, dtype, bias_type, batch_size, q_len, kv_len, h, k, kv, fmt="BMHK" if packed else fmt
-    )
-
-    ## when packed, the query, key, value is in BMHK format
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        else:
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-
-        assert not query.is_contiguous()
-
-    '''
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-    '''
-
-    fn = partial(xformers.ops.memory_efficient_attention_forward, op=op)
-
-    graph = torch.cuda.CUDAGraph()
-    with torch.cuda.graph(graph):
-        fn(query, key, value, attn_bias)
-
-    print("\nExecuting the replaying...\n")
-
-    graph.replay()
-
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index eb42635369..d3e740f987 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -100,22 +100,6 @@ efficient_attention_forward_ck(
   int64_t K = query.size(-1);
   int64_t Kv = value.size(-1);
 
-  fprintf(
-      stdout,
-      "query data pointer %p, size %lx\n",
-      query.data_ptr(),
-      at::numel(query));
-  fprintf(
-      stdout,
-      "key data pointer %p, size %lx\n",
-      key.data_ptr(),
-      at::numel(key));
-  fprintf(
-      stdout,
-      "value data pointer %p, size %lx\n",
-      value.data_ptr(),
-      at::numel(value));
-
   at::Tensor out;
   at::Tensor logsumexp;
   at::Tensor randvals;
@@ -185,8 +169,6 @@ efficient_attention_forward_ck(
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
-      fprintf(stdout, "bias is not empty!\n");
-
       p.has_attn_bias = true;
       p.attn_bias_ptr = bias->data_ptr();
 
@@ -267,8 +249,6 @@ efficient_attention_forward_ck(
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
-      fprintf(stdout, "bias is not empty!\n");
-
       p.has_attn_bias = true;
       const at::Tensor bias_4d_view =
           get_bias_4d_view(*bias, B, num_heads, M, N);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 1cc4d358ae..213de60ed4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -249,9 +249,6 @@ void grouped_forward_masktype_attnbias_dispatched(
   void* workspace =
       GlobalWorkspace::getGlobalWorkspacePtr()->allocate(sizeInBytes, stream);
 
-  fprintf(stdout, "\n[host]output pointer: %p\n", param.out_ptrs[0]);
-  fprintf(stdout, "\n[host]workspace pointer: %p\n", workspace);
-
   op.SetWorkSpacePointer(arg_ptr.get(), workspace);
 
   if (!op.IsSupportedArgument(arg_ptr.get())) {

From ea2398741be3ea25024b77732a9d6942fcad33d3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 14 Sep 2023 18:52:53 +0000
Subject: [PATCH 060/837] Restrict the registeration of the attention operators
 according to their required cuda/rocm platform

---
 xformers/csrc/attention/attention.cpp | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index a837d1c193..d60114aa3c 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -21,6 +21,7 @@ PyMODINIT_FUNC PyInit__C(void) {
 #endif // defined(_WIN32)
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_small_k(Tensor query, Tensor key, Tensor value, bool compute_logsumexp, Tensor? attn_bias, float p) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
@@ -35,10 +36,13 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::_temp_dropout(Tensor out, float p) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
+#endif
+#if defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
+#endif
 }

From d3f90630765de9404201dedcd14baed90d6f963c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 18 Sep 2023 16:43:58 +0000
Subject: [PATCH 061/837] Update to make seqstart_q/seqstart_k/seqlen_k inputs
 of efficient_attention_forward_ck CPU tensor

---
 .../hip_fmha/attention_forward_generic.cpp    | 78 +++++++++----------
 .../hip_fmha/ck_fmha_grouped_forward.h        |  1 -
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  5 ++
 xformers/ops/fmha/attn_bias.py                | 32 +++++---
 xformers/ops/fmha/ck.py                       |  6 +-
 5 files changed, 67 insertions(+), 55 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index d3e740f987..f7a7863599 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -12,6 +12,8 @@
 #include <torch/library.h>
 #include <ATen/cuda/CUDAGraphsUtils.cuh>
 
+#include <ck/host_utility/hip_check_error.hpp>
+
 #include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
@@ -79,8 +81,8 @@ efficient_attention_forward_ck(
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
     TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
     TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
   };
@@ -91,7 +93,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
   // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+  hipStream_t stream2 = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
@@ -100,10 +102,11 @@ efficient_attention_forward_ck(
   int64_t K = query.size(-1);
   int64_t Kv = value.size(-1);
 
-  at::Tensor out;
   at::Tensor logsumexp;
   at::Tensor randvals;
 
+  at::Tensor out = at::empty({B, M, num_heads, Kv}, query.options());
+
   const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
   int64_t philox_seed;
   int64_t philox_offset;
@@ -265,30 +268,25 @@ efficient_attention_forward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    auto seqstart_q_cpu = seqstart_q->to(at::kCPU);
-    auto seqstart_k_cpu = seqstart_k->to(at::kCPU);
-
     for (int i = 0; i < p.host_seqstart_q.size(); i++)
       p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q_cpu.data_ptr()) + i);
+          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
 
     for (int i = 0; i < p.host_seqstart_k.size(); i++)
       p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k_cpu.data_ptr()) + i);
+          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
       TORCH_CHECK(seqlen_k->dim() == 1);
       TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqlen_k));
+      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
 
       p.host_seqlen_k.resize(p.num_batches);
 
-      auto seqlen_k_cpu = seqlen_k->to(at::kCPU);
-
       for (int i = 0; i < p.host_seqlen_k.size(); i++)
         p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k_cpu.data_ptr()) + i);
+            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
     }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
@@ -369,35 +367,31 @@ efficient_attention_forward_ck(
     };
   };
 
-  DISPATCH_TYPES(query.scalar_type(), [&]() {
-    out = at::empty(
-        {B, M, num_heads, Kv},
-        query.options().dtype(CkToAtenDtype<scalar_t>::atScalarType()));
-
-    if (!seqstart_q.has_value()) { // input is batched
-      BatchedForwardParams batched_forward_params;
-
-      set_batched_forward_params(batched_forward_params);
-
-      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
-        batched_forward_fp16(batched_forward_params, stream);
-      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
-        batched_forward_bp16(batched_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else { // input is grouped
-      GroupedForwardParams grouped_forward_params;
-
-      set_grouped_forward_params(grouped_forward_params);
-
-      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
-        grouped_forward_fp16(grouped_forward_params, stream);
-      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
-        grouped_forward_bp16(grouped_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    }
-  });
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedForwardParams batched_forward_params;
+
+    set_batched_forward_params(batched_forward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      batched_forward_fp16(batched_forward_params, stream2);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      batched_forward_bp16(batched_forward_params, stream2);
+    } else
+      throw std::runtime_error("input data-type is not supported!");
+  } else { // input is grouped
+    GroupedForwardParams grouped_forward_params;
+
+    set_grouped_forward_params(grouped_forward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      grouped_forward_fp16(grouped_forward_params, stream2);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      grouped_forward_bp16(grouped_forward_params, stream2);
+    } else
+      throw std::runtime_error("input data-type is not supported!");
+  };
 
   // torch::save(randvals, "randvals_dev.zip");
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 213de60ed4..2aa554bab7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -260,5 +260,4 @@ void grouped_forward_masktype_attnbias_dispatched(
   }
 
   (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  (void)hipStreamSynchronize(stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 36465e34cd..84e1859673 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -67,6 +67,11 @@ struct CkToAtenDtype<float> {
   XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
   XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
 
+#define CHECK_NOSPARSE_CONTIGUOUS_CPU(TENSOR)                             \
+  XFORMERS_CHECK(TENSOR.is_cpu(), #TENSOR " must be a CPU tensor");       \
+  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+  XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
+
 #define CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(TENSOR)                        \
   XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
   XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
diff --git a/xformers/ops/fmha/attn_bias.py b/xformers/ops/fmha/attn_bias.py
index 8e419c830d..80fbea6a05 100644
--- a/xformers/ops/fmha/attn_bias.py
+++ b/xformers/ops/fmha/attn_bias.py
@@ -212,6 +212,7 @@ class _PaddedSeqLenInfo(_SeqLenInfo):
     """
 
     seqlen: torch.Tensor
+    seqlen_cpu: torch.Tensor
     seqlen_py: Sequence[int]
     padding: int
     # From parent: seqstart[i] contains the start position
@@ -246,15 +247,28 @@ def from_seqlens_padded(
         assert not isinstance(seqlens, torch.Tensor)
         assert all(seqlen <= padding for seqlen in seqlens)
         seqstart_py = list(range(0, len(seqlens) * padding + 1, padding))
-        return cls(
-            seqlen=torch.tensor(seqlens, dtype=torch.int32),
-            seqlen_py=seqlens,
-            max_seqlen=max(seqlens),
-            min_seqlen=min(seqlens),
-            seqstart=torch.tensor(seqstart_py, dtype=torch.int32),
-            seqstart_py=seqstart_py,
-            padding=padding,
-        )
+        seqlen = torch.tensor(seqlens, dtype=torch.int32)
+        if torch.cuda.is_available() and torch.version.hip:
+            return cls(
+                seqlen=seqlen,
+                seqlen_cpu=seqlen.to(device=torch.device("cpu")),
+                seqlen_py=seqlens,
+                max_seqlen=max(seqlens),
+                min_seqlen=min(seqlens),
+                seqstart=torch.tensor(seqstart_py, dtype=torch.int32),
+                seqstart_py=seqstart_py,
+                padding=padding,
+            )
+        else:
+            return cls(
+                seqlen=seqlen,
+                seqlen_py=seqlens,
+                max_seqlen=max(seqlens),
+                min_seqlen=min(seqlens),
+                seqstart=torch.tensor(seqstart_py, dtype=torch.int32),
+                seqstart_py=seqstart_py,
+                padding=padding,
+            )
 
     def split(
         self, x: torch.Tensor, batch_sizes: Optional[Sequence[int]] = None
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index f117624221..ad5575f57f 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -39,8 +39,8 @@ def _get_seqlen_info(
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
-        attn_bias.k_seqinfo.to(inp.query.device)
-        attn_bias.q_seqinfo.to(inp.query.device)
+        ##attn_bias.k_seqinfo.to(inp.query.device)
+        ##attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         ##max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
@@ -182,7 +182,7 @@ def apply(
             compute_logsumexp=needs_gradient,
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
-            seqlen_k=inp.attn_bias.k_seqinfo.seqlen
+            seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
         )

From d8b5076fd5d975774a537dcec58201e1cbb393e2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 18 Sep 2023 17:00:36 +0000
Subject: [PATCH 062/837] Update to efficient_attention_backward_ck

---
 .../hip_fmha/attention_backward_generic.cpp   | 67 +++++++++----------
 .../hip_fmha/ck_fmha_batched_backward.h       |  1 -
 .../hip_fmha/ck_fmha_grouped_backward.h       |  1 -
 3 files changed, 31 insertions(+), 38 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index c750277055..3db5acc3f8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -95,8 +95,8 @@ efficient_attention_backward_ck(
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
     TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
     TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
   }
@@ -265,30 +265,25 @@ efficient_attention_backward_ck(
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
-    auto seqstart_q_cpu = seqstart_q->to(at::kCPU);
-    auto seqstart_k_cpu = seqstart_k->to(at::kCPU);
-
     for (int i = 0; i < p.host_seqstart_q.size(); i++)
       p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q_cpu.data_ptr()) + i);
+          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
 
     for (int i = 0; i < p.host_seqstart_k.size(); i++)
       p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k_cpu.data_ptr()) + i);
+          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
       TORCH_CHECK(seqlen_k->dim() == 1);
       TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqlen_k));
+      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
 
       p.host_seqlen_k.resize(p.num_batches);
 
-      auto seqlen_k_cpu = seqlen_k->to(at::kCPU);
-
       for (int i = 0; i < p.host_seqlen_k.size(); i++)
         p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k_cpu.data_ptr()) + i);
+            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
     }
 
     char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
@@ -354,31 +349,31 @@ efficient_attention_backward_ck(
     }
   };
 
-  DISPATCH_TYPES(query.scalar_type(), [&]() {
-    if (!seqstart_q.has_value()) { // input is batched
-      BatchedBackwardParams batched_backward_params;
-
-      set_batched_backward_params(batched_backward_params);
-
-      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
-        batched_backward_fp16(batched_backward_params, stream);
-      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
-        batched_backward_bp16(batched_backward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported");
-    } else { // input is grouped
-      GroupedBackwardParams grouped_backward_params;
-
-      set_grouped_backward_params(grouped_backward_params);
-
-      if constexpr (std::is_same<scalar_t, ck::half_t>::value) {
-        grouped_backward_fp16(grouped_backward_params, stream);
-      } else if constexpr (std::is_same<scalar_t, ck::bhalf_t>::value) {
-        grouped_backward_bp16(grouped_backward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported");
-    }
-  });
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedBackwardParams batched_backward_params;
+
+    set_batched_backward_params(batched_backward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      batched_backward_fp16(batched_backward_params, stream);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      batched_backward_bp16(batched_backward_params, stream);
+    } else
+      throw std::runtime_error("input data-type is not supported");
+  } else { // input is grouped
+    GroupedBackwardParams grouped_backward_params;
+
+    set_grouped_backward_params(grouped_backward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      grouped_backward_fp16(grouped_backward_params, stream);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      grouped_backward_bp16(grouped_backward_params, stream);
+    } else
+      throw std::runtime_error("input data-type is not supported");
+  }
 
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 04cce9ddb5..18a070acfa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -248,5 +248,4 @@ void batched_backward_masktype_attnbias_dispatched(
   }
 
   (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  (void)hipStreamSynchronize(stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index a7c268ceb8..e215d98aab 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -249,5 +249,4 @@ void grouped_backward_masktype_attnbias_dispatched(
   }
 
   (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  (void)hipStreamSynchronize(stream);
 };

From 150e181d71fdec0766f8befd0c8c80da1134687f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 18 Sep 2023 17:02:52 +0000
Subject: [PATCH 063/837] Renaming in efficient_attention_forward_ck

---
 .../attention/hip_fmha/attention_forward_generic.cpp   | 10 +++++-----
 .../csrc/attention/hip_fmha/ck_fmha_batched_forward.h  |  2 --
 2 files changed, 5 insertions(+), 7 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index f7a7863599..dab15209e2 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -93,7 +93,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
   // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream2 = at::cuda::getCurrentHIPStream().stream();
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
@@ -375,9 +375,9 @@ efficient_attention_forward_ck(
     set_batched_forward_params(batched_forward_params);
 
     if (inDataType == at::ScalarType::Half) {
-      batched_forward_fp16(batched_forward_params, stream2);
+      batched_forward_fp16(batched_forward_params, stream);
     } else if (inDataType == at::ScalarType::BFloat16) {
-      batched_forward_bp16(batched_forward_params, stream2);
+      batched_forward_bp16(batched_forward_params, stream);
     } else
       throw std::runtime_error("input data-type is not supported!");
   } else { // input is grouped
@@ -386,9 +386,9 @@ efficient_attention_forward_ck(
     set_grouped_forward_params(grouped_forward_params);
 
     if (inDataType == at::ScalarType::Half) {
-      grouped_forward_fp16(grouped_forward_params, stream2);
+      grouped_forward_fp16(grouped_forward_params, stream);
     } else if (inDataType == at::ScalarType::BFloat16) {
-      grouped_forward_bp16(grouped_forward_params, stream2);
+      grouped_forward_bp16(grouped_forward_params, stream);
     } else
       throw std::runtime_error("input data-type is not supported!");
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 154e2027b6..f5b5dd8d9d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -264,6 +264,4 @@ void batched_forward_masktype_attnbias_dispatched(
   }
 
   invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-
-  (void)hipStreamSynchronize(stream);
 };

From 975434226127be2e485045701a9288d3d156a7b5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 18 Sep 2023 17:13:41 +0000
Subject: [PATCH 064/837] Simplification in attn_bias.py

---
 xformers/ops/fmha/attn_bias.py | 31 ++++++++++---------------------
 1 file changed, 10 insertions(+), 21 deletions(-)

diff --git a/xformers/ops/fmha/attn_bias.py b/xformers/ops/fmha/attn_bias.py
index 80fbea6a05..584b09cb94 100644
--- a/xformers/ops/fmha/attn_bias.py
+++ b/xformers/ops/fmha/attn_bias.py
@@ -248,27 +248,16 @@ def from_seqlens_padded(
         assert all(seqlen <= padding for seqlen in seqlens)
         seqstart_py = list(range(0, len(seqlens) * padding + 1, padding))
         seqlen = torch.tensor(seqlens, dtype=torch.int32)
-        if torch.cuda.is_available() and torch.version.hip:
-            return cls(
-                seqlen=seqlen,
-                seqlen_cpu=seqlen.to(device=torch.device("cpu")),
-                seqlen_py=seqlens,
-                max_seqlen=max(seqlens),
-                min_seqlen=min(seqlens),
-                seqstart=torch.tensor(seqstart_py, dtype=torch.int32),
-                seqstart_py=seqstart_py,
-                padding=padding,
-            )
-        else:
-            return cls(
-                seqlen=seqlen,
-                seqlen_py=seqlens,
-                max_seqlen=max(seqlens),
-                min_seqlen=min(seqlens),
-                seqstart=torch.tensor(seqstart_py, dtype=torch.int32),
-                seqstart_py=seqstart_py,
-                padding=padding,
-            )
+        return cls(
+            seqlen=seqlen,
+            seqlen_cpu=seqlen.to(device=torch.device("cpu")) if torch.cuda.is_available() and torch.version.hip else None,
+            seqlen_py=seqlens,
+            max_seqlen=max(seqlens),
+            min_seqlen=min(seqlens),
+            seqstart=torch.tensor(seqstart_py, dtype=torch.int32),
+            seqstart_py=seqstart_py,
+            padding=padding,
+        )
 
     def split(
         self, x: torch.Tensor, batch_sizes: Optional[Sequence[int]] = None

From 8c0492a10af0827ab088337c19c6efb3b5b7e23e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 18 Sep 2023 19:38:04 +0000
Subject: [PATCH 065/837] Fix the offset type in
 efficient_attention_forward_ck() and efficient_attention_backward_ck()

---
 .../benchmark_mem_eff_attn_decoder_ck.py      |  2 +-
 .../hip_fmha/attention_backward_generic.cpp   | 62 ++++++++++---------
 .../hip_fmha/attention_forward_generic.cpp    | 40 +++++++-----
 3 files changed, 58 insertions(+), 46 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index c700109e90..a44c818919 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -65,7 +65,7 @@ def T(t):
 KV_SHAPES = [
     # list of n_keys, padding_length, batchsize
     (2, 64, 3),
-    ##(32, 1024, 500),  // this one fails due to consuming too much GPU memory
+    (32, 1024, 500),  
     (1000, 1024, 2),
     (8000, 8192, 1),
     (240, 256, 32),
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 3db5acc3f8..bae86c6fec 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -302,50 +302,56 @@ efficient_attention_backward_ck(
     char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
 
     for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_q_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
-      int32_t tmp_k_stride = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
-      int32_t tmp_v_stride = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
-      int32_t tmp_o_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
-      int32_t tmp_grad_o_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.grad_out_strides[0], grad_out.scalar_type());
-      int32_t tmp_logsumexp_stride =
+      size_t tmp_q_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
+          query.scalar_type());
+      size_t tmp_k_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
+          key.scalar_type());
+      size_t tmp_v_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
+          value.scalar_type());
+      size_t tmp_o_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
+          out.scalar_type());
+      size_t tmp_grad_o_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.grad_out_strides[0],
+          grad_out.scalar_type());
+      size_t tmp_logsumexp_offset =
           get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
-      int32_t tmp_randvals_stride = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.randvals_strides[1] +
-              p.host_seqstart_k[i] * p.randvals_strides[2],
+      size_t tmp_randvals_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.randvals_strides[1] +
+              static_cast<size_t>(p.host_seqstart_k[i]) * p.randvals_strides[2],
           randvals.scalar_type());
 
-      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_stride]));
+      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.grad_q_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_stride]));
-      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_stride]));
+          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset]));
+      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
       p.grad_k_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_k_ptr[tmp_k_stride]));
-      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_stride]));
+          reinterpret_cast<void*>(&grad_k_ptr[tmp_k_offset]));
+      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
       p.grad_v_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_v_ptr[tmp_v_stride]));
-      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_stride]));
+          reinterpret_cast<void*>(&grad_v_ptr[tmp_v_offset]));
+      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
       p.grad_out_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_out_ptr[tmp_grad_o_stride]));
+          reinterpret_cast<void*>(&grad_out_ptr[tmp_grad_o_offset]));
 
       if (bias.has_value()) {
-        int32_t tmp_bias_stride = get_size_in_bytes(
-            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
-                p.host_seqstart_k[i] * p.attn_bias_strides[3],
+        size_t tmp_bias_offset = get_size_in_bytes(
+            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.attn_bias_strides[3],
             bias->scalar_type());
 
         p.attn_bias_ptrs.push_back(
-            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_stride]));
+            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
       };
 
       p.logsumexp_ptrs.push_back(
-          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_stride]));
+          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
       p.randvals_ptrs.push_back(
-          reinterpret_cast<void*>(&randvals_ptr[tmp_randvals_stride]));
+          reinterpret_cast<void*>(&randvals_ptr[tmp_randvals_offset]));
     }
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index dab15209e2..470a253ca1 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -298,14 +298,18 @@ efficient_attention_forward_ck(
         bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
 
     for (int i = 0; i < p.num_batches; i++) {
-      int32_t tmp_q_offset = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.q_strides[0], query.scalar_type());
-      int32_t tmp_k_offset = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.k_strides[0], key.scalar_type());
-      int32_t tmp_v_offset = get_size_in_bytes(
-          p.host_seqstart_k[i] * p.v_strides[0], value.scalar_type());
-      int32_t tmp_o_offset = get_size_in_bytes(
-          p.host_seqstart_q[i] * p.out_strides[0], out.scalar_type());
+      size_t tmp_q_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
+          query.scalar_type());
+      size_t tmp_k_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
+          key.scalar_type());
+      size_t tmp_v_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
+          value.scalar_type());
+      size_t tmp_o_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
+          out.scalar_type());
 
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
@@ -313,9 +317,10 @@ efficient_attention_forward_ck(
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
 
       if (bias.has_value()) {
-        int32_t tmp_bias_offset = get_size_in_bytes(
-            p.host_seqstart_q[i] * p.attn_bias_strides[2] +
-                p.host_seqstart_k[i] * p.attn_bias_strides[3],
+        size_t tmp_bias_offset = get_size_in_bytes(
+            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.attn_bias_strides[3],
             bias->scalar_type());
 
         p.attn_bias_ptrs.push_back(
@@ -341,13 +346,14 @@ efficient_attention_forward_ck(
       char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
 
       for (int i = 0; i < p.num_batches; i++) {
-        int32_t tmp_randvals_stride = get_size_in_bytes(
-            p.host_seqstart_q[i] * p.randvals_strides[1] +
-                p.host_seqstart_k[i] * p.randvals_strides[2],
+        size_t tmp_randvals_offset = get_size_in_bytes(
+            static_cast<size_t>(p.host_seqstart_q[i]) * p.randvals_strides[1] +
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.randvals_strides[2],
             randvals.scalar_type());
 
         p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
-        randvals_ptr = randvals_ptr + tmp_randvals_stride;
+        randvals_ptr = randvals_ptr + tmp_randvals_offset;
       };
     } else
       p.dropout_prob = 0.0f;
@@ -358,11 +364,11 @@ efficient_attention_forward_ck(
       char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
       for (int i = 0; i < p.num_batches; i++) {
-        int32_t tmp_logsumexp_stride =
+        size_t tmp_logsumexp_offset =
             get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
 
         p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
-        logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_stride;
+        logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_offset;
       };
     };
   };

From fb0e501ea35cf41a9932c615c11154ead2d89983 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 19 Sep 2023 00:17:04 +0000
Subject: [PATCH 066/837] Remove the using of global workspace allocator

---
 .../ck_fmha_global_workspace_allocator.cpp    | 44 -------------------
 .../ck_fmha_global_workspace_allocator.h      | 31 -------------
 .../hip_fmha/ck_fmha_grouped_forward.h        |  5 +--
 .../attention/hip_fmha/ck_fmha_op_helper.h    |  2 -
 4 files changed, 2 insertions(+), 80 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp
deleted file mode 100644
index 0382aa24be..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.cpp
+++ /dev/null
@@ -1,44 +0,0 @@
-#include "ck_fmha_global_workspace_allocator.h"
-
-GlobalWorkspace::GlobalWorkspace(){};
-
-void* GlobalWorkspace::allocate(size_t sizeInBytes, hipStream_t stream) {
-  std::lock_guard<std::mutex> lck(mtx_);
-
-  auto it = buffers_.find(stream);
-
-  if (it != buffers_.end()) {
-    size_t curr_size = it->second.first;
-
-    // if requested size is bigger than existing buffer, allocate a bigger
-    // buffer; else re-use the existing buffer
-    if (curr_size < sizeInBytes) {
-      c10::cuda::HIPCachingAllocator::raw_delete(it->second.second);
-
-      void* new_buf = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
-      it->second.first = sizeInBytes;
-      it->second.second = new_buf;
-
-      return new_buf;
-    } else
-      return it->second.second;
-  } else {
-    // allocate a buffer and keep it for the stream
-    void* new_buf = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
-
-    auto size_buf = std::make_pair(sizeInBytes, new_buf);
-
-    buffers_.insert(std::make_pair(stream, size_buf));
-
-    return new_buf;
-  };
-};
-
-GlobalWorkspace* GlobalWorkspace::getGlobalWorkspacePtr() {
-  if (singleton_ == nullptr)
-    singleton_ = new GlobalWorkspace();
-
-  return singleton_;
-};
-
-GlobalWorkspace* GlobalWorkspace::singleton_ = nullptr;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h b/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h
deleted file mode 100644
index 9b1322f0e1..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_global_workspace_allocator.h
+++ /dev/null
@@ -1,31 +0,0 @@
-#pragma once
-
-#include <map>
-#include <mutex>
-
-#include <c10/hip/HIPCachingAllocator.h>
-#include <ck/ck.hpp>
-
-class GlobalWorkspace {
- private:
-  static GlobalWorkspace* singleton_;
-
-  std::map<hipStream_t, std::pair<size_t, void*>> buffers_;
-  std::mutex mtx_;
-
- protected:
-  GlobalWorkspace();
-
- public:
-  // for each stream, we assume only one workspace buffer is needed, so
-  // next allocation will implicitly de-allocate or reuse previous allocation
-  // for this stream
-  void* allocate(size_t sizeInBytes, hipStream_t stream);
-
-  static GlobalWorkspace* getGlobalWorkspacePtr();
-
-  GlobalWorkspace(const GlobalWorkspace&) = delete;
-  GlobalWorkspace(GlobalWorkspace&&) = delete;
-  GlobalWorkspace& operator=(const GlobalWorkspace&) = delete;
-  GlobalWorkspace& operator=(GlobalWorkspace&&) = delete;
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 2aa554bab7..0d902ebf66 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -246,10 +246,9 @@ void grouped_forward_masktype_attnbias_dispatched(
 
   auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
 
-  void* workspace =
-      GlobalWorkspace::getGlobalWorkspacePtr()->allocate(sizeInBytes, stream);
+  SimpleDeviceMem workspace(sizeInBytes);
 
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace);
+  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
 
   if (!op.IsSupportedArgument(arg_ptr.get())) {
     std::ostringstream ostr;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
index 3ca1f1325d..84d585a29a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
@@ -6,8 +6,6 @@
 #include <c10/hip/HIPCachingAllocator.h>
 #include <ck/utility/data_type.hpp>
 
-#include "ck_fmha_global_workspace_allocator.h"
-
 template <typename scalar_t>
 struct MaxVectorSizeForType {
   static constexpr int value = 4;

From adf3d1cf2521f3d061eb9edbbd77e9f876d67e85 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 19 Sep 2023 17:54:22 +0000
Subject: [PATCH 067/837] Update to composable_kernel latest mha-train-develop

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 12dcba200a..f04ec5749e 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 12dcba200a082ae40a0fb5aca3f093f1cc3470c7
+Subproject commit f04ec5749ef7db484032d0e4b6ce5135bb824ac5

From ae516c785cf2ab25928e04204c3d6cfaa52b0ba5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 23 Sep 2023 01:05:57 +0000
Subject: [PATCH 068/837] Synchronize attention_backward_generic.cpp to latest
 CK commits with grad_bias support added

---
 third_party/composable_kernel                 |  2 +-
 .../hip_fmha/attention_backward_generic.cpp   | 23 ++++++++++++++++++-
 .../hip_fmha/ck_fmha_batched_backward.h       |  2 ++
 .../hip_fmha/ck_fmha_grouped_backward.h       |  2 ++
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  6 +++--
 5 files changed, 31 insertions(+), 4 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index f04ec5749e..c0c522688d 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit f04ec5749ef7db484032d0e4b6ce5135bb824ac5
+Subproject commit c0c522688d6d7e292faa62a0a5326204d2c7a168
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index bae86c6fec..c4b821a9e5 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -117,6 +117,11 @@ efficient_attention_backward_ck(
   grad_k = at::empty(key.sizes(), key.options());
   grad_v = at::empty(value.sizes(), value.options());
 
+  const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
+
+  if (bias_requires_grad)
+    grad_bias = at::empty(value.sizes(), value.options());
+
   at::Tensor randvals;
 
   auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
@@ -177,8 +182,16 @@ efficient_attention_backward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
-    } else
+
+      if (bias_requires_grad)
+        p.grad_bias_ptr = grad_bias.data_ptr();
+    } else {
+      p.has_attn_bias = true;
       p.attn_bias_ptr = nullptr;
+      p.grad_bias_ptr = nullptr;
+    }
+
+    p.bias_has_grad = bias_requires_grad;
 
     p.custom_mask_type = custom_mask_type;
 
@@ -249,6 +262,8 @@ efficient_attention_backward_ck(
     } else
       p.has_attn_bias = false;
 
+    p.bias_has_grad = bias_requires_grad;
+
     p.dropout_prob = static_cast<float>(dropout_p);
     p.philox_seed = rng_seed;
     p.philox_offset = rng_offset;
@@ -300,6 +315,7 @@ efficient_attention_backward_ck(
     char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
     char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
     char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
+    char* grad_bias_ptr = reinterpret_cast<char*>(grad_bias.data_ptr());
 
     for (int i = 0; i < p.num_batches; i++) {
       size_t tmp_q_offset = get_size_in_bytes(
@@ -346,6 +362,11 @@ efficient_attention_backward_ck(
 
         p.attn_bias_ptrs.push_back(
             reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+
+        if (bias_requires_grad) {
+          p.grad_bias_ptrs.push_back(
+              reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
+        };
       };
 
       p.logsumexp_ptrs.push_back(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 18a070acfa..79e1606465 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -213,6 +213,8 @@ void batched_backward_masktype_attnbias_dispatched(
       param.grad_v_ptr,
       param.has_attn_bias ? param.attn_bias_ptr : nullptr,
       nullptr, // p_acc1_bias
+      param.bias_has_grad ? param.grad_bias_ptr : nullptr,
+      nullptr,
       q_gs_ms_ks_lengths,
       q_gs_ms_ks_strides,
       k_gs_ns_ks_lengths,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index e215d98aab..d312564679 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -228,6 +228,8 @@ void grouped_backward_masktype_attnbias_dispatched(
       param.grad_v_ptrs,
       param.attn_bias_ptrs,
       {}, // p_acc1_bias_vec;
+      param.grad_bias_ptrs,
+      {},
       problem_descs,
       QKVElementOp{},
       QKVElementOp{},
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index b48f6fa8f5..609f774ffb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -106,6 +106,7 @@ struct BatchedBackwardParams {
 
   float scale;
   bool has_attn_bias;
+  bool bias_has_grad;
 
   // BMHK mode strides, last-dim contiguous
   std::array<int, 4> q_strides;
@@ -129,7 +130,7 @@ struct BatchedBackwardParams {
   void* grad_q_ptr;
   void* grad_k_ptr;
   void* grad_v_ptr;
-  // void* grad_bias_ptr;
+  void* grad_bias_ptr;
 
   float dropout_prob;
   int64_t philox_seed;
@@ -157,6 +158,7 @@ struct GroupedBackwardParams {
 
   float scale;
   bool has_attn_bias;
+  bool bias_has_grad;
 
   // MHK mode strides, last-dim contiguous
   std::array<int, 3> q_strides;
@@ -181,7 +183,7 @@ struct GroupedBackwardParams {
   std::vector<void*> grad_q_ptrs;
   std::vector<void*> grad_k_ptrs;
   std::vector<void*> grad_v_ptrs;
-  // std::vector<void *> grad_bias_ptrs;
+  std::vector<void*> grad_bias_ptrs;
 
   float dropout_prob;
   int64_t philox_seed;

From e00c33fc0a5ccfeb89bff1d329157855b3bfa50e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Sep 2023 20:05:55 +0000
Subject: [PATCH 069/837] Add max_seqlen_q parameter to
 efficient_attention_forward_ck()

---
 third_party/composable_kernel                 |  2 +-
 xformers/csrc/attention/attention.cpp         |  2 +-
 .../hip_fmha/attention_forward_generic.cpp    | 16 +++++++++----
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  2 ++
 xformers/ops/fmha/ck.py                       | 24 ++++++++-----------
 5 files changed, 26 insertions(+), 20 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index c0c522688d..04c206da8a 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit c0c522688d6d7e292faa62a0a5326204d2c7a168
+Subproject commit 04c206da8afe745e1b33197234155e703aadd715
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index d60114aa3c..b136f21414 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -39,7 +39,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
 #endif
 #if defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
+      "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 470a253ca1..90370f2d2b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -50,6 +50,7 @@ efficient_attention_forward_ck(
     // position of the first key token for batch $b
     const c10::optional<at::Tensor>& seqstart_k,
     // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_q_,
     double dropout_p, // attention matrix dropout probability
     bool compute_logsumexp,
     int64_t custom_mask_type,
@@ -85,6 +86,7 @@ efficient_attention_forward_ck(
     CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
     TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
     TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
   };
 
   // last dim is contiguous, device is kCUDA
@@ -211,7 +213,8 @@ efficient_attention_forward_ck(
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty(
-          {B, num_heads, M}, query.options().dtype(at::ScalarType::Float));
+          {B, num_heads, M},
+          at::TensorOptions().dtype(at::kFloat).device(at::kCUDA));
       p.logsumexp_ptr = logsumexp.data_ptr();
     } else
       p.logsumexp_ptr = nullptr;
@@ -265,6 +268,9 @@ efficient_attention_forward_ck(
 
     p.custom_mask_type = custom_mask_type;
 
+    // max_seqlen_q is used to create logsumexp tensor
+    p.max_seqlen_q = *max_seqlen_q_;
+
     p.host_seqstart_q.resize(p.num_batches + 1);
     p.host_seqstart_k.resize(p.num_batches + 1);
 
@@ -360,12 +366,14 @@ efficient_attention_forward_ck(
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty(
-          {num_heads, M}, query.options().dtype(at::ScalarType::Float));
+          {p.num_batches, num_heads, p.max_seqlen_q},
+          at::TensorOptions().dtype(at::kFloat).device(at::kCUDA));
       char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
       for (int i = 0; i < p.num_batches; i++) {
-        size_t tmp_logsumexp_offset =
-            get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
+        size_t tmp_logsumexp_offset = get_size_in_bytes(
+            static_cast<size_t>(i) * num_heads * p.max_seqlen_q,
+            logsumexp.scalar_type());
 
         p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
         logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_offset;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 609f774ffb..4b782cc003 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -55,6 +55,8 @@ struct GroupedInferParams {
   int K; // embed_dim for Query and Key
   int Kv; // embed_dim for Value
 
+  int max_seqlen_q;
+
   std::vector<int> host_seqstart_q;
   std::vector<int> host_seqstart_k;
   std::vector<int> host_seqlen_k;
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index ad5575f57f..a6c76f9964 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -39,20 +39,15 @@ def _get_seqlen_info(
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
-        ##attn_bias.k_seqinfo.to(inp.query.device)
-        ##attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
-        ##max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
-        ##max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
+        max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
     else:
         seqstart_k = None
         seqstart_q = None
-        ##max_seqlen_q = -1
-        ##max_seqlen_k = -1
-
-    return seqstart_k, seqstart_q
+        max_seqlen_q = -1
 
+    return seqstart_k, seqstart_q, max_seqlen_q
 
 def _get_tensor_bias(
     attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
@@ -170,7 +165,7 @@ def apply(
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
-        seqstart_k, seqstart_q  = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q  = _get_seqlen_info(inp)
         out, lse, rng_seed, rng_offset = cls.OPERATOR(
             query=inp.query,
             key=inp.key,
@@ -178,6 +173,7 @@ def apply(
             attn_bias=_get_tensor_bias(inp.attn_bias),
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
+            max_seqlen_q=max_seqlen_q,
             dropout_p=inp.p,
             compute_logsumexp=needs_gradient,
             custom_mask_type=_custom_mask_type(inp.attn_bias),
@@ -247,8 +243,7 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
-        # TODO: Fix handling of gradient through the fMHA autograd function
-        # LowerTriangularMaskWithTensorBias,
+        LowerTriangularMaskWithTensorBias,
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
@@ -324,7 +319,6 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
                 raise NotImplementedError(f"Invalid rng_state: {ctx.rng_state}")
             rng_seed, rng_offset = ctx.rng_state.tolist()
 
-        force_pad_inf = torch.cuda.get_device_capability(inp.query.device) == (7, 5)
         (grad_q, grad_k, grad_v, grad_bias) = cls.OPERATOR(
             grad.to(dtype),
             inp.query,
@@ -333,8 +327,10 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             attn_bias=_get_tensor_bias(inp.attn_bias),
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
-            seqlen_k=None,
-            logsumexp=ctx.get_padded_lse(32, force_pad_inf=force_pad_inf),
+            seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
+            if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+            else None,
+            logsumexp=ctx.lse,
             output=ctx.out.to(dtype),
             dropout_p=inp.p,
             # if not using dropout, seed and offset are irrelevant but still expected

From bf5f193b68b3d774a83d00ca4f19a82fe378e85f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Sep 2023 21:13:56 +0000
Subject: [PATCH 070/837] Remove the randvals ptr/ptrs from
 efficient_attention_forward/backward since they are not used

---
 .../hip_fmha/attention_backward_generic.cpp   | 28 ++----------
 .../hip_fmha/attention_forward_generic.cpp    | 44 +++----------------
 .../hip_fmha/ck_fmha_batched_backward.h       | 14 ++----
 .../hip_fmha/ck_fmha_batched_forward.h        | 21 ++-------
 .../hip_fmha/ck_fmha_grouped_backward.h       | 11 +----
 .../hip_fmha/ck_fmha_grouped_forward.h        | 11 +----
 .../csrc/attention/hip_fmha/ck_fmha_params.h  | 18 ++------
 7 files changed, 24 insertions(+), 123 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index c4b821a9e5..89016ef020 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -122,8 +122,6 @@ efficient_attention_backward_ck(
   if (bias_requires_grad)
     grad_bias = at::empty(value.sizes(), value.options());
 
-  at::Tensor randvals;
-
   auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
     p.B = B;
     p.M = M;
@@ -199,15 +197,6 @@ efficient_attention_backward_ck(
     p.philox_seed = rng_seed;
     p.philox_offset = rng_offset;
 
-    randvals = at::empty(
-        {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2)),
-        static_cast<int>(randvals.stride(3))};
-    p.randvals_ptr = randvals.data_ptr();
-
     p.logsumexp_ptr = logsumexp.data_ptr();
   };
 
@@ -268,13 +257,6 @@ efficient_attention_backward_ck(
     p.philox_seed = rng_seed;
     p.philox_offset = rng_offset;
 
-    randvals = at::empty(
-        {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-    p.randvals_strides = {
-        static_cast<int>(randvals.stride(0)),
-        static_cast<int>(randvals.stride(1)),
-        static_cast<int>(randvals.stride(2))};
-
     p.custom_mask_type = custom_mask_type;
 
     p.host_seqstart_q.resize(p.num_batches + 1);
@@ -310,7 +292,6 @@ efficient_attention_backward_ck(
     char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
 
     char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-    char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
 
     char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
     char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
@@ -335,10 +316,6 @@ efficient_attention_backward_ck(
           grad_out.scalar_type());
       size_t tmp_logsumexp_offset =
           get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
-      size_t tmp_randvals_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.randvals_strides[1] +
-              static_cast<size_t>(p.host_seqstart_k[i]) * p.randvals_strides[2],
-          randvals.scalar_type());
 
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.grad_q_ptrs.push_back(
@@ -371,8 +348,9 @@ efficient_attention_backward_ck(
 
       p.logsumexp_ptrs.push_back(
           reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-      p.randvals_ptrs.push_back(
-          reinterpret_cast<void*>(&randvals_ptr[tmp_randvals_offset]));
+
+      // ToDO: remove this after dev-op fix
+      p.randvals_ptrs.push_back(nullptr);
     }
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 90370f2d2b..2490ac8392 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -105,7 +105,6 @@ efficient_attention_forward_ck(
   int64_t Kv = value.size(-1);
 
   at::Tensor logsumexp;
-  at::Tensor randvals;
 
   at::Tensor out = at::empty({B, M, num_heads, Kv}, query.options());
 
@@ -195,21 +194,10 @@ efficient_attention_forward_ck(
     p.compute_logsumexp = compute_logsumexp;
 
     // the following parameters are only used by training forward
-    if (p.use_dropout) {
+    if (p.use_dropout)
       p.dropout_prob = static_cast<float>(dropout_p);
-
-      randvals = at::empty(
-          {B, num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-      p.randvals_strides = {
-          static_cast<int>(randvals.stride(0)),
-          static_cast<int>(randvals.stride(1)),
-          static_cast<int>(randvals.stride(2)),
-          static_cast<int>(randvals.stride(3))};
-      p.randvals_ptr = randvals.data_ptr();
-    } else {
+    else
       p.dropout_prob = 0.0f;
-      p.randvals_ptr = nullptr;
-    };
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty(
@@ -332,6 +320,9 @@ efficient_attention_forward_ck(
         p.attn_bias_ptrs.push_back(
             reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
       };
+
+      // ToDO: remove this after dev-op fix
+      p.randvals_ptrs.push_back(nullptr);
     }
 
     p.use_dropout = use_dropout;
@@ -340,28 +331,9 @@ efficient_attention_forward_ck(
     p.compute_logsumexp = compute_logsumexp;
 
     // the following parameters are only used by training forward
-    if (p.use_dropout) {
+    if (p.use_dropout)
       p.dropout_prob = static_cast<float>(dropout_p);
-
-      randvals = at::empty(
-          {num_heads, M, N}, query.options().dtype(at::ScalarType::Short));
-      p.randvals_strides = {
-          static_cast<int>(randvals.stride(0)),
-          static_cast<int>(randvals.stride(1)),
-          static_cast<int>(randvals.stride(2))};
-      char* randvals_ptr = reinterpret_cast<char*>(randvals.data_ptr());
-
-      for (int i = 0; i < p.num_batches; i++) {
-        size_t tmp_randvals_offset = get_size_in_bytes(
-            static_cast<size_t>(p.host_seqstart_q[i]) * p.randvals_strides[1] +
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.randvals_strides[2],
-            randvals.scalar_type());
-
-        p.randvals_ptrs.push_back(reinterpret_cast<void*>(randvals_ptr));
-        randvals_ptr = randvals_ptr + tmp_randvals_offset;
-      };
-    } else
+    else
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
@@ -407,8 +379,6 @@ efficient_attention_forward_ck(
       throw std::runtime_error("input data-type is not supported!");
   };
 
-  // torch::save(randvals, "randvals_dev.zip");
-
   return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 79e1606465..c9a44499f6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -170,14 +170,6 @@ void batched_backward_masktype_attnbias_dispatched(
   std::vector<ck::index_t> ygrad_gs_ms_os_lengths{
       param.B, param.num_heads, param.M, param.Kv};
 
-  std::vector<ck::index_t> z_gs_ms_ns_lengths{
-      param.B, param.num_heads, param.M, param.N};
-  std::vector<ck::index_t> z_gs_ms_ns_strides{
-      param.randvals_strides[0],
-      param.randvals_strides[1],
-      param.randvals_strides[2],
-      param.randvals_strides[3]};
-
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
   std::vector<ck::index_t> d_gs_ms_ns_lengths;
@@ -203,7 +195,7 @@ void batched_backward_masktype_attnbias_dispatched(
   auto arg_ptr = op.MakeArgumentPointer(
       param.q_ptr,
       param.k_ptr,
-      param.randvals_ptr,
+      nullptr,
       param.v_ptr,
       param.out_ptr,
       param.logsumexp_ptr,
@@ -219,8 +211,8 @@ void batched_backward_masktype_attnbias_dispatched(
       q_gs_ms_ks_strides,
       k_gs_ns_ks_lengths,
       k_gs_ns_ks_strides,
-      z_gs_ms_ns_lengths,
-      z_gs_ms_ns_strides,
+      {1, 1, 1, 1},
+      {0, 0, 0, 0},
       v_gs_os_ns_lengths,
       v_gs_os_ns_strides,
       y_gs_ms_os_lengths,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index f5b5dd8d9d..e6015c6bc4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -174,21 +174,6 @@ void batched_forward_masktype_attnbias_dispatched(
       param.out_strides[1],
       param.out_strides[3]};
 
-  std::vector<ck::index_t> z_gs_ms_ns_lengths;
-  std::vector<ck::index_t> z_gs_ms_ns_strides;
-
-  if (param.use_dropout) {
-    z_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
-    z_gs_ms_ns_strides = {
-        param.randvals_strides[0],
-        param.randvals_strides[1],
-        param.randvals_strides[2],
-        param.randvals_strides[3]};
-  } else {
-    z_gs_ms_ns_lengths = {1, 1, 1, 1};
-    z_gs_ms_ns_strides = {0, 0, 0, 0};
-  };
-
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
   std::vector<ck::index_t> d_gs_ms_ns_lengths;
@@ -222,7 +207,7 @@ void batched_forward_masktype_attnbias_dispatched(
       param.k_ptr,
       param.v_ptr,
       param.out_ptr,
-      param.randvals_ptr,
+      nullptr,
       param.logsumexp_ptr,
       param.has_attn_bias ? param.attn_bias_ptr : nullptr,
       {}, // p_acc1_biases;
@@ -234,8 +219,8 @@ void batched_forward_masktype_attnbias_dispatched(
       b1_gs_os_ns_strides,
       c_gs_ms_os_lengths,
       c_gs_ms_os_strides,
-      z_gs_ms_ns_lengths,
-      z_gs_ms_ns_strides,
+      {1, 1, 1, 1},
+      {0, 0, 0, 0},
       lse_gs_ms_lengths,
       d_gs_ms_ns_lengths,
       d_gs_ms_ns_strides,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index d312564679..ba7fbe71e8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -164,13 +164,6 @@ void grouped_backward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> y_gs_ms_os_strides{
         0, param.out_strides[0], param.out_strides[1], param.out_strides[2]};
 
-    std::vector<ck::index_t> z_gs_ms_ns_lengths{1, G1, M, N};
-    std::vector<ck::index_t> z_gs_ms_ns_strides{
-        0,
-        param.randvals_strides[0],
-        param.randvals_strides[1],
-        param.randvals_strides[2]};
-
     std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
 
@@ -195,8 +188,8 @@ void grouped_backward_masktype_attnbias_dispatched(
         q_gs_ms_ks_strides,
         k_gs_ns_ks_lengths,
         k_gs_ns_ks_strides,
-        z_gs_ms_ns_lengths,
-        z_gs_ms_ns_strides,
+        {1, 1, 1, 1},
+        {0, 0, 0, 0},
         v_gs_os_ns_lengths,
         v_gs_os_ns_strides,
         y_gs_ms_os_lengths,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 0d902ebf66..49f3c47e57 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -170,13 +170,6 @@ void grouped_forward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> c_gs_ms_os_strides{
         0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-    std::vector<ck::index_t> z_gs_ms_ns_lengths{1, G1, M, N};
-    std::vector<ck::index_t> z_gs_ms_ns_strides{
-        0,
-        param.randvals_strides[0],
-        param.randvals_strides[1],
-        param.randvals_strides[2]};
-
     std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
 
@@ -205,8 +198,8 @@ void grouped_forward_masktype_attnbias_dispatched(
          b1_gs_os_ns_strides,
          c_gs_ms_os_lengths,
          c_gs_ms_os_strides,
-         z_gs_ms_ns_lengths,
-         z_gs_ms_ns_strides,
+         {1, 1, 1, 1},
+         {0, 0, 0, 0},
          lse_gs_ms_lengths,
          lse_gs_ms_strides,
          d_gs_ms_ns_lengths,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 4b782cc003..ccea06a1c0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -39,10 +39,6 @@ struct BatchedForwardParams : public BatchedInferParams {
   int64_t philox_seed;
   int64_t philox_offset;
 
-  // BHMN mode strides, completely contiguous
-  std::array<int32_t, 4> randvals_strides;
-  void* randvals_ptr;
-
   // completely contiguous
   void* logsumexp_ptr;
 };
@@ -90,12 +86,11 @@ struct GroupedForwardParams : public GroupedInferParams {
   int64_t philox_seed;
   int64_t philox_offset;
 
-  // HMN mode strides, completely contiguous
-  std::array<int, 3> randvals_strides;
-  std::vector<void*> randvals_ptrs;
-
   // completely contiguous
   std::vector<void*> logsumexp_ptrs;
+
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
 };
 
 struct BatchedBackwardParams {
@@ -140,10 +135,6 @@ struct BatchedBackwardParams {
 
   // completely contiguous
   const void* logsumexp_ptr;
-
-  // BHMN mode strides, completely contiguous
-  std::array<int, 4> randvals_strides;
-  void* randvals_ptr;
 };
 
 struct GroupedBackwardParams {
@@ -194,7 +185,6 @@ struct GroupedBackwardParams {
   // HM mode strides, completely contiguous
   std::vector<const void*> logsumexp_ptrs;
 
-  // HMN mode strides, completely contiguous
-  std::array<int, 3> randvals_strides;
+  // TODO: need remove this after dev-op fix
   std::vector<void*> randvals_ptrs;
 };

From dc71d806930ccf9671e3d8687081174c2bb087f3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 27 Sep 2023 20:05:53 +0000
Subject: [PATCH 071/837] Updates and have some batched backward testing cases
 passed

---
 third_party/composable_kernel                 |  2 +-
 xformers/csrc/attention/attention.cpp         |  2 +-
 .../hip_fmha/attention_backward_generic.cpp   | 53 ++++++++++++-------
 .../hip_fmha/attention_forward_generic.cpp    |  5 +-
 .../hip_fmha/ck_fmha_batched_backward.h       | 19 +++----
 .../hip_fmha/ck_fmha_grouped_backward.h       |  4 +-
 .../hip_fmha/ck_fmha_grouped_forward.h        |  4 +-
 .../csrc/attention/hip_fmha/ck_fmha_params.h  | 16 +++---
 xformers/ops/fmha/ck.py                       |  5 +-
 9 files changed, 58 insertions(+), 52 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 04c206da8a..b23b3d717a 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 04c206da8afe745e1b33197234155e703aadd715
+Subproject commit b23b3d717ab17a06c490b70508d18ef7773849a4
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index b136f21414..18ddcdcfc6 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -41,7 +41,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
+      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 89016ef020..3808ae35ec 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -38,6 +38,8 @@ efficient_attention_backward_ck(
     // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
     // position of the first key token for batch $b
     const c10::optional<at::Tensor>& seqstart_k,
+    // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_q_,
     const c10::optional<at::Tensor>& seqlen_k,
     const at::Tensor& logsumexp,
     const at::Tensor& out,
@@ -78,14 +80,19 @@ efficient_attention_backward_ck(
   TORCH_CHECK(query.size(3) == key.size(3));
   TORCH_CHECK(value.size(3) == grad_out.size(3));
 
-  // handle potentially non-contiguous grad_out through a copy
-  CHECK_NOSPARSE_CONTIGUOUS_CUDA(grad_out);
+  // CK-FlashAttn requires out, grad_out to have same shapes
+  TORCH_CHECK(out.sizes() == grad_out.sizes());
+  TORCH_CHECK(out.strides() == grad_out.strides());
 
   // last dim is contiguous, device is CUDA
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
+  // logsumexp should be completely contiguous
+  CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
+
   TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
   TORCH_CHECK(
       !(seqstart_q.has_value() && bias.has_value()),
@@ -99,6 +106,7 @@ efficient_attention_backward_ck(
     CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
     TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
     TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
   }
 
   // at::cuda::CUDAGuard device_guard(query.device());
@@ -113,14 +121,14 @@ efficient_attention_backward_ck(
 
   at::Tensor grad_q, grad_k, grad_v, grad_bias;
 
-  grad_q = at::empty(query.sizes(), query.options());
+  grad_q = at::zeros(query.sizes(), query.options());
   grad_k = at::empty(key.sizes(), key.options());
   grad_v = at::empty(value.sizes(), value.options());
 
   const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
 
   if (bias_requires_grad)
-    grad_bias = at::empty(value.sizes(), value.options());
+    grad_bias = at::empty(bias->sizes(), bias->options());
 
   auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
     p.B = B;
@@ -130,6 +138,10 @@ efficient_attention_backward_ck(
     p.K = K;
     p.Kv = Kv;
 
+    TORCH_CHECK(p.B == logsumexp.size(0));
+    TORCH_CHECK(p.num_heads == logsumexp.size(1));
+    TORCH_CHECK(p.M == logsumexp.size(2));
+
     if (scale.has_value()) {
       p.scale = float(*scale);
     } else {
@@ -140,6 +152,8 @@ efficient_attention_backward_ck(
     p.k_ptr = key.data_ptr();
     p.v_ptr = value.data_ptr();
     p.grad_out_ptr = grad_out.data_ptr();
+    p.out_ptr = out.data_ptr();
+
     p.grad_q_ptr = grad_q.data_ptr();
     p.grad_k_ptr = grad_k.data_ptr();
     p.grad_v_ptr = grad_v.data_ptr();
@@ -159,11 +173,11 @@ efficient_attention_backward_ck(
         static_cast<int>(value.stride(1)),
         static_cast<int>(value.stride(2)),
         static_cast<int>(value.stride(3))};
-    p.grad_out_strides = {
-        static_cast<int>(grad_out.stride(0)),
-        static_cast<int>(grad_out.stride(1)),
-        static_cast<int>(grad_out.stride(2)),
-        static_cast<int>(grad_out.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
@@ -208,6 +222,12 @@ efficient_attention_backward_ck(
     p.K = K;
     p.Kv = Kv;
 
+    p.max_seqlen_q = *max_seqlen_q_;
+
+    TORCH_CHECK(p.num_batches == logsumexp.size(0));
+    TORCH_CHECK(p.num_heads == logsumexp.size(1));
+    TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
+
     if (scale.has_value()) {
       p.scale = float(*scale);
     } else {
@@ -231,11 +251,6 @@ efficient_attention_backward_ck(
         static_cast<int>(out.stride(2)),
         static_cast<int>(out.stride(3))};
 
-    p.grad_out_strides = {
-        static_cast<int>(grad_out.stride(1)),
-        static_cast<int>(grad_out.stride(2)),
-        static_cast<int>(grad_out.stride(3))};
-
     if (bias.has_value()) {
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
@@ -311,11 +326,9 @@ efficient_attention_backward_ck(
       size_t tmp_o_offset = get_size_in_bytes(
           static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
           out.scalar_type());
-      size_t tmp_grad_o_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.grad_out_strides[0],
-          grad_out.scalar_type());
-      size_t tmp_logsumexp_offset =
-          get_size_in_bytes(p.host_seqstart_q[i], logsumexp.scalar_type());
+      size_t tmp_logsumexp_offset = get_size_in_bytes(
+          static_cast<size_t>(i) * p.num_heads * p.max_seqlen_q,
+          logsumexp.scalar_type());
 
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.grad_q_ptrs.push_back(
@@ -328,7 +341,7 @@ efficient_attention_backward_ck(
           reinterpret_cast<void*>(&grad_v_ptr[tmp_v_offset]));
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
       p.grad_out_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_out_ptr[tmp_grad_o_offset]));
+          reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
 
       if (bias.has_value()) {
         size_t tmp_bias_offset = get_size_in_bytes(
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 2490ac8392..1c7035cc09 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -346,9 +346,8 @@ efficient_attention_forward_ck(
         size_t tmp_logsumexp_offset = get_size_in_bytes(
             static_cast<size_t>(i) * num_heads * p.max_seqlen_q,
             logsumexp.scalar_type());
-
-        p.logsumexp_ptrs.push_back(reinterpret_cast<void*>(logsumexp_ptr));
-        logsumexp_ptr = logsumexp_ptr + tmp_logsumexp_offset;
+        p.logsumexp_ptrs.push_back(
+            reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
       };
     };
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index c9a44499f6..360c876516 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -56,7 +56,7 @@ void batched_backward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecY =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
+  static constexpr bool Deterministic = true;
 
   // Tunables
   static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
@@ -167,9 +167,6 @@ void batched_backward_masktype_attnbias_dispatched(
       param.out_strides[1],
       param.out_strides[3]};
 
-  std::vector<ck::index_t> ygrad_gs_ms_os_lengths{
-      param.B, param.num_heads, param.M, param.Kv};
-
   std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
 
   std::vector<ck::index_t> d_gs_ms_ns_lengths;
@@ -195,7 +192,7 @@ void batched_backward_masktype_attnbias_dispatched(
   auto arg_ptr = op.MakeArgumentPointer(
       param.q_ptr,
       param.k_ptr,
-      nullptr,
+      nullptr, // p_z_grid
       param.v_ptr,
       param.out_ptr,
       param.logsumexp_ptr,
@@ -207,15 +204,15 @@ void batched_backward_masktype_attnbias_dispatched(
       nullptr, // p_acc1_bias
       param.bias_has_grad ? param.grad_bias_ptr : nullptr,
       nullptr,
-      q_gs_ms_ks_lengths,
+      q_gs_ms_ks_lengths, // q, dQ should have same shape
       q_gs_ms_ks_strides,
-      k_gs_ns_ks_lengths,
+      k_gs_ns_ks_lengths, // k, dK should have same shape
       k_gs_ns_ks_strides,
-      {1, 1, 1, 1},
-      {0, 0, 0, 0},
-      v_gs_os_ns_lengths,
+      {1, 1, 1, 1}, // z_gs_ms_ns_lengths
+      {0, 0, 0, 0}, // z_gs_ms_ns_strides
+      v_gs_os_ns_lengths, // v, dV should have same shape
       v_gs_os_ns_strides,
-      y_gs_ms_os_lengths,
+      y_gs_ms_os_lengths, // y, dY should have same shape
       y_gs_ms_os_strides,
       lse_gs_ms_lengths,
       d_gs_ms_ns_lengths,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index ba7fbe71e8..fd86be85b3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -164,8 +164,8 @@ void grouped_backward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> y_gs_ms_os_strides{
         0, param.out_strides[0], param.out_strides[1], param.out_strides[2]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
-    std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
+    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, param.max_seqlen_q};
+    std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;
     std::vector<ck::index_t> d_gs_ms_ns_strides;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 49f3c47e57..dd2204ac03 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -170,8 +170,8 @@ void grouped_forward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> c_gs_ms_os_strides{
         0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
-    std::vector<ck::index_t> lse_gs_ms_strides{0, param.M, 1};
+    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, param.max_seqlen_q};
+    std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;
     std::vector<ck::index_t> d_gs_ms_ns_strides;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index ccea06a1c0..2186c7601b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -116,14 +116,11 @@ struct BatchedBackwardParams {
   const void* k_ptr;
   const void* v_ptr;
   const void* attn_bias_ptr;
+  const void* grad_out_ptr;
   const void* out_ptr;
 
   uint8_t custom_mask_type;
 
-  std::array<int, 4> grad_out_strides;
-
-  const void* grad_out_ptr;
-
   void* grad_q_ptr;
   void* grad_k_ptr;
   void* grad_v_ptr;
@@ -133,7 +130,7 @@ struct BatchedBackwardParams {
   int64_t philox_seed;
   int64_t philox_offset;
 
-  // completely contiguous
+  // BHM mode lengths, completely contiguous
   const void* logsumexp_ptr;
 };
 
@@ -145,6 +142,8 @@ struct GroupedBackwardParams {
   int K; // embed_dim for Query and Key
   int Kv; // embed_dim for Value
 
+  int max_seqlen_q;
+
   std::vector<int> host_seqstart_q;
   std::vector<int> host_seqstart_k;
   std::vector<int> host_seqlen_k;
@@ -165,14 +164,11 @@ struct GroupedBackwardParams {
   std::vector<const void*> k_ptrs;
   std::vector<const void*> v_ptrs;
   std::vector<const void*> attn_bias_ptrs;
+  std::vector<const void*> grad_out_ptrs;
   std::vector<const void*> out_ptrs;
 
   uint8_t custom_mask_type;
 
-  std::array<int, 3> grad_out_strides;
-
-  std::vector<const void*> grad_out_ptrs;
-
   std::vector<void*> grad_q_ptrs;
   std::vector<void*> grad_k_ptrs;
   std::vector<void*> grad_v_ptrs;
@@ -182,7 +178,7 @@ struct GroupedBackwardParams {
   int64_t philox_seed;
   int64_t philox_offset;
 
-  // HM mode strides, completely contiguous
+  // BHM mode lengths, completely contiguous
   std::vector<const void*> logsumexp_ptrs;
 
   // TODO: need remove this after dev-op fix
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index a6c76f9964..5f201f603e 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -165,7 +165,7 @@ def apply(
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
-        seqstart_k, seqstart_q, max_seqlen_q  = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         out, lse, rng_seed, rng_offset = cls.OPERATOR(
             query=inp.query,
             key=inp.key,
@@ -305,7 +305,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
 
-        seqstart_k, seqstart_q = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
         rng_seed = rng_offset = 0
@@ -327,6 +327,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             attn_bias=_get_tensor_bias(inp.attn_bias),
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
+            max_seqlen_q=max_seqlen_q, 
             seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,

From b42396133d95e038b4281d48020b5a37ebc49999 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 5 Oct 2023 12:07:17 +0000
Subject: [PATCH 072/837] Tiny change in fmha_grouped_forward

---
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index dd2204ac03..4ce28c964d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -58,7 +58,7 @@ void grouped_forward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = true;
+  static constexpr bool Deterministic = false;
 
   // Tunables
   static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
@@ -170,7 +170,7 @@ void grouped_forward_masktype_attnbias_dispatched(
     std::vector<ck::index_t> c_gs_ms_os_strides{
         0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, param.max_seqlen_q};
+    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;

From 26c653c6a34db24d1d01ae93954ecade722e8680 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 7 Oct 2023 17:38:37 +0000
Subject: [PATCH 073/837] Add comments in batched backward

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 360c876516..98faf4967e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -215,7 +215,7 @@ void batched_backward_masktype_attnbias_dispatched(
       y_gs_ms_os_lengths, // y, dY should have same shape
       y_gs_ms_os_strides,
       lse_gs_ms_lengths,
-      d_gs_ms_ns_lengths,
+      d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
       d_gs_ms_ns_strides,
       {}, // acc1_biases_gs_ms_os_lengths
       {}, // acc1_biases_gs_ms_os_strides

From 90a2c4282818f8cb61923456e7b8e1c543d24375 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 8 Oct 2023 15:54:29 +0000
Subject: [PATCH 074/837] Update and changes which make simple grouped backward
 tests passed

---
 .../hip_fmha/attention_backward_generic.cpp   | 20 ++++++++-----
 .../hip_fmha/attention_forward_generic.cpp    | 11 ++++---
 .../hip_fmha/ck_fmha_grouped_backward.h       | 30 +++++++++----------
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  4 +++
 4 files changed, 37 insertions(+), 28 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 3808ae35ec..da9e9db34e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -304,14 +304,17 @@ efficient_attention_backward_ck(
 
     char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
     char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
-    char* attn_bias_ptr = reinterpret_cast<char*>(bias->data_ptr());
+    char* attn_bias_ptr =
+        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
 
     char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
     char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
     char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
     char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
-    char* grad_bias_ptr = reinterpret_cast<char*>(grad_bias.data_ptr());
+    char* grad_bias_ptr = bias_requires_grad
+        ? reinterpret_cast<char*>(grad_bias.data_ptr())
+        : nullptr;
 
     for (int i = 0; i < p.num_batches; i++) {
       size_t tmp_q_offset = get_size_in_bytes(
@@ -333,16 +336,22 @@ efficient_attention_backward_ck(
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.grad_q_ptrs.push_back(
           reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset]));
+
       p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
       p.grad_k_ptrs.push_back(
           reinterpret_cast<void*>(&grad_k_ptr[tmp_k_offset]));
+
       p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
       p.grad_v_ptrs.push_back(
           reinterpret_cast<void*>(&grad_v_ptr[tmp_v_offset]));
+
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
       p.grad_out_ptrs.push_back(
           reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
 
+      p.logsumexp_ptrs.push_back(
+          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+
       if (bias.has_value()) {
         size_t tmp_bias_offset = get_size_in_bytes(
             static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
@@ -356,11 +365,8 @@ efficient_attention_backward_ck(
         if (bias_requires_grad) {
           p.grad_bias_ptrs.push_back(
               reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
-        };
-      };
-
-      p.logsumexp_ptrs.push_back(
-          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+        }
+      }
 
       // ToDO: remove this after dev-op fix
       p.randvals_ptrs.push_back(nullptr);
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 1c7035cc09..166c9806af 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -104,9 +104,11 @@ efficient_attention_forward_ck(
   int64_t K = query.size(-1);
   int64_t Kv = value.size(-1);
 
+  auto opts = query.options();
+
   at::Tensor logsumexp;
 
-  at::Tensor out = at::empty({B, M, num_heads, Kv}, query.options());
+  at::Tensor out = at::empty({B, M, num_heads, Kv}, opts);
 
   const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
   int64_t philox_seed;
@@ -200,9 +202,7 @@ efficient_attention_forward_ck(
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
-      logsumexp = at::empty(
-          {B, num_heads, M},
-          at::TensorOptions().dtype(at::kFloat).device(at::kCUDA));
+      logsumexp = at::empty({B, num_heads, M}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
     } else
       p.logsumexp_ptr = nullptr;
@@ -338,8 +338,7 @@ efficient_attention_forward_ck(
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty(
-          {p.num_batches, num_heads, p.max_seqlen_q},
-          at::TensorOptions().dtype(at::kFloat).device(at::kCUDA));
+          {p.num_batches, num_heads, p.max_seqlen_q}, opts.dtype(at::kFloat));
       char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
       for (int i = 0; i < p.num_batches; i++) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index fd86be85b3..5371126d30 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -60,9 +60,9 @@ void grouped_backward_masktype_attnbias_dispatched(
   static constexpr bool Deterministic = false;
 
   // Tunables
-  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1; // 8
+  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1; // 4
+  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1; // 4
 
   using DeviceOpInstance = ck::tensor_operation::device::
       DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
@@ -94,7 +94,7 @@ void grouped_backward_masktype_attnbias_dispatched(
           256,
           64, // MPerBlock
           128, // NPerBlock
-          128, // KPerBlock
+          64, // KPerBlock
           128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           64, // Gemm2KPerBlock
@@ -140,7 +140,7 @@ void grouped_backward_masktype_attnbias_dispatched(
 
   for (std::size_t i = 0; i < param.num_batches; i++) {
     int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
-    int N = param.host_seqstart_k.empty()
+    int N = param.host_seqlen_k.empty()
         ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
         : param.host_seqlen_k[i];
     int K = param.K;
@@ -149,22 +149,22 @@ void grouped_backward_masktype_attnbias_dispatched(
 
     std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1, M, K};
     std::vector<ck::index_t> q_gs_ms_ks_strides{
-        0, param.q_strides[0], param.q_strides[1], param.q_strides[2]};
+        0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
 
     std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1, N, K};
     std::vector<ck::index_t> k_gs_ns_ks_strides{
-        0, param.k_strides[0], param.k_strides[1], param.k_strides[2]};
+        0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
 
     // to be changed to v_gs_ns_os_lengths
     std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1, Kv, N};
     std::vector<ck::index_t> v_gs_os_ns_strides{
-        0, param.v_strides[0], param.v_strides[2], param.v_strides[1]};
+        0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
 
     std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1, M, Kv};
     std::vector<ck::index_t> y_gs_ms_os_strides{
-        0, param.out_strides[0], param.out_strides[1], param.out_strides[2]};
+        0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, param.max_seqlen_q};
+    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
     std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;
@@ -184,19 +184,19 @@ void grouped_backward_masktype_attnbias_dispatched(
     };
 
     problem_descs.push_back({
-        q_gs_ms_ks_lengths,
+        q_gs_ms_ks_lengths, // q, dQ should have same shape
         q_gs_ms_ks_strides,
-        k_gs_ns_ks_lengths,
+        k_gs_ns_ks_lengths, // k, dK should have same shape
         k_gs_ns_ks_strides,
         {1, 1, 1, 1},
         {0, 0, 0, 0},
-        v_gs_os_ns_lengths,
+        v_gs_os_ns_lengths, // v, dV should have same shape
         v_gs_os_ns_strides,
-        y_gs_ms_os_lengths,
+        y_gs_ms_os_lengths, // y, dY should have same shape
         y_gs_ms_os_strides,
         lse_gs_ms_lengths,
         lse_gs_ms_strides,
-        d_gs_ms_ns_lengths,
+        d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
         d_gs_ms_ns_strides,
         {}, // acc1_biases_gs_ms_os_lengths
         {}, // acc1_biases_gs_ms_os_strides
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 2186c7601b..73961d0a86 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -167,6 +167,10 @@ struct GroupedBackwardParams {
   std::vector<const void*> grad_out_ptrs;
   std::vector<const void*> out_ptrs;
 
+  // used by the light_v2 kernel
+  // TODO use these as workspace
+  std::vector<void*> ydotdy_ptrs;
+
   uint8_t custom_mask_type;
 
   std::vector<void*> grad_q_ptrs;

From 05c367e7bf1a5c030825512bed0a261ff0dab0a4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 8 Oct 2023 20:30:34 +0000
Subject: [PATCH 075/837] Tiny update to make some test cases pass

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 98faf4967e..601fdbff21 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -56,7 +56,7 @@ void batched_backward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecY =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = true;
+  static constexpr bool Deterministic = false;
 
   // Tunables
   static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 5371126d30..e442ae8c1d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -94,7 +94,7 @@ void grouped_backward_masktype_attnbias_dispatched(
           256,
           64, // MPerBlock
           128, // NPerBlock
-          64, // KPerBlock
+          128, // KPerBlock
           128, // Gemm1NPerBlock
           32, // Gemm1KPerBlock
           64, // Gemm2KPerBlock

From 9a04ba76aed68ddb95359166a715e800e45f36f6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 17:02:38 +0000
Subject: [PATCH 076/837] Update to align the allocation of
 grad_q/grad_k/grad_v with that of q/k/v

---
 .../hip_fmha/attention_backward_generic.cpp   | 40 +++++++++++++++++--
 1 file changed, 36 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index da9e9db34e..da1a082b2a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -119,16 +119,48 @@ efficient_attention_backward_ck(
   int64_t K = query.size(3);
   int64_t Kv = value.size(3);
 
+  auto opts = query.options();
+
   at::Tensor grad_q, grad_k, grad_v, grad_bias;
 
-  grad_q = at::zeros(query.sizes(), query.options());
-  grad_k = at::empty(key.sizes(), key.options());
-  grad_v = at::empty(value.sizes(), value.options());
+  if (query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
+      query.storage().is_alias_of(key.storage()) &&
+      query.storage().is_alias_of(value.storage())) {
+    // Create one big contiguous chunk for grad_q, grad_k, grad_v
+    // This is because q, k and v usually come from a single
+    // output of a linear layer that is chunked.
+    // Creating the gradients with the right layout saves us
+    // a `torch.cat` call in the backward pass
+    at::Tensor chunk = at::empty({B, M, 3, num_heads, K}, opts);
+    grad_q = chunk.select(2, 0);
+    grad_k = chunk.select(2, 1);
+    grad_v = chunk.select(2, 2);
+  } else if (
+      key.size(3) == value.size(3) &&
+      key.storage().is_alias_of(value.storage())) {
+    // Create one big contiguous chunk for grad_k, grad_v
+    // This is because k and v usually come from a single
+    // output of a linear layer that is chunked.
+    // Creating the gradients with the right layout saves us
+    // a `torch.cat` call in the backward pass
+    at::Tensor chunk = at::empty({B, N, 2, num_heads, Kv}, opts);
+    grad_k = chunk.select(2, 0);
+    grad_v = chunk.select(2, 1);
+
+    grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+    grad_q.fill_(0);
+  } else {
+    grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+    grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
+    grad_v = at::empty_strided(value.sizes(), key.strides(), value.options());
+    grad_q.fill_(0);
+  }
 
   const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
 
   if (bias_requires_grad)
-    grad_bias = at::empty(bias->sizes(), bias->options());
+    grad_bias =
+        at::empty_strided(bias->sizes(), bias->strides(), bias->options());
 
   auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
     p.B = B;

From e7b7916db90457f68fa62e67a56bca4625dd7ae8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 17:03:49 +0000
Subject: [PATCH 077/837] Add benchmark_mem_eff_attention_ck.py for
 forward/backward benchmarking on CK

---
 .../benchmark_mem_eff_attention_ck.py         | 324 ++++++++++++++++++
 1 file changed, 324 insertions(+)
 create mode 100644 xformers/benchmarks/benchmark_mem_eff_attention_ck.py

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
new file mode 100644
index 0000000000..bd700518d9
--- /dev/null
+++ b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
@@ -0,0 +1,324 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+import itertools
+import random
+from functools import partial
+
+import torch
+from torch.utils import benchmark
+from xformers.benchmarks.utils import benchmark_main_helper
+
+import xformers.ops
+import xformers.ops.fmha as fmha
+
+torch.backends.cuda.matmul.allow_tf32 = False
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    bias_requires_grad: bool = False,
+):
+    NoneType = type(None)
+    if bias_type is NoneType:
+        return None
+    if bias_type is torch.Tensor:
+        attn_bias = torch.randn((1, 1, q_len, kv_len), device=device, dtype=dtype)
+        return attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+    if bias_type is xformers.ops.LowerTriangularMask:
+        return bias_type()
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def ref_attention_bmk(q, k, v, attn_bias=None, p=0.0):
+    if isinstance(attn_bias, xformers.ops.AttentionMask):
+        attn_bias = (
+            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
+            .to(q)
+            .squeeze()
+        )
+    q = q * (1.0 / q.shape[-1] ** 0.5)
+    if attn_bias is None:
+        attn = q @ k.transpose(-2, -1)
+    else:
+        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
+        # but faster, and is what is used in PyTorch now
+        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
+    attn = attn.softmax(-1)
+    if p > 0:
+        attn = torch.nn.functional.dropout(attn, p=p)
+    return attn @ v
+
+
+def ref_attention(q, k, v, attn_bias, p=0.0):
+    assert q.ndim == 4
+    B, M, H, K = q.shape
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, torch.Tensor):
+        attn_bias = attn_bias.reshape(B * H, M, M)
+    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias, p)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+min_run_time = 0.5
+device = torch.device("cuda")
+
+NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
+SHAPES = [
+    # ViT
+    (384, 197, 1, 88),
+    (384, 197, 1, 80),
+    (384, 197, 1, 64),
+    (1024, 197, 1, 88),
+    (1024, 197, 1, 80),
+    (1024, 197, 1, 64),
+    # ViT-Huge
+    (32 * 16, 197, 1, 80),
+    (32, 197, 16, 80),
+    (32, 197, 16, 64),
+    (32, 197, 16, 128),
+    # ViT-Giant
+    (16 * 16, 197, 1, 88),
+    (16, 197, 16, 88),
+    (16, 197, 16, 64),
+    (16, 197, 16, 128),
+    # FB models
+    (1024, 82, 8, 64),
+    (150, 256, 16, 64),
+    (64, 256, 12, 64),
+    # Stable diffusion (https://github.com/huggingface/diffusers/pull/532)
+    (1, 4096, 16, 40),  # 512x512
+    (1, 16384, 16, 40),  # 1024x1024
+    (1, 4096, 16, 80),
+    #(1, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
+    # + bs4
+    (4, 4096, 16, 40),
+    #(4, 16384, 16, 40),  // disabled on MI250 due to big memory requirement
+    (4, 4096, 16, 80),
+    #(4, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
+    # ParlAI model
+    #(256, 4096, 16, 64), // disabled on MI250 due to big memory requirement
+    # Zetta B M H K
+    (8, 2048, 20, 128),
+    # LLaMa 70b - mp=8/16
+    *sorted(itertools.product([1, 2], [2048, 4096, 8192], [4, 8], [128])),
+    *sorted(
+        ##itertools.product([16], [128, 512, 1024], [16], [16, 32, 64, 128, 160, 256])
+        ## disabled K/Kv bigger than 128
+        itertools.product([16], [128, 512, 1024], [16], [16, 32, 64, 128])
+    ),
+]
+
+OPS = [
+    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
+    #(xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
+    # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
+    # and its performance varies a lot between runs.
+    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
+]
+
+
+def product_dict(**kwargs):
+    keys = kwargs.keys()
+    vals = kwargs.values()
+    for instance in itertools.product(*vals):
+        yield dict(zip(keys, instance))
+
+
+CASES = list(
+    product_dict(
+        shape=SHAPES,
+        num_threads=NUM_THREADS,
+        dropout_p=[0.0],
+        attn_bias_cfg=[(type(None), False)],
+        dtype=[torch.half],
+    )
+)
+
+# Add more cases with some variations
+for c in CASES.copy():
+    c = c.copy()
+    c.update(
+        random.Random(str(c["shape"])).choice(
+            [
+                {"dropout_p": 0.3},
+                {"attn_bias_cfg": (torch.Tensor, False)},
+                {"attn_bias_cfg": (torch.Tensor, True)},
+                {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
+                {"dtype": torch.bfloat16},
+                ##{"dtype": torch.float},
+            ]
+        )
+    )
+    CASES.append(c)
+
+
+def create_tensors(shape, dtype, requires_grad=False):
+    B, M, H, K = shape
+    qkv = torch.rand(
+        [B, M, 3, H, K], device=device, dtype=dtype, requires_grad=requires_grad
+    )
+    q, k, v = xformers.ops.unbind(qkv, 2)
+    return qkv, q, k, v
+
+def create_discrete_tensors(shape, dtype, requires_grad=False):
+    B, M, H, K = shape
+    q = torch.rand([B, M, H, K], device=device, dtype=dtype, requires_grad=requires_grad)
+    k = torch.rand([B, M, H, K], device=device, dtype=dtype, requires_grad=requires_grad)
+    v = torch.rand([B, M, H, K], device=device, dtype=dtype, requires_grad=requires_grad)
+
+    return q, k, v
+
+def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+    B, M, H, K = shape
+    _, q, k, v = create_tensors(shape, dtype)
+    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
+    if attn_bias_requires_grad:
+        return
+    bias = create_attn_bias(
+        attn_bias_type,
+        batch_size=B,
+        num_heads=H,
+        q_len=M,
+        kv_len=M,
+        device=device,
+        dtype=dtype,
+        bias_requires_grad=attn_bias_requires_grad,
+    )
+    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+
+    dtype_str = {
+        torch.bfloat16: "b16",
+        torch.half: "f16",
+        torch.float: "f32",
+    }[dtype]
+    sub_label = (
+        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
+        f"BiasT={attn_bias_type.__name__}"
+    )
+
+    has_run = False
+    for fw_op, bw_op in OPS:
+        if not fw_op.supports(inp):
+            continue
+
+        yield benchmark.Timer(
+            stmt="fn(q, k, v, attn_bias, p)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": inp.attn_bias,
+                "p": dropout_p,
+                "fn": partial(
+                    xformers.ops.memory_efficient_attention, op=(fw_op, bw_op)
+                ),
+            },
+            label=f"attention (attn_bias={attn_bias_type})",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+        has_run = True
+
+    if not has_run:
+        return
+
+    yield benchmark.Timer(
+        stmt="fn(q, k, v, attn_bias, p)",
+        globals={
+            "q": q,
+            "k": k,
+            "v": v,
+            "attn_bias": inp.attn_bias,
+            "p": dropout_p,
+            "fn": ref_attention,
+        },
+        label=f"attention (attn_bias={attn_bias_type})",
+        description="eager",
+        sub_label=sub_label,
+        num_threads=num_threads,
+    )
+
+
+def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+    B, M, H, K = shape
+    _, q, k, v = create_tensors(shape, dtype, requires_grad=True)
+
+    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
+    bias = create_attn_bias(
+        attn_bias_type,
+        batch_size=B,
+        num_heads=H,
+        q_len=M,
+        kv_len=M,
+        device=device,
+        dtype=dtype,
+        bias_requires_grad=attn_bias_requires_grad,
+    )
+    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+
+    dtype_str = {
+        torch.bfloat16: "b16",
+        torch.half: "f16",
+        torch.float: "f32",
+    }[dtype]
+    sub_label = (
+        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
+        f"BiasT={attn_bias_type.__name__}, BiasGrad={attn_bias_requires_grad}"
+    )
+
+    has_run = False
+    for fw_op, bw_op in OPS:
+        if not fw_op.supports(inp) or not bw_op.supports(inp):
+            continue
+        has_run = True
+        out = xformers.ops.memory_efficient_attention(
+            inp.query, inp.key, inp.value, inp.attn_bias, inp.p, op=(fw_op, bw_op)
+        )
+        grad_benchmark = torch.ones_like(q)
+
+        yield benchmark.Timer(
+            stmt="out.backward(grad, retain_graph=True)",
+            globals={
+                "out": out,
+                "grad": grad_benchmark,
+            },
+            label=f"attention backward (attn_bias={attn_bias_type})",
+            description=bw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+        del out
+
+    if not has_run:
+        return
+    yield benchmark.Timer(
+        stmt="out.backward(grad, retain_graph=True)",
+        globals={
+            "out": ref_attention(q, k, v, inp.attn_bias, dropout_p),
+            "grad": grad_benchmark,
+        },
+        label=f"attention backward (attn_bias={attn_bias_type})",
+        description="vanilla",
+        sub_label=sub_label,
+        num_threads=num_threads,
+    )
+
+benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
+benchmark_main_helper(mem_eff_attention_bw, CASES, min_run_time=min_run_time)

From 56e936f38dc1cfdcc0f3a8439db2aac4370e941d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 18:09:58 +0000
Subject: [PATCH 078/837] Using classes for dispatched execution

---
 .../hip_fmha/ck_fmha_batched_backward.h       | 367 ++++++++---------
 .../ck_fmha_batched_backward_bp16.cpp         |  12 +-
 .../ck_fmha_batched_backward_fp16.cpp         |  12 +-
 .../hip_fmha/ck_fmha_batched_forward.h        | 383 ++++++++---------
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp |  12 +-
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp |  12 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       | 377 ++++++++---------
 .../ck_fmha_grouped_backward_bp16.cpp         |  12 +-
 .../ck_fmha_grouped_backward_fp16.cpp         |  12 +-
 .../hip_fmha/ck_fmha_grouped_forward.h        | 388 +++++++++---------
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp |  12 +-
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp |  12 +-
 12 files changed, 807 insertions(+), 804 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 601fdbff21..f87e3fda3e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -13,9 +13,7 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void batched_backward_masktype_attnbias_dispatched(
-    BatchedBackwardParams& param,
-    hipStream_t stream) {
+struct batched_backward_masktype_attnbias_dispatched {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
   using Scale = ck::tensor_operation::element_wise::Scale;
 
@@ -58,185 +56,188 @@ void batched_backward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
-  // Tunables
-  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
-
-  using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
-          InputDataType,
-          OutputDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          ShuffleDataType,
-          QKVElementOp,
-          QKVElementOp,
-          Scale,
-          QKVElementOp,
-          YElementOp,
-          GemmSpec,
-          TensorSpecQ,
-          TensorSpecK,
-          TensorSpecV,
-          TensorSpecY,
-          1,
-          256,
-          64, // MPerBlock
-          128, // NPerBlock
-          128, // KPerBlock
-          128, // Gemm1NPerBlock
-          32, // Gemm1KPerBlock
-          64, // Gemm2KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // A1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          2, // MXdlPerWave
-          1, // NXdlPerWave
-          4, // Gemm1NXdlPerWave
-          1, // Gemm2NXdlPerWave
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // B0BlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-          S<8, 32, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
-          4, // CShuffleNXdlPerWavePerShuffle
-          S<1, 32, 1, 8>,
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          MaskingSpec,
-          Deterministic>;
-
-  std::vector<ck::index_t> q_gs_ms_ks_lengths{
-      param.B, param.num_heads, param.M, param.K};
-  std::vector<ck::index_t> q_gs_ms_ks_strides{
-      param.q_strides[0],
-      param.q_strides[2],
-      param.q_strides[1],
-      param.q_strides[3]};
-
-  std::vector<ck::index_t> k_gs_ns_ks_lengths{
-      param.B, param.num_heads, param.N, param.K};
-  std::vector<ck::index_t> k_gs_ns_ks_strides{
-      param.k_strides[0],
-      param.k_strides[2],
-      param.k_strides[1],
-      param.k_strides[3]};
-
-  std::vector<ck::index_t> v_gs_os_ns_lengths{
-      param.B, param.num_heads, param.Kv, param.N};
-  std::vector<ck::index_t> v_gs_os_ns_strides{
-      param.v_strides[0],
-      param.v_strides[2],
-      param.v_strides[3],
-      param.v_strides[1]};
-
-  std::vector<ck::index_t> y_gs_ms_os_lengths{
-      param.B, param.num_heads, param.M, param.Kv};
-  std::vector<ck::index_t> y_gs_ms_os_strides{
-      param.out_strides[0],
-      param.out_strides[2],
-      param.out_strides[1],
-      param.out_strides[3]};
-
-  std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
-
-  std::vector<ck::index_t> d_gs_ms_ns_lengths;
-  std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-  if constexpr (has_attn_bias) {
-    d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
-    d_gs_ms_ns_strides = {
-        param.attn_bias_strides[0],
-        param.attn_bias_strides[1],
-        param.attn_bias_strides[2],
-        param.attn_bias_strides[3]};
-  } else {
-    d_gs_ms_ns_lengths = {1, 1, 1, 1};
-    d_gs_ms_ns_strides = {0, 0, 0, 0};
+  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
+    // Tunables
+    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
+    using DeviceOpInstance = ck::tensor_operation::device::
+        DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+            NumDimG,
+            NumDimM,
+            NumDimN,
+            NumDimK,
+            NumDimO,
+            InputDataType,
+            OutputDataType,
+            GemmDataType,
+            ZDataType,
+            LSEDataType,
+            Acc0BiasDataType,
+            Acc1BiasDataType,
+            AccDataType,
+            ShuffleDataType,
+            QKVElementOp,
+            QKVElementOp,
+            Scale,
+            QKVElementOp,
+            YElementOp,
+            GemmSpec,
+            TensorSpecQ,
+            TensorSpecK,
+            TensorSpecV,
+            TensorSpecY,
+            1,
+            256,
+            64, // MPerBlock
+            128, // NPerBlock
+            128, // KPerBlock
+            128, // Gemm1NPerBlock
+            32, // Gemm1KPerBlock
+            64, // Gemm2KPerBlock
+            8, // AK1
+            8, // BK1
+            2, // A1K1
+            32, // MPerXDL
+            32, // NPerXDL
+            2, // MXdlPerWave
+            1, // NXdlPerWave
+            4, // Gemm1NXdlPerWave
+            1, // Gemm2NXdlPerWave
+            S<4, 64, 1>, // ABlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            S<4, 64, 1>, // B0BlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+            S<8, 32, 1>, // B1BlockTransfer
+            S<0, 2, 1>,
+            S<0, 2, 1>,
+            1,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            2,
+            false,
+            1, // CShuffleMXdlPerWavePerShuffle
+            4, // CShuffleNXdlPerWavePerShuffle
+            S<1, 32, 1, 8>,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            MaskingSpec,
+            Deterministic>;
+
+    std::vector<ck::index_t> q_gs_ms_ks_lengths{
+        param.B, param.num_heads, param.M, param.K};
+    std::vector<ck::index_t> q_gs_ms_ks_strides{
+        param.q_strides[0],
+        param.q_strides[2],
+        param.q_strides[1],
+        param.q_strides[3]};
+
+    std::vector<ck::index_t> k_gs_ns_ks_lengths{
+        param.B, param.num_heads, param.N, param.K};
+    std::vector<ck::index_t> k_gs_ns_ks_strides{
+        param.k_strides[0],
+        param.k_strides[2],
+        param.k_strides[1],
+        param.k_strides[3]};
+
+    std::vector<ck::index_t> v_gs_os_ns_lengths{
+        param.B, param.num_heads, param.Kv, param.N};
+    std::vector<ck::index_t> v_gs_os_ns_strides{
+        param.v_strides[0],
+        param.v_strides[2],
+        param.v_strides[3],
+        param.v_strides[1]};
+
+    std::vector<ck::index_t> y_gs_ms_os_lengths{
+        param.B, param.num_heads, param.M, param.Kv};
+    std::vector<ck::index_t> y_gs_ms_os_strides{
+        param.out_strides[0],
+        param.out_strides[2],
+        param.out_strides[1],
+        param.out_strides[3]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{
+        param.B, param.num_heads, param.M};
+
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+      d_gs_ms_ns_strides = {
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    };
+
+    float alpha = param.scale;
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptr,
+        param.k_ptr,
+        nullptr, // p_z_grid
+        param.v_ptr,
+        param.out_ptr,
+        param.logsumexp_ptr,
+        param.grad_out_ptr,
+        param.grad_q_ptr,
+        param.grad_k_ptr,
+        param.grad_v_ptr,
+        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+        nullptr, // p_acc1_bias
+        param.bias_has_grad ? param.grad_bias_ptr : nullptr,
+        nullptr,
+        q_gs_ms_ks_lengths, // q, dQ should have same shape
+        q_gs_ms_ks_strides,
+        k_gs_ns_ks_lengths, // k, dK should have same shape
+        k_gs_ns_ks_strides,
+        {1, 1, 1, 1}, // z_gs_ms_ns_lengths
+        {0, 0, 0, 0}, // z_gs_ms_ns_strides
+        v_gs_os_ns_lengths, // v, dV should have same shape
+        v_gs_os_ns_strides,
+        y_gs_ms_os_lengths, // y, dY should have same shape
+        y_gs_ms_os_strides,
+        lse_gs_ms_lengths,
+        d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides
+        QKVElementOp{},
+        QKVElementOp{},
+        Scale{alpha},
+        QKVElementOp{},
+        YElementOp{},
+        param.dropout_prob,
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
-
-  float alpha = param.scale;
-
-  auto op = DeviceOpInstance{};
-  auto invoker = op.MakeInvoker();
-
-  auto arg_ptr = op.MakeArgumentPointer(
-      param.q_ptr,
-      param.k_ptr,
-      nullptr, // p_z_grid
-      param.v_ptr,
-      param.out_ptr,
-      param.logsumexp_ptr,
-      param.grad_out_ptr,
-      param.grad_q_ptr,
-      param.grad_k_ptr,
-      param.grad_v_ptr,
-      param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-      nullptr, // p_acc1_bias
-      param.bias_has_grad ? param.grad_bias_ptr : nullptr,
-      nullptr,
-      q_gs_ms_ks_lengths, // q, dQ should have same shape
-      q_gs_ms_ks_strides,
-      k_gs_ns_ks_lengths, // k, dK should have same shape
-      k_gs_ns_ks_strides,
-      {1, 1, 1, 1}, // z_gs_ms_ns_lengths
-      {0, 0, 0, 0}, // z_gs_ms_ns_strides
-      v_gs_os_ns_lengths, // v, dV should have same shape
-      v_gs_os_ns_strides,
-      y_gs_ms_os_lengths, // y, dY should have same shape
-      y_gs_ms_os_strides,
-      lse_gs_ms_lengths,
-      d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-      d_gs_ms_ns_strides,
-      {}, // acc1_biases_gs_ms_os_lengths
-      {}, // acc1_biases_gs_ms_os_strides
-      QKVElementOp{},
-      QKVElementOp{},
-      Scale{alpha},
-      QKVElementOp{},
-      YElementOp{},
-      param.dropout_prob,
-      std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-  if (!op.IsSupportedArgument(arg_ptr.get())) {
-    std::ostringstream ostr;
-    ostr << op.GetTypeString() << " does not support this problem";
-
-    throw std::runtime_error(ostr.str());
-  }
-
-  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 9d55a2d6ea..8f23dc9b39 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -6,24 +6,24 @@
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
           param, stream);
     else
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
           param, stream);
     else
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
           param, stream);
     else
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(
+      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index 77dd96de41..dd77a559af 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -6,24 +6,24 @@
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
           param, stream);
     else
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
           param, stream);
     else
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
           param, stream);
     else
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index e6015c6bc4..b58e1443be 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -13,9 +13,7 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void batched_forward_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream) {
+struct batched_forward_masktype_attnbias_dispatched {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
 
   using GemmDataType = scalar_t;
@@ -59,194 +57,197 @@ void batched_forward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
-  // Tunables
-  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
-
-  using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
-          64, // Gemm1NPerBlock
-          32, // Gemm1KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
-          2, // Gemm1NXdlPerWave
-          1, // DropoutStep
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-          S<16, 16, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
-          2, // CShuffleNXdlPerWavePerShuffle
-          S<1,
-            32,
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    // Tunables
+    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
+    using DeviceOpInstance = ck::tensor_operation::device::
+        DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
+            NumDimG,
+            NumDimM,
+            NumDimN,
+            NumDimK,
+            NumDimO,
+            ADataType,
+            B0DataType,
+            B1DataType,
+            CDataType,
+            GemmDataType,
+            ZDataType,
+            LSEDataType,
+            Acc0BiasDataType,
+            Acc1BiasDataType,
+            AccDataType,
+            CShuffleDataType,
+            AElementOp,
+            B0ElementOp,
+            Acc0ElementOp,
+            B1ElementOp,
+            CElementOp,
+            GemmSpec,
+            TensorSpecA,
+            TensorSpecB0,
+            TensorSpecB1,
+            TensorSpecC,
             1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          4,
-          MaskingSpec, // MaskingSpecialization
-          Deterministic>;
-
-  std::vector<ck::index_t> a_gs_ms_ks_lengths{
-      param.B, param.num_heads, param.M, param.K};
-  std::vector<ck::index_t> a_gs_ms_ks_strides{
-      param.q_strides[0],
-      param.q_strides[2],
-      param.q_strides[1],
-      param.q_strides[3]};
-
-  std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-      param.B, param.num_heads, param.N, param.K};
-  std::vector<ck::index_t> b0_gs_ns_ks_strides{
-      param.k_strides[0],
-      param.k_strides[2],
-      param.k_strides[1],
-      param.k_strides[3]};
-
-  // to be changed to b1_gs_ns_os_lengths
-  std::vector<ck::index_t> b1_gs_os_ns_lengths{
-      param.B, param.num_heads, param.Kv, param.N};
-  std::vector<ck::index_t> b1_gs_os_ns_strides{
-      param.v_strides[0],
-      param.v_strides[2],
-      param.v_strides[3],
-      param.v_strides[1]};
-
-  std::vector<ck::index_t> c_gs_ms_os_lengths{
-      param.B, param.num_heads, param.M, param.Kv};
-  std::vector<ck::index_t> c_gs_ms_os_strides{
-      param.out_strides[0],
-      param.out_strides[2],
-      param.out_strides[1],
-      param.out_strides[3]};
-
-  std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.num_heads, param.M};
-
-  std::vector<ck::index_t> d_gs_ms_ns_lengths;
-  std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-  if constexpr (has_attn_bias) {
-    d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
-    d_gs_ms_ns_strides = {
-        param.attn_bias_strides[0],
-        param.attn_bias_strides[1],
-        param.attn_bias_strides[2],
-        param.attn_bias_strides[3]};
-  } else {
-    d_gs_ms_ns_lengths = {1, 1, 1, 1};
-    d_gs_ms_ns_strides = {0, 0, 0, 0};
+            256,
+            128, // MPerBlock
+            128, // NPerBlock
+            32, // KPerBlock
+            64, // Gemm1NPerBlock
+            32, // Gemm1KPerBlock
+            8, // AK1
+            8, // BK1
+            2, // B1K1
+            32, // MPerXDL
+            32, // NPerXDL
+            1, // MXdlPerWave
+            4, // NXdlPerWave
+            2, // Gemm1NXdlPerWave
+            1, // DropoutStep
+            S<4, 64, 1>, // ABlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            S<4, 64, 1>, // BBlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+            S<16, 16, 1>, // B1BlockTransfer
+            S<0, 2, 1>,
+            S<0, 2, 1>,
+            1,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            2,
+            false,
+            1, // CShuffleMXdlPerWavePerShuffle
+            2, // CShuffleNXdlPerWavePerShuffle
+            S<1,
+              32,
+              1,
+              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            4,
+            MaskingSpec, // MaskingSpecialization
+            Deterministic>;
+
+    std::vector<ck::index_t> a_gs_ms_ks_lengths{
+        param.B, param.num_heads, param.M, param.K};
+    std::vector<ck::index_t> a_gs_ms_ks_strides{
+        param.q_strides[0],
+        param.q_strides[2],
+        param.q_strides[1],
+        param.q_strides[3]};
+
+    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
+        param.B, param.num_heads, param.N, param.K};
+    std::vector<ck::index_t> b0_gs_ns_ks_strides{
+        param.k_strides[0],
+        param.k_strides[2],
+        param.k_strides[1],
+        param.k_strides[3]};
+
+    // to be changed to b1_gs_ns_os_lengths
+    std::vector<ck::index_t> b1_gs_os_ns_lengths{
+        param.B, param.num_heads, param.Kv, param.N};
+    std::vector<ck::index_t> b1_gs_os_ns_strides{
+        param.v_strides[0],
+        param.v_strides[2],
+        param.v_strides[3],
+        param.v_strides[1]};
+
+    std::vector<ck::index_t> c_gs_ms_os_lengths{
+        param.B, param.num_heads, param.M, param.Kv};
+    std::vector<ck::index_t> c_gs_ms_os_strides{
+        param.out_strides[0],
+        param.out_strides[2],
+        param.out_strides[1],
+        param.out_strides[3]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{
+        param.B, param.num_heads, param.M};
+
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+      d_gs_ms_ns_strides = {
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    };
+
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptr,
+        param.k_ptr,
+        param.v_ptr,
+        param.out_ptr,
+        nullptr,
+        param.logsumexp_ptr,
+        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+        {}, // p_acc1_biases;
+        a_gs_ms_ks_lengths,
+        a_gs_ms_ks_strides,
+        b0_gs_ns_ks_lengths,
+        b0_gs_ns_ks_strides,
+        b1_gs_os_ns_lengths,
+        b1_gs_os_ns_strides,
+        c_gs_ms_os_lengths,
+        c_gs_ms_os_strides,
+        {1, 1, 1, 1},
+        {0, 0, 0, 0},
+        lse_gs_ms_lengths,
+        d_gs_ms_ns_lengths,
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op,
+        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+        std::tuple<int64_t, int64_t>(
+            param.philox_seed,
+            param.philox_offset)); // dropout random seed and offset
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
-
-  float alpha = param.scale;
-
-  auto a_element_op = AElementOp{};
-  auto b0_element_op = B0ElementOp{};
-  auto acc0_element_op = Acc0ElementOp{alpha};
-  auto b1_element_op = B1ElementOp{};
-  auto c_element_op = CElementOp{};
-
-  auto op = DeviceOpInstance{};
-  auto invoker = op.MakeInvoker();
-
-  auto arg_ptr = op.MakeArgumentPointer(
-      param.q_ptr,
-      param.k_ptr,
-      param.v_ptr,
-      param.out_ptr,
-      nullptr,
-      param.logsumexp_ptr,
-      param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-      {}, // p_acc1_biases;
-      a_gs_ms_ks_lengths,
-      a_gs_ms_ks_strides,
-      b0_gs_ns_ks_lengths,
-      b0_gs_ns_ks_strides,
-      b1_gs_os_ns_lengths,
-      b1_gs_os_ns_strides,
-      c_gs_ms_os_lengths,
-      c_gs_ms_os_strides,
-      {1, 1, 1, 1},
-      {0, 0, 0, 0},
-      lse_gs_ms_lengths,
-      d_gs_ms_ns_lengths,
-      d_gs_ms_ns_strides,
-      {}, // acc1_biases_gs_ms_os_lengths
-      {}, // acc1_biases_gs_ms_os_strides,
-      a_element_op,
-      b0_element_op,
-      acc0_element_op,
-      b1_element_op,
-      c_element_op,
-      param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-      std::tuple<int64_t, int64_t>(
-          param.philox_seed,
-          param.philox_offset)); // dropout random seed and offset
-
-  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-  if (!op.IsSupportedArgument(arg_ptr.get())) {
-    std::ostringstream ostr;
-
-    ostr << op.GetTypeString() << " does not support this problem";
-
-    throw std::runtime_error(ostr.str());
-  }
-
-  invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 10bf8ee59f..7be431c387 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -6,24 +6,24 @@
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
           param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
           param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
           param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(
+      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index ea11d170aa..543a2c2536 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -6,24 +6,24 @@
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
           param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
           param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
           param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index e442ae8c1d..74e0a8a496 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -14,9 +14,7 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void grouped_backward_masktype_attnbias_dispatched(
-    GroupedBackwardParams& param,
-    hipStream_t stream) {
+struct grouped_backward_masktype_attnbias_dispatched {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
   using Scale = ck::tensor_operation::element_wise::Scale;
 
@@ -59,189 +57,192 @@ void grouped_backward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
-  // Tunables
-  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1; // 8
-  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1; // 4
-  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1; // 4
-
-  using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
-          InputDataType,
-          OutputDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          ShuffleDataType,
-          QKVElementOp,
-          QKVElementOp,
-          Scale,
-          QKVElementOp,
-          YElementOp,
-          GemmSpec,
-          TensorSpecQ,
-          TensorSpecK,
-          TensorSpecV,
-          TensorSpecY,
-          1,
-          256,
-          64, // MPerBlock
-          128, // NPerBlock
-          128, // KPerBlock
-          128, // Gemm1NPerBlock
-          32, // Gemm1KPerBlock
-          64, // Gemm2KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          2, // MXdlPerWave
-          1, // NXdlPerWave
-          4, // Gemm1NXdlPerWave
-          1, // Gemm2NXdlPerWave
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // B0BlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-          S<8, 32, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
-          4, // CShuffleNXdlPerWavePerShuffle
-          S<1, 32, 1, 8>,
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          MaskingSpec,
-          Deterministic>;
-
-  std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-  for (std::size_t i = 0; i < param.num_batches; i++) {
-    int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
-    int N = param.host_seqlen_k.empty()
-        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-        : param.host_seqlen_k[i];
-    int K = param.K;
-    int Kv = param.Kv;
-    int G1 = param.num_heads;
-
-    std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1, M, K};
-    std::vector<ck::index_t> q_gs_ms_ks_strides{
-        0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-    std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1, N, K};
-    std::vector<ck::index_t> k_gs_ns_ks_strides{
-        0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-    // to be changed to v_gs_ns_os_lengths
-    std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1, Kv, N};
-    std::vector<ck::index_t> v_gs_os_ns_strides{
-        0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-    std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1, M, Kv};
-    std::vector<ck::index_t> y_gs_ms_os_strides{
-        0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
-    std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {1, G1, M, N};
-      d_gs_ms_ns_strides = {
-          0,
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2]};
-
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
-    };
-
-    problem_descs.push_back({
-        q_gs_ms_ks_lengths, // q, dQ should have same shape
-        q_gs_ms_ks_strides,
-        k_gs_ns_ks_lengths, // k, dK should have same shape
-        k_gs_ns_ks_strides,
-        {1, 1, 1, 1},
-        {0, 0, 0, 0},
-        v_gs_os_ns_lengths, // v, dV should have same shape
-        v_gs_os_ns_strides,
-        y_gs_ms_os_lengths, // y, dY should have same shape
-        y_gs_ms_os_strides,
-        lse_gs_ms_lengths,
-        lse_gs_ms_strides,
-        d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides
-    });
-  }
-
-  float alpha = param.scale;
-
-  auto op = DeviceOpInstance{};
-  auto invoker = op.MakeInvoker();
-
-  auto arg_ptr = op.MakeArgumentPointer(
-      param.q_ptrs,
-      param.k_ptrs,
-      param.randvals_ptrs,
-      param.v_ptrs,
-      param.out_ptrs,
-      param.logsumexp_ptrs,
-      param.grad_out_ptrs,
-      param.grad_q_ptrs,
-      param.grad_k_ptrs,
-      param.grad_v_ptrs,
-      param.attn_bias_ptrs,
-      {}, // p_acc1_bias_vec;
-      param.grad_bias_ptrs,
-      {},
-      problem_descs,
-      QKVElementOp{},
-      QKVElementOp{},
-      Scale{alpha},
-      QKVElementOp{},
-      YElementOp{},
-      param.dropout_prob,
-      std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-  SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-  if (!op.IsSupportedArgument(arg_ptr.get())) {
-    std::ostringstream ostr;
-    ostr << op.GetTypeString() << " does not support this problem";
-
-    throw std::runtime_error(ostr.str());
-  }
-
-  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
+    // Tunables
+    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1; // 8
+    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1; // 4
+    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1; // 4
+
+    using DeviceOpInstance = ck::tensor_operation::device::
+        DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+            NumDimG,
+            NumDimM,
+            NumDimN,
+            NumDimK,
+            NumDimO,
+            InputDataType,
+            OutputDataType,
+            GemmDataType,
+            ZDataType,
+            LSEDataType,
+            Acc0BiasDataType,
+            Acc1BiasDataType,
+            AccDataType,
+            ShuffleDataType,
+            QKVElementOp,
+            QKVElementOp,
+            Scale,
+            QKVElementOp,
+            YElementOp,
+            GemmSpec,
+            TensorSpecQ,
+            TensorSpecK,
+            TensorSpecV,
+            TensorSpecY,
+            1,
+            256,
+            64, // MPerBlock
+            128, // NPerBlock
+            128, // KPerBlock
+            128, // Gemm1NPerBlock
+            32, // Gemm1KPerBlock
+            64, // Gemm2KPerBlock
+            8, // AK1
+            8, // BK1
+            2, // B1K1
+            32, // MPerXDL
+            32, // NPerXDL
+            2, // MXdlPerWave
+            1, // NXdlPerWave
+            4, // Gemm1NXdlPerWave
+            1, // Gemm2NXdlPerWave
+            S<4, 64, 1>, // ABlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            S<4, 64, 1>, // B0BlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+            S<8, 32, 1>, // B1BlockTransfer
+            S<0, 2, 1>,
+            S<0, 2, 1>,
+            1,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            2,
+            false,
+            1, // CShuffleMXdlPerWavePerShuffle
+            4, // CShuffleNXdlPerWavePerShuffle
+            S<1, 32, 1, 8>,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            MaskingSpec,
+            Deterministic>;
+
+    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+    for (std::size_t i = 0; i < param.num_batches; i++) {
+      int M =
+          param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
+      int N = param.host_seqlen_k.empty()
+          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+          : param.host_seqlen_k[i];
+      int K = param.K;
+      int Kv = param.Kv;
+      int G1 = param.num_heads;
+
+      std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1, M, K};
+      std::vector<ck::index_t> q_gs_ms_ks_strides{
+          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+      std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1, N, K};
+      std::vector<ck::index_t> k_gs_ns_ks_strides{
+          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+      // to be changed to v_gs_ns_os_lengths
+      std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1, Kv, N};
+      std::vector<ck::index_t> v_gs_os_ns_strides{
+          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+      std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1, M, Kv};
+      std::vector<ck::index_t> y_gs_ms_os_strides{
+          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+      std::vector<ck::index_t> d_gs_ms_ns_lengths;
+      std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+      if constexpr (has_attn_bias) {
+        d_gs_ms_ns_lengths = {1, G1, M, N};
+        d_gs_ms_ns_strides = {
+            0,
+            param.attn_bias_strides[0],
+            param.attn_bias_strides[1],
+            param.attn_bias_strides[2]};
+
+      } else {
+        d_gs_ms_ns_lengths = {1, 1, 1, 1};
+        d_gs_ms_ns_strides = {0, 0, 0, 0};
+      };
+
+      problem_descs.push_back({
+          q_gs_ms_ks_lengths, // q, dQ should have same shape
+          q_gs_ms_ks_strides,
+          k_gs_ns_ks_lengths, // k, dK should have same shape
+          k_gs_ns_ks_strides,
+          {1, 1, 1, 1},
+          {0, 0, 0, 0},
+          v_gs_os_ns_lengths, // v, dV should have same shape
+          v_gs_os_ns_strides,
+          y_gs_ms_os_lengths, // y, dY should have same shape
+          y_gs_ms_os_strides,
+          lse_gs_ms_lengths,
+          lse_gs_ms_strides,
+          d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
+          d_gs_ms_ns_strides,
+          {}, // acc1_biases_gs_ms_os_lengths
+          {}, // acc1_biases_gs_ms_os_strides
+      });
+    }
+
+    float alpha = param.scale;
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptrs,
+        param.k_ptrs,
+        param.randvals_ptrs,
+        param.v_ptrs,
+        param.out_ptrs,
+        param.logsumexp_ptrs,
+        param.grad_out_ptrs,
+        param.grad_q_ptrs,
+        param.grad_k_ptrs,
+        param.grad_v_ptrs,
+        param.attn_bias_ptrs,
+        {}, // p_acc1_bias_vec;
+        param.grad_bias_ptrs,
+        {},
+        problem_descs,
+        QKVElementOp{},
+        QKVElementOp{},
+        Scale{alpha},
+        QKVElementOp{},
+        YElementOp{},
+        param.dropout_prob,
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index dbee4f9e09..5a9c50ba5f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -6,25 +6,25 @@
 void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
           param, stream);
     else
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
           param, stream);
     else
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
           param, stream);
 
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
           param, stream);
     else
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index dd0c0f1b84..450632bd38 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -6,24 +6,24 @@
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
           param, stream);
     else
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
           param, stream);
     else
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
           param, stream);
     else
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 4ce28c964d..9996647270 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -14,9 +14,7 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void grouped_forward_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream) {
+struct grouped_forward_masktype_attnbias_dispatched {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
 
   using GemmDataType = scalar_t;
@@ -60,196 +58,198 @@ void grouped_forward_masktype_attnbias_dispatched(
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = false;
 
-  // Tunables
-  static constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-  static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
-
-  using DeviceOpInstance = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
-          128, // Gemm1NPerBlock
-          32, // Gemm1KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
-          4, // Gemm1NXdlPerWave
-          1, // DropoutStep
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          ABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          Acc0BiasTransferSrcScalarPerVector,
-          S<8, 32, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
-          2, // CShuffleNXdlPerWavePerShuffle
-          S<1,
-            32,
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    // Tunables
+    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
+    using DeviceOpInstance = ck::tensor_operation::device::
+        DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
+            NumDimG,
+            NumDimM,
+            NumDimN,
+            NumDimK,
+            NumDimO,
+            ADataType,
+            B0DataType,
+            B1DataType,
+            CDataType,
+            GemmDataType,
+            ZDataType,
+            LSEDataType,
+            Acc0BiasDataType,
+            Acc1BiasDataType,
+            AccDataType,
+            CShuffleDataType,
+            AElementOp,
+            B0ElementOp,
+            Acc0ElementOp,
+            B1ElementOp,
+            CElementOp,
+            GemmSpec,
+            TensorSpecA,
+            TensorSpecB0,
+            TensorSpecB1,
+            TensorSpecC,
             1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-          1,
-          MaskingSpec, // MaskingSpecialization
-          Deterministic>;
-
-  std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-  for (std::size_t i = 0; i < param.num_batches; i++) {
-    int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-    int N = param.host_seqlen_k.empty()
-        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-        : param.host_seqlen_k[i];
-    int K = param.K;
-    int Kv = param.Kv;
-    int G1 = param.num_heads;
-
-    std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
-    std::vector<ck::index_t> a_gs_ms_ks_strides{
-        0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-    std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1, N, K};
-    std::vector<ck::index_t> b0_gs_ns_ks_strides{
-        0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-    // to be changed to b1_gs_ns_os_lengths
-    std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1, Kv, N};
-    std::vector<ck::index_t> b1_gs_os_ns_strides{
-        0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-    std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1, M, Kv};
-    std::vector<ck::index_t> c_gs_ms_os_strides{
-        0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
-    std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {1, G1, M, N};
-      d_gs_ms_ns_strides = {
-          0,
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2]};
-
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
-    };
-
-    problem_descs.push_back(
-        {a_gs_ms_ks_lengths,
-         a_gs_ms_ks_strides,
-         b0_gs_ns_ks_lengths,
-         b0_gs_ns_ks_strides,
-         b1_gs_os_ns_lengths,
-         b1_gs_os_ns_strides,
-         c_gs_ms_os_lengths,
-         c_gs_ms_os_strides,
-         {1, 1, 1, 1},
-         {0, 0, 0, 0},
-         lse_gs_ms_lengths,
-         lse_gs_ms_strides,
-         d_gs_ms_ns_lengths,
-         d_gs_ms_ns_strides,
-         {}, // acc1_bias_gs_ms_os_lengths
-         {}}); // acc1_bias_gs_ms_os_strides
-  }
-
-  float alpha = param.scale;
-
-  auto a_element_op = AElementOp{};
-  auto b0_element_op = B0ElementOp{};
-  auto acc0_element_op = Acc0ElementOp{alpha};
-  auto b1_element_op = B1ElementOp{};
-  auto c_element_op = CElementOp{};
-
-  auto op = DeviceOpInstance{};
-  auto invoker = op.MakeInvoker();
-
-  auto arg_ptr = op.MakeArgumentPointer(
-      param.q_ptrs,
-      param.k_ptrs,
-      param.v_ptrs,
-      param.out_ptrs,
-      param.randvals_ptrs,
-      param.logsumexp_ptrs,
-      param.attn_bias_ptrs,
-      {}, // p_acc1_biases
-      problem_descs,
-      a_element_op,
-      b0_element_op,
-      acc0_element_op,
-      b1_element_op,
-      c_element_op,
-      param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-      std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-  auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-  SimpleDeviceMem workspace(sizeInBytes);
-
-  op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-  if (!op.IsSupportedArgument(arg_ptr.get())) {
-    std::ostringstream ostr;
-
-    ostr << op.GetTypeString() << " does not support this problem";
-
-    throw std::runtime_error(ostr.str());
-  }
-
-  (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+            256,
+            128, // MPerBlock
+            128, // NPerBlock
+            32, // KPerBlock
+            128, // Gemm1NPerBlock
+            32, // Gemm1KPerBlock
+            8, // AK1
+            8, // BK1
+            2, // B1K1
+            32, // MPerXDL
+            32, // NPerXDL
+            1, // MXdlPerWave
+            4, // NXdlPerWave
+            4, // Gemm1NXdlPerWave
+            1, // DropoutStep
+            S<4, 64, 1>, // ABlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            S<4, 64, 1>, // BBlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            Acc0BiasTransferSrcScalarPerVector,
+            S<8, 32, 1>, // B1BlockTransfer
+            S<0, 2, 1>,
+            S<0, 2, 1>,
+            1,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            2,
+            false,
+            1, // CShuffleMXdlPerWavePerShuffle
+            2, // CShuffleNXdlPerWavePerShuffle
+            S<1,
+              32,
+              1,
+              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            1,
+            MaskingSpec, // MaskingSpecialization
+            Deterministic>;
+
+    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+    for (std::size_t i = 0; i < param.num_batches; i++) {
+      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+      int N = param.host_seqlen_k.empty()
+          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+          : param.host_seqlen_k[i];
+      int K = param.K;
+      int Kv = param.Kv;
+      int G1 = param.num_heads;
+
+      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
+      std::vector<ck::index_t> a_gs_ms_ks_strides{
+          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1, N, K};
+      std::vector<ck::index_t> b0_gs_ns_ks_strides{
+          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+      // to be changed to b1_gs_ns_os_lengths
+      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1, Kv, N};
+      std::vector<ck::index_t> b1_gs_os_ns_strides{
+          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1, M, Kv};
+      std::vector<ck::index_t> c_gs_ms_os_strides{
+          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+      std::vector<ck::index_t> d_gs_ms_ns_lengths;
+      std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+      if constexpr (has_attn_bias) {
+        d_gs_ms_ns_lengths = {1, G1, M, N};
+        d_gs_ms_ns_strides = {
+            0,
+            param.attn_bias_strides[0],
+            param.attn_bias_strides[1],
+            param.attn_bias_strides[2]};
+
+      } else {
+        d_gs_ms_ns_lengths = {1, 1, 1, 1};
+        d_gs_ms_ns_strides = {0, 0, 0, 0};
+      };
+
+      problem_descs.push_back(
+          {a_gs_ms_ks_lengths,
+           a_gs_ms_ks_strides,
+           b0_gs_ns_ks_lengths,
+           b0_gs_ns_ks_strides,
+           b1_gs_os_ns_lengths,
+           b1_gs_os_ns_strides,
+           c_gs_ms_os_lengths,
+           c_gs_ms_os_strides,
+           {1, 1, 1, 1},
+           {0, 0, 0, 0},
+           lse_gs_ms_lengths,
+           lse_gs_ms_strides,
+           d_gs_ms_ns_lengths,
+           d_gs_ms_ns_strides,
+           {}, // acc1_bias_gs_ms_os_lengths
+           {}}); // acc1_bias_gs_ms_os_strides
+    }
+
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptrs,
+        param.k_ptrs,
+        param.v_ptrs,
+        param.out_ptrs,
+        param.randvals_ptrs,
+        param.logsumexp_ptrs,
+        param.attn_bias_ptrs,
+        {}, // p_acc1_biases
+        problem_descs,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op,
+        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
+
+    SimpleDeviceMem workspace(sizeInBytes);
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index 161818a39b..e459d16d9a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -6,24 +6,24 @@
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(
+      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index 592bc89e4b..cadc30b4bd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -6,24 +6,24 @@
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   if (param.custom_mask_type == 0) {
     if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 1) {
     if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
           param, stream);
   } else if (param.custom_mask_type == 2) {
     if (param.has_attn_bias)
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(
+      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
           param, stream);
   } else
     throw std::runtime_error("Invalid custom_mask_type value");

From cbb4705daf3e9b2389e7a0c2a658dc45d1dd56fe Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 18:56:28 +0000
Subject: [PATCH 079/837] Change to codes structure for selecting device-op
 instances according to run-time parameters

---
 .../csrc/attention/hip_fmha/ck_fmha_batched_backward.h    | 7 +++++++
 .../csrc/attention/hip_fmha/ck_fmha_batched_forward.h     | 5 +++++
 .../csrc/attention/hip_fmha/ck_fmha_grouped_backward.h    | 8 ++++++++
 .../csrc/attention/hip_fmha/ck_fmha_grouped_forward.h     | 5 +++++
 4 files changed, 25 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index f87e3fda3e..581c8264e8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -134,6 +134,13 @@ struct batched_backward_masktype_attnbias_dispatched {
             MaskingSpec,
             Deterministic>;
 
+    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(
+      BatchedBackwardParams& param,
+      hipStream_t stream) {
     std::vector<ck::index_t> q_gs_ms_ks_lengths{
         param.B, param.num_heads, param.M, param.K};
     std::vector<ck::index_t> q_gs_ms_ks_strides{
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index b58e1443be..16d972f91f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -140,6 +140,11 @@ struct batched_forward_masktype_attnbias_dispatched {
             MaskingSpec, // MaskingSpecialization
             Deterministic>;
 
+    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
     std::vector<ck::index_t> a_gs_ms_ks_lengths{
         param.B, param.num_heads, param.M, param.K};
     std::vector<ck::index_t> a_gs_ms_ks_strides{
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 74e0a8a496..5f62593f45 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -135,6 +135,14 @@ struct grouped_backward_masktype_attnbias_dispatched {
             MaskingSpec,
             Deterministic>;
 
+    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(
+      GroupedBackwardParams& param,
+      hipStream_t stream) {
+    // Tunables
     std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
 
     for (std::size_t i = 0; i < param.num_batches; i++) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 9996647270..8849de82d8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -141,6 +141,11 @@ struct grouped_forward_masktype_attnbias_dispatched {
             MaskingSpec, // MaskingSpecialization
             Deterministic>;
 
+    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
     std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
 
     for (std::size_t i = 0; i < param.num_batches; i++) {

From e26535f24cf4572bf61ff26fc17ffad7ff4b7387 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 23:14:48 +0000
Subject: [PATCH 080/837] Use different instances according to the head-dim
 sizes in batched backward

---
 .../hip_fmha/ck_fmha_batched_backward.h       | 287 +++++++++++++-----
 1 file changed, 210 insertions(+), 77 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 581c8264e8..f339691a78 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -7,6 +7,7 @@
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v1.hpp"
 #include "ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
 #include "ck_fmha_op_helper.h"
@@ -62,79 +63,215 @@ struct batched_backward_masktype_attnbias_dispatched {
     constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
     constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
 
-    using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-            NumDimG,
-            NumDimM,
-            NumDimN,
-            NumDimK,
-            NumDimO,
-            InputDataType,
-            OutputDataType,
-            GemmDataType,
-            ZDataType,
-            LSEDataType,
-            Acc0BiasDataType,
-            Acc1BiasDataType,
-            AccDataType,
-            ShuffleDataType,
-            QKVElementOp,
-            QKVElementOp,
-            Scale,
-            QKVElementOp,
-            YElementOp,
-            GemmSpec,
-            TensorSpecQ,
-            TensorSpecK,
-            TensorSpecV,
-            TensorSpecY,
-            1,
-            256,
-            64, // MPerBlock
-            128, // NPerBlock
-            128, // KPerBlock
-            128, // Gemm1NPerBlock
-            32, // Gemm1KPerBlock
-            64, // Gemm2KPerBlock
-            8, // AK1
-            8, // BK1
-            2, // A1K1
-            32, // MPerXDL
-            32, // NPerXDL
-            2, // MXdlPerWave
-            1, // NXdlPerWave
-            4, // Gemm1NXdlPerWave
-            1, // Gemm2NXdlPerWave
-            S<4, 64, 1>, // ABlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            S<4, 64, 1>, // B0BlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-            S<8, 32, 1>, // B1BlockTransfer
-            S<0, 2, 1>,
-            S<0, 2, 1>,
-            1,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            2,
-            false,
-            1, // CShuffleMXdlPerWavePerShuffle
-            4, // CShuffleNXdlPerWavePerShuffle
-            S<1, 32, 1, 8>,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            MaskingSpec,
-            Deterministic>;
-
-    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    if (param.K <= 32 && param.Kv <= 32) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              InputDataType,
+              OutputDataType,
+              GemmDataType,
+              ZDataType,
+              LSEDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              ShuffleDataType,
+              QKVElementOp,
+              QKVElementOp,
+              Scale,
+              QKVElementOp,
+              YElementOp,
+              GemmSpec,
+              TensorSpecQ,
+              TensorSpecK,
+              TensorSpecV,
+              TensorSpecY,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              32, // Gemm1NPerBlock
+              32, // Gemm1KperBlock
+              64, // Gemm2KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              4, // MXdlPerWave
+              1, // NXdlPerWave
+              1, // Gemm1NXdlPerWave
+              1, // Gemm2NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              1,
+              1,
+              S<1, 64, 1, 4>,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec,
+              Deterministic>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else if (param.K <= 64 && param.Kv <= 64) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              InputDataType,
+              OutputDataType,
+              GemmDataType,
+              ZDataType,
+              LSEDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              ShuffleDataType,
+              QKVElementOp,
+              QKVElementOp,
+              Scale,
+              QKVElementOp,
+              YElementOp,
+              GemmSpec,
+              TensorSpecQ,
+              TensorSpecK,
+              TensorSpecV,
+              TensorSpecY,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              64, // KPerBlock
+              64, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              32, // Gemm2KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              4, // MXdlPerWave
+              1, // NXdlPerWave
+              2, // Gemm1NXdlPerWave
+              1, // Gemm2NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              1,
+              2,
+              S<1, 32, 1, 8>,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec,
+              Deterministic>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              InputDataType,
+              OutputDataType,
+              GemmDataType,
+              ZDataType,
+              LSEDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              ShuffleDataType,
+              QKVElementOp,
+              QKVElementOp,
+              Scale,
+              QKVElementOp,
+              YElementOp,
+              GemmSpec,
+              TensorSpecQ,
+              TensorSpecK,
+              TensorSpecV,
+              TensorSpecY,
+              1,
+              256,
+              64, // MPerBlock
+              128, // NPerBlock
+              128, // KPerBlock
+              128, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              64, // Gemm2KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // A1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              2, // MXdlPerWave
+              1, // NXdlPerWave
+              4, // Gemm1NXdlPerWave
+              1, // Gemm2NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // B0BlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              S<8, 32, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              4, // CShuffleNXdlPerWavePerShuffle
+              S<1, 32, 1, 8>,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec,
+              Deterministic>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    };
   };
 
   template <typename DeviceOpInstance>
@@ -234,10 +371,6 @@ struct batched_backward_masktype_attnbias_dispatched {
         param.dropout_prob,
         std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
 
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
     if (!op.IsSupportedArgument(arg_ptr.get())) {
       std::ostringstream ostr;
       ostr << op.GetTypeString() << " does not support this problem";

From 8836ab059da4b9300a0856986a7c7090f2c07b02 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 23:15:57 +0000
Subject: [PATCH 081/837] Update to test_mem_eff_attention_ck.py for
 test_dropout_backward_ck

---
 tests/test_mem_eff_attention_ck.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 49ab783c0f..fdfeb40e9e 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -946,8 +946,6 @@ def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias
     assert all(p_values > p_val_tol)
 
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
-    if dtype is torch.bfloat16 and compute_capability < (8, 0):
-        pytest.skip("bf16 requires Sm80")
     if not op.is_available():
         pytest.skip()
 
@@ -1034,8 +1032,11 @@ def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
 @pytest.mark.parametrize("batch_size", [1, 2])
 @pytest.mark.parametrize("kv_len", [3, 248, 256])
 @pytest.mark.parametrize("q_len", [3, 248, 256])
-@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
+@pytest.mark.parametrize("dt", ["f16", "bf16"])
 def test_dropout_backward_ck(dt, q_len, kv_len, batch_size, k, p):
+    if k > 128:
+        pytest.skip("head-dim size bigger than 128 is not supported by CK-FlashAttention")
+
     _test_dropout_backward(
         q_len,
         kv_len,

From 4470458fc8779877911364af22983ede358224d2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Oct 2023 23:16:56 +0000
Subject: [PATCH 082/837] Add test_ck_7.py for temperary debugging of
 test_backward

---
 tests/test_ck_7.py | 868 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 868 insertions(+)
 create mode 100644 tests/test_ck_7.py

diff --git a/tests/test_ck_7.py b/tests/test_ck_7.py
new file mode 100644
index 0000000000..00a42ead06
--- /dev/null
+++ b/tests/test_ck_7.py
@@ -0,0 +1,868 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_types = [torch.float16, torch.bfloat16]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
+    fmha.ck.BwOp,
+]
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    for B in op._TEST_BATCH_SIZES:
+        for Mq in [32, 256]:
+            for Mkv in [32, 64, 256, 1024]:
+                for K in op._TEST_K:
+                    shapes.append((B, Mq, Mkv, 1, K, K))
+        Mq = 256
+        Mkv = 128
+        K = 32
+        H = 1
+        # Weird values of parameters
+        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
+            shapes.append((B, M, Mkv, H, K, K))
+            shapes.append((B, Mq, M, H, K, K))
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
+            if _K <= op.SUPPORTED_MAX_K:
+                shapes.append((B, Mq, Mkv, H, _K, _K))
+        # Different value for K / Kv
+        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+            for _K in [32, 36, 64, 256 + 8]:
+                shapes.append((B, Mq, Mkv, H, K, _K))
+                shapes.append((B, Mq, Mkv, H, _K, K))
+        # Exotic sizes
+        for K in op._TEST_K:
+            shapes.append((B, 16, 1024, H, K, K))
+            shapes.append((B, 1024, 16, H, K, K))
+        # Some number of heads
+        for H in [3, 5, 12]:
+            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Filter-out not supported shapes
+    shapes = [
+        shape
+        for shape in shapes
+        if len(
+            op.shape_not_supported_reasons(
+                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
+            )
+        )
+        == 0
+    ]
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        found_count = 0
+        while found_count < 20:
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
+                continue
+            found_count += 1
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def make_id(op, device, dtype, bias_type, *shape):
+    return (
+        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+        f"-{'-'.join([str(s) for s in shape])}"
+    )
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+    return {
+        "argvalues": combination,
+        "ids": [make_id(*c) for c in combination],
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
+)
+
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor.float()
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
+            # make sure it also works if the first columns are partially masked out
+            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        if fmt == "BMK":
+            attn_bias = attn_bias[:, 0]
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
+    tensor_with_grad: Optional[torch.Tensor] = None
+    if isinstance(attn_bias, torch.Tensor):
+        tensor_with_grad = attn_bias
+    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+        tensor_with_grad = attn_bias._bias
+    if tensor_with_grad is not None:
+        grad = tensor_with_grad.grad
+        if clear:
+            tensor_with_grad.grad = None
+        return grad
+    return None
+
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("packed", [False, True])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_forward(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed,
+    fmt,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    if kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
+
+    if packed and not (k == kv and q_len == kv_len):
+        pytest.skip(
+            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
+        )
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
+        pytest.skip("BMK incompatible with this bias")
+
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+    )
+
+    if packed:
+        c = torch.stack([query, key, value], 2)
+        if fmt == "BMK":
+            # bm3hk -> 3bhmk -> 3Bmk
+            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            query, key, value = c[0], c[1], c[2]
+            # Re-create bias in the right format
+            attn_bias = create_attn_bias(
+                bias_type=bias_type,
+                batch_size=batch_size,
+                num_heads=h,
+                q_len=q_len,
+                kv_len=kv_len,
+                device=device,
+                dtype=dtype,
+                requires_grad=False,
+                fmt=fmt,
+                op=op,
+            )
+        else:
+            # bm3hk -> 3 x bmhk
+            query, key, value = xformers.ops.unbind(c, 2)
+        assert not query.is_contiguous()
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+
+@pytest.mark.parametrize("k_len", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 4])
+@pytest.mark.parametrize("kv_len", [128, 512])
+@pytest.mark.parametrize("q_len", [128, 512])
+@pytest.mark.parametrize("device", [torch.device("cuda")])
+@pytest.mark.parametrize("dtype", _types)
+def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
+    scale = 3
+    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
+    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
+    # this should be equivalent to the average over value
+    ref = value.mean(1, keepdim=True).expand_as(query)
+
+    if dtype is torch.float16:
+        assert_allclose(out, ref, atol=1e-5)
+    else:
+        assert_allclose(out, ref, atol=1e-2)
+
+def _block_diag_reshape_lse(
+    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
+) -> torch.Tensor:
+    """LSE can be padded, let's remove the padding"""
+    parts = []
+    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
+        parts.append(slice[:, : end - start])
+    return torch.cat(parts, dim=1).unsqueeze(1)
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+
+    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+        attn_bias=attn_bias,
+    )
+    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            tensor_bias = attn_bias.materialize(
+                (query.shape[0], 1, query.shape[1], key.shape[1]),
+                device=query.device,
+                dtype=torch.float32,
+            )
+        else:
+            assert isinstance(attn_bias, torch.Tensor)
+            tensor_bias = attn_bias
+        if tensor_bias.ndim == 4:
+            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
+        attn = attn + tensor_bias.float()
+    ref_lse = attn.logsumexp(-1)
+    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
+        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
+    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("grad_out_contiguous", [True])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_backward(
+    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    grad_out_contiguous,
+    fmt,
+):
+    (
+        op_bw,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    if k > 128 or kv > 128:
+        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention-1")
+
+    if k % 8 != 0 or kv % 8 != 0:
+        pytest.skip("head-dim length must be an even value for CK-FlashAttention-1")
+
+    ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
+    if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask and q_len <= kv_len:
+        pytest.skip("BlockDiagonalCausalFromBottomRightMask requires kv_len bigger than q_len")
+
+    if k != kv:
+        pytest.skip("k same as kv is not well tested by CK-FlashAttention-1")
+
+    ## attn_bias_requires_grad = (
+    ##    random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
+    ##)
+    attn_bias_requires_grad = False
+
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        attn_bias_requires_grad=attn_bias_requires_grad,
+        fmt=fmt,
+    )
+    op_fw = (
+        sample_random_supported_fw(
+            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
+            seed=q_len * kv + kv_len * k,
+        )
+        if op_bw != fmha.ck.BwOp
+        else fmha.ck.FwOp
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
+        pytest.skip("inputs not supported")
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, op=(op_fw, op_bw)
+    )
+
+    grad_out = torch.ones_like(out)
+    ##if grad_out_contiguous is False:
+    ##    grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
+    ##        None, None, :
+    ##    ].expand_as(out)
+
+    out.backward(grad_out)
+
+    if qkv is None and op_bw == fmha.ck.BwOp:
+        assert query.stride() == query.grad.stride()
+
+    grads = []
+    if qkv is None:
+        grads = [query.grad, key.grad, value.grad]
+        query.grad = None
+        key.grad = None
+        value.grad = None
+    else:
+        grads = [qkv.grad]
+        qkv.grad = None
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
+        if attn_bias_grad is not None:
+            grads.append(attn_bias_grad)
+
+    ref = ref_attention(query, key, value, attn_bias)
+    ref.backward(grad_out)
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        "fw pass",
+        atol=op_fw.ERROR_ATOL[dtype],
+        rtol=op_fw.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+    del out
+    del grad_out
+    del ref
+
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+
+    grads_ref = []
+    grads_name = []
+    if qkv is None:
+        assert isinstance(query.grad, torch.Tensor)
+        assert isinstance(key.grad, torch.Tensor)
+        assert isinstance(value.grad, torch.Tensor)
+        grads_ref = [query.grad, key.grad, value.grad]
+        grads_name = ["query", "key", "value"]
+    else:
+        assert isinstance(qkv.grad, torch.Tensor)
+        grads_ref = [qkv.grad]
+        grads_name = ["qkv"]
+
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias)
+        if attn_bias_grad is not None:
+            grads_ref.append(attn_bias.grad)
+            grads_name.append("bias")
+
+    del query
+    del key
+    del value
+    del qkv
+
+    assert len(grads_ref) == len(
+        grads
+    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
+    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
+        assert_allclose(
+            calc_grad,
+            ref_grad,
+            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
+            atol=atol,
+            rtol=rtol,
+        )
+
+

From 0c4d4794a481b253c2e4b816bc8084f5cb4014b5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 10 Oct 2023 16:34:40 +0000
Subject: [PATCH 083/837] Use different instances according to the head-dim
 sizes in grouped backward

---
 .../hip_fmha/ck_fmha_grouped_backward.h       | 283 +++++++++++++-----
 1 file changed, 210 insertions(+), 73 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 5f62593f45..a93e67082f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -8,6 +8,7 @@
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/sequence.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v1.hpp"
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
 #include "ck_fmha_op_helper.h"
@@ -63,79 +64,215 @@ struct grouped_backward_masktype_attnbias_dispatched {
     constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1; // 4
     constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1; // 4
 
-    using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-            NumDimG,
-            NumDimM,
-            NumDimN,
-            NumDimK,
-            NumDimO,
-            InputDataType,
-            OutputDataType,
-            GemmDataType,
-            ZDataType,
-            LSEDataType,
-            Acc0BiasDataType,
-            Acc1BiasDataType,
-            AccDataType,
-            ShuffleDataType,
-            QKVElementOp,
-            QKVElementOp,
-            Scale,
-            QKVElementOp,
-            YElementOp,
-            GemmSpec,
-            TensorSpecQ,
-            TensorSpecK,
-            TensorSpecV,
-            TensorSpecY,
-            1,
-            256,
-            64, // MPerBlock
-            128, // NPerBlock
-            128, // KPerBlock
-            128, // Gemm1NPerBlock
-            32, // Gemm1KPerBlock
-            64, // Gemm2KPerBlock
-            8, // AK1
-            8, // BK1
-            2, // B1K1
-            32, // MPerXDL
-            32, // NPerXDL
-            2, // MXdlPerWave
-            1, // NXdlPerWave
-            4, // Gemm1NXdlPerWave
-            1, // Gemm2NXdlPerWave
-            S<4, 64, 1>, // ABlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            S<4, 64, 1>, // B0BlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-            S<8, 32, 1>, // B1BlockTransfer
-            S<0, 2, 1>,
-            S<0, 2, 1>,
-            1,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            2,
-            false,
-            1, // CShuffleMXdlPerWavePerShuffle
-            4, // CShuffleNXdlPerWavePerShuffle
-            S<1, 32, 1, 8>,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            MaskingSpec,
-            Deterministic>;
-
-    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    if (param.K <= 32 && param.Kv <= 32) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              InputDataType,
+              OutputDataType,
+              GemmDataType,
+              ZDataType,
+              LSEDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              ShuffleDataType,
+              QKVElementOp,
+              QKVElementOp,
+              Scale,
+              QKVElementOp,
+              YElementOp,
+              GemmSpec,
+              TensorSpecQ,
+              TensorSpecK,
+              TensorSpecV,
+              TensorSpecY,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              32, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              64, // Gemm2KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              4, // MXdlPerWave
+              1, // NXdlPerWave
+              1, // Gemm1NXdlPerWave
+              1, // Gemm2NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              1,
+              1,
+              S<1, 64, 1, 4>,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec,
+              Deterministic>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else if (param.K <= 64 && param.Kv <= 64) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              InputDataType,
+              OutputDataType,
+              GemmDataType,
+              ZDataType,
+              LSEDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              ShuffleDataType,
+              QKVElementOp,
+              QKVElementOp,
+              Scale,
+              QKVElementOp,
+              YElementOp,
+              GemmSpec,
+              TensorSpecQ,
+              TensorSpecK,
+              TensorSpecV,
+              TensorSpecY,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              64, // KPerBlock
+              64, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              32, // Gemm2KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              4, // MXdlPerWave
+              1, // NXdlPerWave
+              2, // Gemm1NXdlPerWave
+              1, // Gemm2NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              1,
+              2,
+              S<1, 32, 1, 8>,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec,
+              Deterministic>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              InputDataType,
+              OutputDataType,
+              GemmDataType,
+              ZDataType,
+              LSEDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              ShuffleDataType,
+              QKVElementOp,
+              QKVElementOp,
+              Scale,
+              QKVElementOp,
+              YElementOp,
+              GemmSpec,
+              TensorSpecQ,
+              TensorSpecK,
+              TensorSpecV,
+              TensorSpecY,
+              1,
+              256,
+              64, // MPerBlock
+              128, // NPerBlock
+              128, // KPerBlock
+              128, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              64, // Gemm2KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              2, // MXdlPerWave
+              1, // NXdlPerWave
+              4, // Gemm1NXdlPerWave
+              1, // Gemm2NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // B0BlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              S<8, 32, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              4, // CShuffleNXdlPerWavePerShuffle
+              S<1, 32, 1, 8>,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec,
+              Deterministic>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    };
   };
 
   template <typename DeviceOpInstance>

From 20a2535b70990da6d40bede32e13a9c25b8dd403 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 10 Oct 2023 17:02:42 +0000
Subject: [PATCH 084/837] Separate the forward codes into forward and infer in
 C++ extension

---
 .../hip_fmha/attention_forward_generic.cpp    |  49 +++-
 .../hip_fmha/ck_fmha_batched_infer.h          | 258 +++++++++++++++++
 .../hip_fmha/ck_fmha_batched_infer_bp16.cpp   |  30 ++
 .../hip_fmha/ck_fmha_batched_infer_fp16.cpp   |  30 ++
 .../hip_fmha/ck_fmha_grouped_infer.h          | 260 ++++++++++++++++++
 .../hip_fmha/ck_fmha_grouped_infer_bp16.cpp   |  30 ++
 .../hip_fmha/ck_fmha_grouped_infer_fp16.cpp   |  30 ++
 7 files changed, 675 insertions(+), 12 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 166c9806af..ecd50db2e2 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -30,6 +30,11 @@ extern void grouped_forward_bp16(
     GroupedForwardParams& param,
     hipStream_t stream);
 
+extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
+extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
+extern void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream);
+extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream);
+
 namespace {
 
 /*
@@ -358,23 +363,43 @@ efficient_attention_forward_ck(
 
     set_batched_forward_params(batched_forward_params);
 
-    if (inDataType == at::ScalarType::Half) {
-      batched_forward_fp16(batched_forward_params, stream);
-    } else if (inDataType == at::ScalarType::BFloat16) {
-      batched_forward_bp16(batched_forward_params, stream);
-    } else
-      throw std::runtime_error("input data-type is not supported!");
+    if (!batched_forward_params.use_dropout &&
+        !batched_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        batched_infer_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_infer_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      if (inDataType == at::ScalarType::Half) {
+        batched_forward_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_forward_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    };
   } else { // input is grouped
     GroupedForwardParams grouped_forward_params;
 
     set_grouped_forward_params(grouped_forward_params);
 
-    if (inDataType == at::ScalarType::Half) {
-      grouped_forward_fp16(grouped_forward_params, stream);
-    } else if (inDataType == at::ScalarType::BFloat16) {
-      grouped_forward_bp16(grouped_forward_params, stream);
-    } else
-      throw std::runtime_error("input data-type is not supported!");
+    if (!grouped_forward_params.use_dropout &&
+        !grouped_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_infer_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_infer_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_forward_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_forward_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    };
   };
 
   return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
new file mode 100644
index 0000000000..c32734a50e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -0,0 +1,258 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp"
+
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_params.h"
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+struct batched_infer_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr bool Deterministic = false;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    // Tunables
+    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
+    using DeviceOpInstance = ck::tensor_operation::device::
+        DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
+            NumDimG,
+            NumDimM,
+            NumDimN,
+            NumDimK,
+            NumDimO,
+            ADataType,
+            B0DataType,
+            B1DataType,
+            CDataType,
+            GemmDataType,
+            ZDataType,
+            LSEDataType,
+            Acc0BiasDataType,
+            Acc1BiasDataType,
+            AccDataType,
+            CShuffleDataType,
+            AElementOp,
+            B0ElementOp,
+            Acc0ElementOp,
+            B1ElementOp,
+            CElementOp,
+            GemmSpec,
+            TensorSpecA,
+            TensorSpecB0,
+            TensorSpecB1,
+            TensorSpecC,
+            1,
+            256,
+            128, // MPerBlock
+            128, // NPerBlock
+            32, // KPerBlock
+            64, // Gemm1NPerBlock
+            32, // Gemm1KPerBlock
+            8, // AK1
+            8, // BK1
+            2, // B1K1
+            32, // MPerXDL
+            32, // NPerXDL
+            1, // MXdlPerWave
+            4, // NXdlPerWave
+            2, // Gemm1NXdlPerWave
+            1, // DropoutStep
+            S<4, 64, 1>, // ABlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            S<4, 64, 1>, // BBlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+            S<16, 16, 1>, // B1BlockTransfer
+            S<0, 2, 1>,
+            S<0, 2, 1>,
+            1,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            2,
+            false,
+            1, // CShuffleMXdlPerWavePerShuffle
+            2, // CShuffleNXdlPerWavePerShuffle
+            S<1,
+              32,
+              1,
+              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            4,
+            MaskingSpec, // MaskingSpecialization
+            Deterministic>;
+
+    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
+    std::vector<ck::index_t> a_gs_ms_ks_lengths{
+        param.B, param.num_heads, param.M, param.K};
+    std::vector<ck::index_t> a_gs_ms_ks_strides{
+        param.q_strides[0],
+        param.q_strides[2],
+        param.q_strides[1],
+        param.q_strides[3]};
+
+    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
+        param.B, param.num_heads, param.N, param.K};
+    std::vector<ck::index_t> b0_gs_ns_ks_strides{
+        param.k_strides[0],
+        param.k_strides[2],
+        param.k_strides[1],
+        param.k_strides[3]};
+
+    // to be changed to b1_gs_ns_os_lengths
+    std::vector<ck::index_t> b1_gs_os_ns_lengths{
+        param.B, param.num_heads, param.Kv, param.N};
+    std::vector<ck::index_t> b1_gs_os_ns_strides{
+        param.v_strides[0],
+        param.v_strides[2],
+        param.v_strides[3],
+        param.v_strides[1]};
+
+    std::vector<ck::index_t> c_gs_ms_os_lengths{
+        param.B, param.num_heads, param.M, param.Kv};
+    std::vector<ck::index_t> c_gs_ms_os_strides{
+        param.out_strides[0],
+        param.out_strides[2],
+        param.out_strides[1],
+        param.out_strides[3]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{
+        param.B, param.num_heads, param.M};
+
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+      d_gs_ms_ns_strides = {
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    };
+
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptr,
+        param.k_ptr,
+        param.v_ptr,
+        param.out_ptr,
+        nullptr,
+        param.logsumexp_ptr,
+        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+        {}, // p_acc1_biases;
+        a_gs_ms_ks_lengths,
+        a_gs_ms_ks_strides,
+        b0_gs_ns_ks_lengths,
+        b0_gs_ns_ks_strides,
+        b1_gs_os_ns_lengths,
+        b1_gs_os_ns_strides,
+        c_gs_ms_os_lengths,
+        c_gs_ms_os_strides,
+        {1, 1, 1, 1},
+        {0, 0, 0, 0},
+        lse_gs_ms_lengths,
+        d_gs_ms_ns_lengths,
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op,
+        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+        std::tuple<int64_t, int64_t>(
+            param.philox_seed,
+            param.philox_offset)); // dropout random seed and offset
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
new file mode 100644
index 0000000000..bd62aebe26
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
@@ -0,0 +1,30 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
+          param, stream);
+    else
+      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
+          param, stream);
+    else
+      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
+          param, stream);
+    else
+      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
new file mode 100644
index 0000000000..3429c088e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
@@ -0,0 +1,30 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
+          param, stream);
+    else
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
+          param, stream);
+    else
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
+          param, stream);
+    else
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
new file mode 100644
index 0000000000..9246a25498
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -0,0 +1,260 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v2.hpp>
+#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
+#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include <ck/utility/sequence.hpp>
+
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_params.h"
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+struct grouped_infer_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr bool Deterministic = false;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    // Tunables
+    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+
+    using DeviceOpInstance = ck::tensor_operation::device::
+        DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
+            NumDimG,
+            NumDimM,
+            NumDimN,
+            NumDimK,
+            NumDimO,
+            ADataType,
+            B0DataType,
+            B1DataType,
+            CDataType,
+            GemmDataType,
+            ZDataType,
+            LSEDataType,
+            Acc0BiasDataType,
+            Acc1BiasDataType,
+            AccDataType,
+            CShuffleDataType,
+            AElementOp,
+            B0ElementOp,
+            Acc0ElementOp,
+            B1ElementOp,
+            CElementOp,
+            GemmSpec,
+            TensorSpecA,
+            TensorSpecB0,
+            TensorSpecB1,
+            TensorSpecC,
+            1,
+            256,
+            128, // MPerBlock
+            128, // NPerBlock
+            32, // KPerBlock
+            128, // Gemm1NPerBlock
+            32, // Gemm1KPerBlock
+            8, // AK1
+            8, // BK1
+            2, // B1K1
+            32, // MPerXDL
+            32, // NPerXDL
+            1, // MXdlPerWave
+            4, // NXdlPerWave
+            4, // Gemm1NXdlPerWave
+            1, // DropoutStep
+            S<4, 64, 1>, // ABlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            S<4, 64, 1>, // BBlockTransfer
+            S<1, 0, 2>,
+            S<1, 0, 2>,
+            2,
+            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            8,
+            true,
+            Acc0BiasTransferSrcScalarPerVector,
+            S<8, 32, 1>, // B1BlockTransfer
+            S<0, 2, 1>,
+            S<0, 2, 1>,
+            1,
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            2,
+            false,
+            1, // CShuffleMXdlPerWavePerShuffle
+            2, // CShuffleNXdlPerWavePerShuffle
+            S<1,
+              32,
+              1,
+              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            1,
+            MaskingSpec, // MaskingSpecialization
+            Deterministic>;
+
+    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
+    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+    for (std::size_t i = 0; i < param.num_batches; i++) {
+      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+      int N = param.host_seqlen_k.empty()
+          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+          : param.host_seqlen_k[i];
+      int K = param.K;
+      int Kv = param.Kv;
+      int G1 = param.num_heads;
+
+      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
+      std::vector<ck::index_t> a_gs_ms_ks_strides{
+          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1, N, K};
+      std::vector<ck::index_t> b0_gs_ns_ks_strides{
+          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+      // to be changed to b1_gs_ns_os_lengths
+      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1, Kv, N};
+      std::vector<ck::index_t> b1_gs_os_ns_strides{
+          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1, M, Kv};
+      std::vector<ck::index_t> c_gs_ms_os_strides{
+          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+      std::vector<ck::index_t> d_gs_ms_ns_lengths;
+      std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+      if constexpr (has_attn_bias) {
+        d_gs_ms_ns_lengths = {1, G1, M, N};
+        d_gs_ms_ns_strides = {
+            0,
+            param.attn_bias_strides[0],
+            param.attn_bias_strides[1],
+            param.attn_bias_strides[2]};
+
+      } else {
+        d_gs_ms_ns_lengths = {1, 1, 1, 1};
+        d_gs_ms_ns_strides = {0, 0, 0, 0};
+      };
+
+      problem_descs.push_back(
+          {a_gs_ms_ks_lengths,
+           a_gs_ms_ks_strides,
+           b0_gs_ns_ks_lengths,
+           b0_gs_ns_ks_strides,
+           b1_gs_os_ns_lengths,
+           b1_gs_os_ns_strides,
+           c_gs_ms_os_lengths,
+           c_gs_ms_os_strides,
+           {1, 1, 1, 1},
+           {0, 0, 0, 0},
+           lse_gs_ms_lengths,
+           lse_gs_ms_strides,
+           d_gs_ms_ns_lengths,
+           d_gs_ms_ns_strides,
+           {}, // acc1_bias_gs_ms_os_lengths
+           {}}); // acc1_bias_gs_ms_os_strides
+    }
+
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptrs,
+        param.k_ptrs,
+        param.v_ptrs,
+        param.out_ptrs,
+        param.randvals_ptrs,
+        param.logsumexp_ptrs,
+        param.attn_bias_ptrs,
+        {}, // p_acc1_biases
+        problem_descs,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op,
+        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
+
+    SimpleDeviceMem workspace(sizeInBytes);
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
new file mode 100644
index 0000000000..d3accc720f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
@@ -0,0 +1,30 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
+          param, stream);
+    else
+      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
+          param, stream);
+    else
+      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
+          param, stream);
+    else
+      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
new file mode 100644
index 0000000000..d2e8466831
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
@@ -0,0 +1,30 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  if (param.custom_mask_type == 0) {
+    if (param.has_attn_bias)
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
+          param, stream);
+    else
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 1) {
+    if (param.has_attn_bias)
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
+          param, stream);
+    else
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
+          param, stream);
+  } else if (param.custom_mask_type == 2) {
+    if (param.has_attn_bias)
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
+          param, stream);
+    else
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
+          param, stream);
+  } else
+    throw std::runtime_error("Invalid custom_mask_type value");
+};

From 768f8782f679d0ff28de3da9154975cfb2b9f3e1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 10 Oct 2023 17:25:30 +0000
Subject: [PATCH 085/837] Synchronize with latest CK flashAttention which
 removed <Deterministic> in forward kernel

---
 third_party/composable_kernel                              | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h | 4 +---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h   | 4 +---
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h | 4 +---
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h   | 4 +---
 5 files changed, 5 insertions(+), 13 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index b23b3d717a..3f4eae1db4 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit b23b3d717ab17a06c490b70508d18ef7773849a4
+Subproject commit 3f4eae1db4d73cf1692b204425591660cfd421be
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 16d972f91f..c144cc5f56 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -55,7 +55,6 @@ struct batched_forward_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     // Tunables
@@ -137,8 +136,7 @@ struct batched_forward_masktype_attnbias_dispatched {
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
             B1CShuffleBlockTransferScalarPerVector, // TUNABLE
             4,
-            MaskingSpec, // MaskingSpecialization
-            Deterministic>;
+            MaskingSpec>; // MaskingSpecialization
 
     RunWithDeviceOp<DeviceOpInstance>(param, stream);
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index c32734a50e..549fa3898c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -55,7 +55,6 @@ struct batched_infer_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     // Tunables
@@ -137,8 +136,7 @@ struct batched_infer_masktype_attnbias_dispatched {
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
             B1CShuffleBlockTransferScalarPerVector, // TUNABLE
             4,
-            MaskingSpec, // MaskingSpecialization
-            Deterministic>;
+            MaskingSpec>; // MaskingSpecialization
 
     RunWithDeviceOp<DeviceOpInstance>(param, stream);
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 8849de82d8..74ebfc5a9b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -56,7 +56,6 @@ struct grouped_forward_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     // Tunables
@@ -138,8 +137,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
             B1CShuffleBlockTransferScalarPerVector, // TUNABLE
             1,
-            MaskingSpec, // MaskingSpecialization
-            Deterministic>;
+            MaskingSpec>; // MaskingSpecialization
 
     RunWithDeviceOp<DeviceOpInstance>(param, stream);
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 9246a25498..a8f6ef2c11 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -56,7 +56,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     // Tunables
@@ -138,8 +137,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
             B1CShuffleBlockTransferScalarPerVector, // TUNABLE
             1,
-            MaskingSpec, // MaskingSpecialization
-            Deterministic>;
+            MaskingSpec>; // MaskingSpecialization
 
     RunWithDeviceOp<DeviceOpInstance>(param, stream);
   };

From 27f54bf5234366041e03b9ded23c85cb8ef0ec30 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 10 Oct 2023 17:47:31 +0000
Subject: [PATCH 086/837] Add torch_check in attention_backward_generic.cpp to
 ensure q/k/v and dq/dk/dv have same sizes/strides

---
 .../attention/hip_fmha/attention_backward_generic.cpp     | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index da1a082b2a..d21b8b5268 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -156,6 +156,14 @@ efficient_attention_backward_ck(
     grad_q.fill_(0);
   }
 
+  // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
+  TORCH_CHECK(query.sizes() == grad_q.sizes());
+  TORCH_CHECK(query.strides() == grad_q.strides());
+  TORCH_CHECK(key.sizes() == grad_k.sizes());
+  TORCH_CHECK(key.strides() == grad_k.strides());
+  TORCH_CHECK(value.sizes() == grad_v.sizes());
+  TORCH_CHECK(value.strides() == grad_v.strides());
+
   const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
 
   if (bias_requires_grad)

From 0946c58c5c03cb1be247fdc6fe6f8243301ff766 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 11 Oct 2023 23:51:06 +0000
Subject: [PATCH 087/837] Tiny fix in attention_backward_generic.cpp

---
 xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index d21b8b5268..1a3b16b1e8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -152,7 +152,7 @@ efficient_attention_backward_ck(
   } else {
     grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
     grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
-    grad_v = at::empty_strided(value.sizes(), key.strides(), value.options());
+    grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
     grad_q.fill_(0);
   }
 

From fb3485d3447e1bb8ffc71fb25911a156a73bcf1a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 13 Oct 2023 15:27:51 +0000
Subject: [PATCH 088/837] Use ck infer-only device-op to do hip_fmha inference

---
 .../hip_fmha/ck_fmha_batched_infer.h          | 20 +++--------------
 .../hip_fmha/ck_fmha_grouped_infer.h          | 22 +++----------------
 2 files changed, 6 insertions(+), 36 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 549fa3898c..870d1394ea 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -7,7 +7,7 @@
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp"
+#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp"
 
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
@@ -63,7 +63,7 @@ struct batched_infer_masktype_attnbias_dispatched {
     constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
 
     using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
+        DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
             NumDimG,
             NumDimM,
             NumDimN,
@@ -73,9 +73,6 @@ struct batched_infer_masktype_attnbias_dispatched {
             B0DataType,
             B1DataType,
             CDataType,
-            GemmDataType,
-            ZDataType,
-            LSEDataType,
             Acc0BiasDataType,
             Acc1BiasDataType,
             AccDataType,
@@ -105,7 +102,6 @@ struct batched_infer_masktype_attnbias_dispatched {
             1, // MXdlPerWave
             4, // NXdlPerWave
             2, // Gemm1NXdlPerWave
-            1, // DropoutStep
             S<4, 64, 1>, // ABlockTransfer
             S<1, 0, 2>,
             S<1, 0, 2>,
@@ -135,7 +131,6 @@ struct batched_infer_masktype_attnbias_dispatched {
               1,
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
             B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            4,
             MaskingSpec>; // MaskingSpecialization
 
     RunWithDeviceOp<DeviceOpInstance>(param, stream);
@@ -210,8 +205,6 @@ struct batched_infer_masktype_attnbias_dispatched {
         param.k_ptr,
         param.v_ptr,
         param.out_ptr,
-        nullptr,
-        param.logsumexp_ptr,
         param.has_attn_bias ? param.attn_bias_ptr : nullptr,
         {}, // p_acc1_biases;
         a_gs_ms_ks_lengths,
@@ -222,9 +215,6 @@ struct batched_infer_masktype_attnbias_dispatched {
         b1_gs_os_ns_strides,
         c_gs_ms_os_lengths,
         c_gs_ms_os_strides,
-        {1, 1, 1, 1},
-        {0, 0, 0, 0},
-        lse_gs_ms_lengths,
         d_gs_ms_ns_lengths,
         d_gs_ms_ns_strides,
         {}, // acc1_biases_gs_ms_os_lengths
@@ -233,11 +223,7 @@ struct batched_infer_masktype_attnbias_dispatched {
         b0_element_op,
         acc0_element_op,
         b1_element_op,
-        c_element_op,
-        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-        std::tuple<int64_t, int64_t>(
-            param.philox_seed,
-            param.philox_offset)); // dropout random seed and offset
+        c_element_op);
 
     SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index a8f6ef2c11..321b17cdd4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -5,10 +5,10 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/sequence.hpp>
+#include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp"
 
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
@@ -64,7 +64,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
     constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
 
     using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
+        DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
             NumDimG,
             NumDimM,
             NumDimN,
@@ -74,9 +74,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
             B0DataType,
             B1DataType,
             CDataType,
-            GemmDataType,
-            ZDataType,
-            LSEDataType,
             Acc0BiasDataType,
             Acc1BiasDataType,
             AccDataType,
@@ -106,7 +103,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
             1, // MXdlPerWave
             4, // NXdlPerWave
             4, // Gemm1NXdlPerWave
-            1, // DropoutStep
             S<4, 64, 1>, // ABlockTransfer
             S<1, 0, 2>,
             S<1, 0, 2>,
@@ -136,7 +132,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
               1,
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
             B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            1,
             MaskingSpec>; // MaskingSpecialization
 
     RunWithDeviceOp<DeviceOpInstance>(param, stream);
@@ -172,9 +167,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
       std::vector<ck::index_t> c_gs_ms_os_strides{
           0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
-      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
       std::vector<ck::index_t> d_gs_ms_ns_lengths;
       std::vector<ck::index_t> d_gs_ms_ns_strides;
 
@@ -200,10 +192,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
            b1_gs_os_ns_strides,
            c_gs_ms_os_lengths,
            c_gs_ms_os_strides,
-           {1, 1, 1, 1},
-           {0, 0, 0, 0},
-           lse_gs_ms_lengths,
-           lse_gs_ms_strides,
            d_gs_ms_ns_lengths,
            d_gs_ms_ns_strides,
            {}, // acc1_bias_gs_ms_os_lengths
@@ -226,8 +214,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
         param.k_ptrs,
         param.v_ptrs,
         param.out_ptrs,
-        param.randvals_ptrs,
-        param.logsumexp_ptrs,
         param.attn_bias_ptrs,
         {}, // p_acc1_biases
         problem_descs,
@@ -235,9 +221,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
         b0_element_op,
         acc0_element_op,
         b1_element_op,
-        c_element_op,
-        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+        c_element_op);
 
     auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
 

From c30eb90c0d7a93c5926f89d7b6645ebabf9d30ee Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 13 Oct 2023 16:02:03 +0000
Subject: [PATCH 089/837] Synchronize with latest CK flashAttention

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 3f4eae1db4..ca9b152df4 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 3f4eae1db4d73cf1692b204425591660cfd421be
+Subproject commit ca9b152df45b394590d4348f41365b775a72ba2c

From ab9a9b052206421beca7c582daf39fe5ea0e0873 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 15 Oct 2023 23:24:44 +0000
Subject: [PATCH 090/837] Use different instances according to the head-dim
 sizes in batched infer

---
 .../hip_fmha/ck_fmha_batched_infer.h          | 288 +++++++++++++-----
 1 file changed, 218 insertions(+), 70 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 870d1394ea..e72b6b773d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -62,78 +62,226 @@ struct batched_infer_masktype_attnbias_dispatched {
     constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
     constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
 
-    using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
-            NumDimG,
-            NumDimM,
-            NumDimN,
-            NumDimK,
-            NumDimO,
-            ADataType,
-            B0DataType,
-            B1DataType,
-            CDataType,
-            Acc0BiasDataType,
-            Acc1BiasDataType,
-            AccDataType,
-            CShuffleDataType,
-            AElementOp,
-            B0ElementOp,
-            Acc0ElementOp,
-            B1ElementOp,
-            CElementOp,
-            GemmSpec,
-            TensorSpecA,
-            TensorSpecB0,
-            TensorSpecB1,
-            TensorSpecC,
-            1,
-            256,
-            128, // MPerBlock
-            128, // NPerBlock
-            32, // KPerBlock
-            64, // Gemm1NPerBlock
-            32, // Gemm1KPerBlock
-            8, // AK1
-            8, // BK1
-            2, // B1K1
-            32, // MPerXDL
-            32, // NPerXDL
-            1, // MXdlPerWave
-            4, // NXdlPerWave
-            2, // Gemm1NXdlPerWave
-            S<4, 64, 1>, // ABlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            S<4, 64, 1>, // BBlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-            S<16, 16, 1>, // B1BlockTransfer
-            S<0, 2, 1>,
-            S<0, 2, 1>,
-            1,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            2,
-            false,
-            1, // CShuffleMXdlPerWavePerShuffle
-            2, // CShuffleNXdlPerWavePerShuffle
-            S<1,
-              32,
+    if (param.K < 32 && param.Kv < 32) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              ADataType,
+              B0DataType,
+              B1DataType,
+              CDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              CShuffleDataType,
+              AElementOp,
+              B0ElementOp,
+              Acc0ElementOp,
+              B1ElementOp,
+              CElementOp,
+              GemmSpec,
+              TensorSpecA,
+              TensorSpecB0,
+              TensorSpecB1,
+              TensorSpecC,
               1,
-              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            MaskingSpec>; // MaskingSpecialization
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              32, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              1, // MXdlPerWave
+              4, // NXdlPerWave
+              1, // Gemm1NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              S<16, 16, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              1, // CShuffleNXdlPerWavePerShuffle
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec>; // MaskingSpecialization
 
-    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else if (param.K < 64 && param.Kv < 64) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              ADataType,
+              B0DataType,
+              B1DataType,
+              CDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              CShuffleDataType,
+              AElementOp,
+              B0ElementOp,
+              Acc0ElementOp,
+              B1ElementOp,
+              CElementOp,
+              GemmSpec,
+              TensorSpecA,
+              TensorSpecB0,
+              TensorSpecB1,
+              TensorSpecC,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              64, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              1, // MXdlPerWave
+              4, // NXdlPerWave
+              2, // Gemm1NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              S<16, 16, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              2, // CShuffleNXdlPerWavePerShuffle
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec>; // MaskingSpecialization
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              ADataType,
+              B0DataType,
+              B1DataType,
+              CDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              CShuffleDataType,
+              AElementOp,
+              B0ElementOp,
+              Acc0ElementOp,
+              B1ElementOp,
+              CElementOp,
+              GemmSpec,
+              TensorSpecA,
+              TensorSpecB0,
+              TensorSpecB1,
+              TensorSpecC,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              128, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              1, // MXdlPerWave
+              4, // NXdlPerWave
+              4, // Gemm1NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              S<16, 16, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              4, // CShuffleNXdlPerWavePerShuffle
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec>; // MaskingSpecialization
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    };
   };
 
   template <typename DeviceOpInstance>

From a47d2229d23e740033ecbf58417210512e41a08b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 15 Oct 2023 23:52:01 +0000
Subject: [PATCH 091/837] Use different instances according to the head-dim
 sizes in grouped infer

---
 .../hip_fmha/ck_fmha_grouped_infer.h          | 290 +++++++++++++-----
 1 file changed, 219 insertions(+), 71 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 321b17cdd4..2a6faf5406 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -63,78 +63,226 @@ struct grouped_infer_masktype_attnbias_dispatched {
     constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
     constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
 
-    using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
-            NumDimG,
-            NumDimM,
-            NumDimN,
-            NumDimK,
-            NumDimO,
-            ADataType,
-            B0DataType,
-            B1DataType,
-            CDataType,
-            Acc0BiasDataType,
-            Acc1BiasDataType,
-            AccDataType,
-            CShuffleDataType,
-            AElementOp,
-            B0ElementOp,
-            Acc0ElementOp,
-            B1ElementOp,
-            CElementOp,
-            GemmSpec,
-            TensorSpecA,
-            TensorSpecB0,
-            TensorSpecB1,
-            TensorSpecC,
-            1,
-            256,
-            128, // MPerBlock
-            128, // NPerBlock
-            32, // KPerBlock
-            128, // Gemm1NPerBlock
-            32, // Gemm1KPerBlock
-            8, // AK1
-            8, // BK1
-            2, // B1K1
-            32, // MPerXDL
-            32, // NPerXDL
-            1, // MXdlPerWave
-            4, // NXdlPerWave
-            4, // Gemm1NXdlPerWave
-            S<4, 64, 1>, // ABlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            S<4, 64, 1>, // BBlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            Acc0BiasTransferSrcScalarPerVector,
-            S<8, 32, 1>, // B1BlockTransfer
-            S<0, 2, 1>,
-            S<0, 2, 1>,
-            1,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            2,
-            false,
-            1, // CShuffleMXdlPerWavePerShuffle
-            2, // CShuffleNXdlPerWavePerShuffle
-            S<1,
-              32,
+    if (param.K < 32 && param.Kv < 32) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              ADataType,
+              B0DataType,
+              B1DataType,
+              CDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              CShuffleDataType,
+              AElementOp,
+              B0ElementOp,
+              Acc0ElementOp,
+              B1ElementOp,
+              CElementOp,
+              GemmSpec,
+              TensorSpecA,
+              TensorSpecB0,
+              TensorSpecB1,
+              TensorSpecC,
               1,
-              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-            MaskingSpec>; // MaskingSpecialization
-
-    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              32, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              1, // MXdlPerWave
+              4, // NXdlPerWave
+              1, // Gemm1NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector,
+              S<8, 32, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              1, // CShuffleNXdlPerWavePerShuffle
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec>; // MaskingSpecialization
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else if (param.K < 64 && param.Kv < 64) {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              ADataType,
+              B0DataType,
+              B1DataType,
+              CDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              CShuffleDataType,
+              AElementOp,
+              B0ElementOp,
+              Acc0ElementOp,
+              B1ElementOp,
+              CElementOp,
+              GemmSpec,
+              TensorSpecA,
+              TensorSpecB0,
+              TensorSpecB1,
+              TensorSpecC,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              64, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              1, // MXdlPerWave
+              4, // NXdlPerWave
+              2, // Gemm1NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector,
+              S<8, 32, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              2, // CShuffleNXdlPerWavePerShuffle
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec>; // MaskingSpecialization
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else {
+      using DeviceOpInstance = ck::tensor_operation::device::
+          DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
+              NumDimG,
+              NumDimM,
+              NumDimN,
+              NumDimK,
+              NumDimO,
+              ADataType,
+              B0DataType,
+              B1DataType,
+              CDataType,
+              Acc0BiasDataType,
+              Acc1BiasDataType,
+              AccDataType,
+              CShuffleDataType,
+              AElementOp,
+              B0ElementOp,
+              Acc0ElementOp,
+              B1ElementOp,
+              CElementOp,
+              GemmSpec,
+              TensorSpecA,
+              TensorSpecB0,
+              TensorSpecB1,
+              TensorSpecC,
+              1,
+              256,
+              128, // MPerBlock
+              128, // NPerBlock
+              32, // KPerBlock
+              128, // Gemm1NPerBlock
+              32, // Gemm1KPerBlock
+              8, // AK1
+              8, // BK1
+              2, // B1K1
+              32, // MPerXDL
+              32, // NPerXDL
+              1, // MXdlPerWave
+              4, // NXdlPerWave
+              4, // Gemm1NXdlPerWave
+              S<4, 64, 1>, // ABlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              S<4, 64, 1>, // BBlockTransfer
+              S<1, 0, 2>,
+              S<1, 0, 2>,
+              2,
+              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              8,
+              true,
+              Acc0BiasTransferSrcScalarPerVector,
+              S<8, 32, 1>, // B1BlockTransfer
+              S<0, 2, 1>,
+              S<0, 2, 1>,
+              1,
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              2,
+              false,
+              1, // CShuffleMXdlPerWavePerShuffle
+              4, // CShuffleNXdlPerWavePerShuffle
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              MaskingSpec>; // MaskingSpecialization
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    };
   };
 
   template <typename DeviceOpInstance>

From d408c83cbe30d6c529e24365b6b8eee139a37a9d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 17 Oct 2023 22:19:34 +0000
Subject: [PATCH 092/837] Tiny fix for packed q/k/v allocation

---
 xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 1a3b16b1e8..a234df42ad 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -135,6 +135,7 @@ efficient_attention_backward_ck(
     grad_q = chunk.select(2, 0);
     grad_k = chunk.select(2, 1);
     grad_v = chunk.select(2, 2);
+    grad_q.fill_(0);
   } else if (
       key.size(3) == value.size(3) &&
       key.storage().is_alias_of(value.storage())) {

From 93ef74e693979c437352c47c6d6d2a7be9a3e593 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 18 Oct 2023 17:52:27 +0000
Subject: [PATCH 093/837] Reset the flash-attention submodule to a commit so
 that our branch can be build on Nvidia/A100

---
 third_party/flash-attention | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/flash-attention b/third_party/flash-attention
index eff9fe6b80..9e5e8bc91e 160000
--- a/third_party/flash-attention
+++ b/third_party/flash-attention
@@ -1 +1 @@
-Subproject commit eff9fe6b8076df59d64d7a3f464696738a3c7c24
+Subproject commit 9e5e8bc91e30af5cdc321362b553f6c0da332e30

From 5214bf2421d32a5f86875e360c012758d0dcb995 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 18 Oct 2023 18:15:02 +0000
Subject: [PATCH 094/837] Use the same tested attn_bias types as cutlass.py and
 have test_backward passed all fp16 cases

---
 tests/test_mem_eff_attention_ck.py | 18 ++++++++++++++++--
 xformers/ops/fmha/ck.py            |  3 ++-
 2 files changed, 18 insertions(+), 3 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index fdfeb40e9e..230477f092 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -575,7 +575,7 @@ def test_forward(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
     if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
 
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
@@ -730,6 +730,20 @@ def test_backward(
         k,
         kv,
     ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    ## ToDo: reopen bfloat16 for testing
+    if dtype is torch.bfloat16:
+        pytest.skip("Temporarily disabled bfloat16 as we are still improving the accuracy of the results")
+
+    if k > 128 or kv > 128:
+        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
+
+    if k % 2 != 0 or kv % 2 !=0:
+        pytest.skip("head-dim length must be an even value for CK-FlashAttention")
+
+    if grad_out_contiguous is False:
+        pytest.skip("CK-FlashAttention requires grad_out and out have same lengths/strides")
+
     attn_bias_requires_grad = (
         random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
     )
@@ -1726,7 +1740,7 @@ def test_f16_biasf32(self) -> None:
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(fmha.ck.FwOp, None))
 
     def test_f32_biasf16(self) -> None:
-        pytest.skip("float32 is not supported currently by CK-FlashAttention-1")
+        pytest.skip("float32 is not supported currently by CK-FlashAttention")
         q, k, v, bias = self.create_tensors(torch.float32)
         fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
         bias = bias.to(torch.float16)
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 5f201f603e..143c74f79c 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -243,7 +243,8 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
-        LowerTriangularMaskWithTensorBias,
+        # TODO: Fix handling of gradient through the fMHA autograd function
+        # LowerTriangularMaskWithTensorBias,
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,

From fde7b42c4ff7e589e7aae6c4ee65f9e74da4aef2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 18 Oct 2023 19:41:14 +0000
Subject: [PATCH 095/837] Move to the latest composable_kernel submodule commit

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index ca9b152df4..f27f915811 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit ca9b152df45b394590d4348f41365b775a72ba2c
+Subproject commit f27f91581162c788f144f0f4f9aa68fa465a33fc

From 17635e0138d910f6ea3bd73a4f728920aea9a7c7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 18 Oct 2023 23:55:35 +0000
Subject: [PATCH 096/837] Simplify the head-dim based switch structure in
 batched/grouped infer

---
 .../hip_fmha/ck_fmha_batched_infer.h          | 318 ++++++------------
 .../hip_fmha/ck_fmha_grouped_infer.h          | 318 ++++++------------
 2 files changed, 206 insertions(+), 430 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index e72b6b773d..0f6e106cb7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -56,229 +56,117 @@ struct batched_infer_masktype_attnbias_dispatched {
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
 
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    // Tunables
-    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kB1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::
+      DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          kGemm1NPerBlock,
+          32,
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          kGemm1NXdlPerWave,
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
+          S<16, 16, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          kCShuffleNXdlPerWavePerShuffle,
+          S<1,
+            32,
+            1,
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          MaskingSpec>; // MaskingSpecialization
 
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
     if (param.K < 32 && param.Kv < 32) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              ADataType,
-              B0DataType,
-              B1DataType,
-              CDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              CShuffleDataType,
-              AElementOp,
-              B0ElementOp,
-              Acc0ElementOp,
-              B1ElementOp,
-              CElementOp,
-              GemmSpec,
-              TensorSpecA,
-              TensorSpecB0,
-              TensorSpecB1,
-              TensorSpecC,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              32, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              1, // MXdlPerWave
-              4, // NXdlPerWave
-              1, // Gemm1NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-              S<16, 16, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              1, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec>; // MaskingSpecialization
+      constexpr ck::index_t kGemm1NPerBlock = 32;
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else if (param.K < 64 && param.Kv < 64) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              ADataType,
-              B0DataType,
-              B1DataType,
-              CDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              CShuffleDataType,
-              AElementOp,
-              B0ElementOp,
-              Acc0ElementOp,
-              B1ElementOp,
-              CElementOp,
-              GemmSpec,
-              TensorSpecA,
-              TensorSpecB0,
-              TensorSpecB1,
-              TensorSpecC,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              64, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              1, // MXdlPerWave
-              4, // NXdlPerWave
-              2, // Gemm1NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-              S<16, 16, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              2, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec>; // MaskingSpecialization
+      constexpr ck::index_t kGemm1NPerBlock = 64;
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              ADataType,
-              B0DataType,
-              B1DataType,
-              CDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              CShuffleDataType,
-              AElementOp,
-              B0ElementOp,
-              Acc0ElementOp,
-              B1ElementOp,
-              CElementOp,
-              GemmSpec,
-              TensorSpecA,
-              TensorSpecB0,
-              TensorSpecB1,
-              TensorSpecC,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              128, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              1, // MXdlPerWave
-              4, // NXdlPerWave
-              4, // Gemm1NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
-              S<16, 16, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              4, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec>; // MaskingSpecialization
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 2a6faf5406..918020eba5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -57,229 +57,117 @@ struct grouped_infer_masktype_attnbias_dispatched {
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
 
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    // Tunables
-    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kB1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::
+      DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          kGemm1NPerBlock,
+          32,
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          kGemm1NXdlPerWave,
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          kAcc0BiasTransferSrcScalarPerVector,
+          S<8, 32, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          kCShuffleNXdlPerWavePerShuffle,
+          S<1,
+            32,
+            1,
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          MaskingSpec>; // MaskingSpecialization
 
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
     if (param.K < 32 && param.Kv < 32) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              ADataType,
-              B0DataType,
-              B1DataType,
-              CDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              CShuffleDataType,
-              AElementOp,
-              B0ElementOp,
-              Acc0ElementOp,
-              B1ElementOp,
-              CElementOp,
-              GemmSpec,
-              TensorSpecA,
-              TensorSpecB0,
-              TensorSpecB1,
-              TensorSpecC,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              32, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              1, // MXdlPerWave
-              4, // NXdlPerWave
-              1, // Gemm1NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              Acc0BiasTransferSrcScalarPerVector,
-              S<8, 32, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              1, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec>; // MaskingSpecialization
+      constexpr ck::index_t kGemm1NPerBlock = 32;
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else if (param.K < 64 && param.Kv < 64) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              ADataType,
-              B0DataType,
-              B1DataType,
-              CDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              CShuffleDataType,
-              AElementOp,
-              B0ElementOp,
-              Acc0ElementOp,
-              B1ElementOp,
-              CElementOp,
-              GemmSpec,
-              TensorSpecA,
-              TensorSpecB0,
-              TensorSpecB1,
-              TensorSpecC,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              64, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              1, // MXdlPerWave
-              4, // NXdlPerWave
-              2, // Gemm1NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              Acc0BiasTransferSrcScalarPerVector,
-              S<8, 32, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              2, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec>; // MaskingSpecialization
+      constexpr ck::index_t kGemm1NPerBlock = 64;
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              ADataType,
-              B0DataType,
-              B1DataType,
-              CDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              CShuffleDataType,
-              AElementOp,
-              B0ElementOp,
-              Acc0ElementOp,
-              B1ElementOp,
-              CElementOp,
-              GemmSpec,
-              TensorSpecA,
-              TensorSpecB0,
-              TensorSpecB1,
-              TensorSpecC,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              128, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              1, // MXdlPerWave
-              4, // NXdlPerWave
-              4, // Gemm1NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              Acc0BiasTransferSrcScalarPerVector,
-              S<8, 32, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              4, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec>; // MaskingSpecialization
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     };

From 9aa4ad31f17166eee3ce8cb4f1361dda3d822feb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 19 Oct 2023 12:34:13 +0000
Subject: [PATCH 097/837] Tiny fix in inference instance dispatch

---
 tests/test_mem_eff_attention_ck.py                       | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h | 4 ++--
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h | 4 ++--
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 230477f092..787c9b3f2e 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -738,7 +738,7 @@ def test_backward(
     if k > 128 or kv > 128:
         pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
 
-    if k % 2 != 0 or kv % 2 !=0:
+    if k % 2 != 0:
         pytest.skip("head-dim length must be an even value for CK-FlashAttention")
 
     if grad_out_contiguous is False:
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 0f6e106cb7..e5396d437d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -136,7 +136,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           MaskingSpec>; // MaskingSpecialization
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    if (param.K < 32 && param.Kv < 32) {
+    if (param.K <= 32 && param.Kv <= 32) {
       constexpr ck::index_t kGemm1NPerBlock = 32;
       constexpr ck::index_t kGemm1NXdlPerWave = 1;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
@@ -147,7 +147,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else if (param.K < 64 && param.Kv < 64) {
+    } else if (param.K <= 64 && param.Kv <= 64) {
       constexpr ck::index_t kGemm1NPerBlock = 64;
       constexpr ck::index_t kGemm1NXdlPerWave = 2;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 918020eba5..22faf161b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -137,7 +137,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           MaskingSpec>; // MaskingSpecialization
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    if (param.K < 32 && param.Kv < 32) {
+    if (param.K <= 32 && param.Kv <= 32) {
       constexpr ck::index_t kGemm1NPerBlock = 32;
       constexpr ck::index_t kGemm1NXdlPerWave = 1;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
@@ -148,7 +148,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           kCShuffleNXdlPerWavePerShuffle>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else if (param.K < 64 && param.Kv < 64) {
+    } else if (param.K <= 64 && param.Kv <= 64) {
       constexpr ck::index_t kGemm1NPerBlock = 64;
       constexpr ck::index_t kGemm1NXdlPerWave = 2;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;

From 7b41d9e604677bfda46670e85b5733292315923f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 19 Oct 2023 16:38:01 +0000
Subject: [PATCH 098/837] Use Deterministic (true) in backward instances

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index f339691a78..be1a91b3d0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -55,7 +55,7 @@ struct batched_backward_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecY =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
+  static constexpr bool Deterministic = true;
 
   static void Run(BatchedBackwardParams& param, hipStream_t stream) {
     // Tunables
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index a93e67082f..f6cd4d7324 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -56,7 +56,7 @@ struct grouped_backward_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr auto TensorSpecY =
       ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr bool Deterministic = false;
+  static constexpr bool Deterministic = true;
 
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     // Tunables

From 329fee186c95d247403defde9a475881d9d01555 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 19 Oct 2023 23:28:33 +0000
Subject: [PATCH 099/837] Add env-variable for enable/disable fp32 gradience
 output for q/k/v

---
 .../hip_fmha/attention_backward_generic.cpp   |  63 +++++++--
 .../hip_fmha/ck_fmha_batched_backward.h       |   9 +-
 .../ck_fmha_batched_backward_bp16.cpp         | 123 +++++++++++++----
 ..._fmha_batched_backward_bp16_masktype_0.cpp |  28 ++++
 ..._fmha_batched_backward_bp16_masktype_1.cpp |  28 ++++
 ..._fmha_batched_backward_bp16_masktype_2.cpp |  28 ++++
 .../ck_fmha_batched_backward_fp16.cpp         | 123 +++++++++++++----
 ..._fmha_batched_backward_fp16_masktype_0.cpp |  28 ++++
 ..._fmha_batched_backward_fp16_masktype_1.cpp |  28 ++++
 ..._fmha_batched_backward_fp16_masktype_2.cpp |  28 ++++
 .../hip_fmha/ck_fmha_grouped_backward.h       |   9 +-
 .../ck_fmha_grouped_backward_bp16.cpp         | 124 ++++++++++++++----
 ..._fmha_grouped_backward_bp16_masktype_0.cpp |  28 ++++
 ..._fmha_grouped_backward_bp16_masktype_1.cpp |  29 ++++
 ..._fmha_grouped_backward_bp16_masktype_2.cpp |  28 ++++
 .../ck_fmha_grouped_backward_fp16.cpp         | 123 +++++++++++++----
 ..._fmha_grouped_backward_fp16_masktype_0.cpp |  28 ++++
 ..._fmha_grouped_backward_fp16_masktype_1.cpp |  28 ++++
 ..._fmha_grouped_backward_fp16_masktype_2.cpp |  28 ++++
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |   4 +
 .../attention/hip_fmha/ck_static_switch.h     |  23 ++++
 21 files changed, 832 insertions(+), 106 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_static_switch.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index a234df42ad..c142352e00 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -1,4 +1,5 @@
 #include <cmath>
+#include <cstdlib>
 
 #include <ATen/Context.h>
 #include <ATen/ScalarOps.h>
@@ -109,6 +110,12 @@ efficient_attention_backward_ck(
     TORCH_CHECK(max_seqlen_q_.has_value());
   }
 
+  bool use_fp32_qkv_grad = false;
+
+  if (const char* env_str = std::getenv("USE_FP32_QKV_GRAD")) {
+    use_fp32_qkv_grad = (std::stoi(env_str) > 0) ? true : false;
+  };
+
   // at::cuda::CUDAGuard device_guard(query.device());
   hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
 
@@ -131,7 +138,11 @@ efficient_attention_backward_ck(
     // output of a linear layer that is chunked.
     // Creating the gradients with the right layout saves us
     // a `torch.cat` call in the backward pass
-    at::Tensor chunk = at::empty({B, M, 3, num_heads, K}, opts);
+    at::Tensor chunk;
+    if (use_fp32_qkv_grad)
+      chunk = at::empty({B, M, 3, num_heads, K}, opts.dtype(at::kFloat));
+    else
+      chunk = at::empty({B, M, 3, num_heads, K}, opts);
     grad_q = chunk.select(2, 0);
     grad_k = chunk.select(2, 1);
     grad_v = chunk.select(2, 2);
@@ -144,16 +155,36 @@ efficient_attention_backward_ck(
     // output of a linear layer that is chunked.
     // Creating the gradients with the right layout saves us
     // a `torch.cat` call in the backward pass
-    at::Tensor chunk = at::empty({B, N, 2, num_heads, Kv}, opts);
+    at::Tensor chunk;
+    if (use_fp32_qkv_grad)
+      chunk = at::empty({B, N, 2, num_heads, Kv}, opts.dtype(at::kFloat));
+    else
+      chunk = at::empty({B, N, 2, num_heads, Kv}, opts);
     grad_k = chunk.select(2, 0);
     grad_v = chunk.select(2, 1);
 
-    grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+    if (use_fp32_qkv_grad)
+      grad_q = at::empty_strided(
+          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
+    else
+      grad_q =
+          at::empty_strided(query.sizes(), query.strides(), query.options());
     grad_q.fill_(0);
   } else {
-    grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
-    grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
-    grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
+    if (use_fp32_qkv_grad) {
+      grad_q = at::empty_strided(
+          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
+      grad_k = at::empty_strided(
+          key.sizes(), key.strides(), key.options().dtype(at::kFloat));
+      grad_v = at::empty_strided(
+          value.sizes(), value.strides(), value.options().dtype(at::kFloat));
+    } else {
+      grad_q =
+          at::empty_strided(query.sizes(), query.strides(), query.options());
+      grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
+      grad_v =
+          at::empty_strided(value.sizes(), value.strides(), value.options());
+    }
     grad_q.fill_(0);
   }
 
@@ -167,6 +198,8 @@ efficient_attention_backward_ck(
 
   const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
 
+  // even it is an output, the grad_bias is required to use the same data-type
+  // as bias in CK-FlashAttn
   if (bias_requires_grad)
     grad_bias =
         at::empty_strided(bias->sizes(), bias->strides(), bias->options());
@@ -179,6 +212,8 @@ efficient_attention_backward_ck(
     p.K = K;
     p.Kv = Kv;
 
+    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+
     TORCH_CHECK(p.B == logsumexp.size(0));
     TORCH_CHECK(p.num_heads == logsumexp.size(1));
     TORCH_CHECK(p.M == logsumexp.size(2));
@@ -263,6 +298,8 @@ efficient_attention_backward_ck(
     p.K = K;
     p.Kv = Kv;
 
+    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+
     p.max_seqlen_q = *max_seqlen_q_;
 
     TORCH_CHECK(p.num_batches == logsumexp.size(0));
@@ -357,6 +394,14 @@ efficient_attention_backward_ck(
         ? reinterpret_cast<char*>(grad_bias.data_ptr())
         : nullptr;
 
+    int multiplier = 1;
+
+    if (p.use_fp32_qkv_grad)
+      multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
+          get_size_in_bytes(1, query.scalar_type());
+
+    std::cout << "qkv-grad precision multiplier is " << multiplier << std::endl;
+
     for (int i = 0; i < p.num_batches; i++) {
       size_t tmp_q_offset = get_size_in_bytes(
           static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
@@ -376,15 +421,15 @@ efficient_attention_backward_ck(
 
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.grad_q_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset]));
+          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
 
       p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
       p.grad_k_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_k_ptr[tmp_k_offset]));
+          reinterpret_cast<void*>(&grad_k_ptr[tmp_k_offset * multiplier]));
 
       p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
       p.grad_v_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_v_ptr[tmp_v_offset]));
+          reinterpret_cast<void*>(&grad_v_ptr[tmp_v_offset * multiplier]));
 
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
       p.grad_out_ptrs.push_back(
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index be1a91b3d0..317e3b54cb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -13,7 +13,11 @@
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
 struct batched_backward_masktype_attnbias_dispatched {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
   using Scale = ck::tensor_operation::element_wise::Scale;
@@ -22,7 +26,8 @@ struct batched_backward_masktype_attnbias_dispatched {
   using YElementOp = PassThrough;
 
   using InputDataType = scalar_t;
-  using OutputDataType = scalar_t;
+  using OutputDataType =
+      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
   using GemmDataType = scalar_t;
   using AccDataType = F32;
   using ShuffleDataType = F32;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 8f23dc9b39..5b6ec3c2bf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -2,29 +2,106 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_backward.h"
+#include "ck_static_switch.h"
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>;
 
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
-          param, stream);
-    else
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
-          param, stream);
-    else
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
-    else
-      batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0)
+          batched_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        else if (param.custom_mask_type == 1)
+          batched_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        else if (param.custom_mask_type == 2)
+          batched_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp
new file mode 100644
index 0000000000..3b27b27f71
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp
@@ -0,0 +1,28 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp
new file mode 100644
index 0000000000..a59443dc06
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp
@@ -0,0 +1,28 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp
new file mode 100644
index 0000000000..28396507c6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp
@@ -0,0 +1,28 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index dd77a559af..a6f09ea547 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -2,29 +2,106 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_backward.h"
+#include "ck_static_switch.h"
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>;
+
+extern template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>;
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
-          param, stream);
-    else
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
-          param, stream);
-    else
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
-          param, stream);
-    else
-      batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0)
+          batched_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        else if (param.custom_mask_type == 1)
+          batched_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        else if (param.custom_mask_type == 2)
+          batched_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..6b6d09949e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp
@@ -0,0 +1,28 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..c11fb25354
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp
@@ -0,0 +1,28 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..9dc0df5e92
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp
@@ -0,0 +1,28 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index f6cd4d7324..e0446bbcbe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -14,7 +14,11 @@
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
 struct grouped_backward_masktype_attnbias_dispatched {
   using PassThrough = ck::tensor_operation::element_wise::PassThrough;
   using Scale = ck::tensor_operation::element_wise::Scale;
@@ -23,7 +27,8 @@ struct grouped_backward_masktype_attnbias_dispatched {
   using YElementOp = PassThrough;
 
   using InputDataType = scalar_t;
-  using OutputDataType = scalar_t;
+  using OutputDataType =
+      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
   using GemmDataType = scalar_t;
   using AccDataType = F32;
   using ShuffleDataType = F32;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index 5a9c50ba5f..2d18eefe6c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -2,30 +2,106 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_backward.h"
+#include "ck_static_switch.h"
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>;
 
 void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
-          param, stream);
-    else
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
-          param, stream);
-    else
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
-          param, stream);
-
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
-    else
-      grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0) {
+          grouped_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        } else if (param.custom_mask_type == 1) {
+          grouped_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        } else if (param.custom_mask_type == 2) {
+          grouped_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        } else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp
new file mode 100644
index 0000000000..703176268e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
new file mode 100644
index 0000000000..2892cd1299
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
@@ -0,0 +1,29 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+#include "ck_static_switch.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp
new file mode 100644
index 0000000000..535ea659d7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index 450632bd38..e06a7dc582 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -2,29 +2,106 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_backward.h"
+#include "ck_static_switch.h"
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>;
+
+extern template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>;
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
-          param, stream);
-    else
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
-          param, stream);
-    else
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
-          param, stream);
-    else
-      grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0) {
+          grouped_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        } else if (param.custom_mask_type == 1) {
+          grouped_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        } else if (param.custom_mask_type == 2) {
+          grouped_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>::Run(param, stream);
+        } else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..409c2d159e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..9662fe5295
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..d13fd9b05d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp
@@ -0,0 +1,28 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 73961d0a86..2778da001b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -105,6 +105,8 @@ struct BatchedBackwardParams {
   bool has_attn_bias;
   bool bias_has_grad;
 
+  bool use_fp32_qkv_grad;
+
   // BMHK mode strides, last-dim contiguous
   std::array<int, 4> q_strides;
   std::array<int, 4> k_strides;
@@ -152,6 +154,8 @@ struct GroupedBackwardParams {
   bool has_attn_bias;
   bool bias_has_grad;
 
+  bool use_fp32_qkv_grad;
+
   // MHK mode strides, last-dim contiguous
   std::array<int, 3> q_strides;
   std::array<int, 3> k_strides;
diff --git a/xformers/csrc/attention/hip_fmha/ck_static_switch.h b/xformers/csrc/attention/hip_fmha/ck_static_switch.h
new file mode 100644
index 0000000000..4e447a1430
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_static_switch.h
@@ -0,0 +1,23 @@
+#pragma once
+
+#define BOOL_SWITCH_1(COND1, CONST_NAME1, ...) \
+  [&] {                                        \
+    if (COND1) {                               \
+      constexpr bool CONST_NAME1 = true;       \
+      __VA_ARGS__();                           \
+    } else {                                   \
+      constexpr bool CONST_NAME1 = false;      \
+      __VA_ARGS__();                           \
+    }                                          \
+  }()
+
+#define BOOL_SWITCH_2(COND1, CONST_NAME1, COND2, CONST_NAME2, ...) \
+  [&] {                                                            \
+    if (COND1) {                                                   \
+      constexpr bool CONST_NAME1 = true;                           \
+      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);             \
+    } else {                                                       \
+      constexpr bool CONST_NAME1 = false;                          \
+      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);             \
+    }                                                              \
+  }()

From a59e87c29133e9144e24505cecea7e817130e7ad Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Oct 2023 00:38:52 +0000
Subject: [PATCH 100/837] Simplify dispatching using BOOL_SWITCH and accelerate
 compiling by splitting C++ files (forward)

---
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp | 71 +++++++++++++------
 ...k_fmha_batched_forward_bp16_masktype_0.cpp | 14 ++++
 ...k_fmha_batched_forward_bp16_masktype_1.cpp | 14 ++++
 ...k_fmha_batched_forward_bp16_masktype_2.cpp | 14 ++++
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp | 71 +++++++++++++------
 ...k_fmha_batched_forward_fp16_masktype_0.cpp | 14 ++++
 ...k_fmha_batched_forward_fp16_masktype_1.cpp | 14 ++++
 ...k_fmha_batched_forward_fp16_masktype_2.cpp | 14 ++++
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp | 53 +++++++++-----
 ...k_fmha_grouped_forward_bp16_masktype_0.cpp | 14 ++++
 ...k_fmha_grouped_forward_bp16_masktype_1.cpp | 14 ++++
 ...k_fmha_grouped_forward_bp16_masktype_2.cpp | 14 ++++
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp | 53 +++++++++-----
 ...k_fmha_grouped_forward_fp16_masktype_0.cpp | 14 ++++
 ...k_fmha_grouped_forward_fp16_masktype_1.cpp | 14 ++++
 ...k_fmha_grouped_forward_fp16_masktype_2.cpp | 14 ++++
 16 files changed, 340 insertions(+), 76 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 7be431c387..6deae7724a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -2,29 +2,56 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_forward.h"
+#include "ck_static_switch.h"
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
 
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      batched_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 1)
+      batched_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 2)
+      batched_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp
new file mode 100644
index 0000000000..3813bfbe20
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp
new file mode 100644
index 0000000000..7ea33a2a9f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp
new file mode 100644
index 0000000000..732704f620
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index 543a2c2536..7e4b9cb8c4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -2,29 +2,56 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_forward.h"
+#include "ck_static_switch.h"
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
+
+extern template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
-          param, stream);
-    else
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
-          param, stream);
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      batched_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 1)
+      batched_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 2)
+      batched_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else
-      batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..a9fbc47d76
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..7712f091f1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..45874124e0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index e459d16d9a..00f92bdaeb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -2,29 +2,50 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_forward.h"
+#include "ck_static_switch.h"
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
 
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
       grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
           param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
+    else if (param.custom_mask_type == 1)
       grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
           param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
+    else if (param.custom_mask_type == 2)
       grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp
new file mode 100644
index 0000000000..55629443b1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp
new file mode 100644
index 0000000000..c1ed66880e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp
new file mode 100644
index 0000000000..e41a762788
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index cadc30b4bd..e3b0736b8f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -2,29 +2,50 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_forward.h"
+#include "ck_static_switch.h"
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
+
+extern template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
       grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
           param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
+    else if (param.custom_mask_type == 1)
       grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
           param, stream);
-    else
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
+    else if (param.custom_mask_type == 2)
       grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
           param, stream);
     else
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..3a2c45e6f7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..83b62defcf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..7ef8f40a29
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;

From 30fc69f56720ed1b93a32b42d50d6f4cf8bdc5ce Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Oct 2023 14:13:19 +0000
Subject: [PATCH 101/837] Simplify dispatching using BOOL_SWITCH and accelerate
 compiling by splitting C++ files (infer)

---
 .../hip_fmha/ck_fmha_batched_infer_bp16.cpp   | 71 +++++++++++++------
 .../ck_fmha_batched_infer_bp16_masktype_0.cpp | 14 ++++
 .../ck_fmha_batched_infer_bp16_masktype_1.cpp | 14 ++++
 .../ck_fmha_batched_infer_bp16_masktype_2.cpp | 14 ++++
 .../hip_fmha/ck_fmha_batched_infer_fp16.cpp   | 65 +++++++++++------
 .../ck_fmha_batched_infer_fp16_masktype_0.cpp | 11 +++
 .../ck_fmha_batched_infer_fp16_masktype_1.cpp | 11 +++
 .../ck_fmha_batched_infer_fp16_masktype_2.cpp | 11 +++
 .../hip_fmha/ck_fmha_grouped_infer_bp16.cpp   | 71 +++++++++++++------
 .../ck_fmha_grouped_infer_bp16_masktype_0.cpp | 14 ++++
 .../ck_fmha_grouped_infer_bp16_masktype_1.cpp | 14 ++++
 .../ck_fmha_grouped_infer_bp16_masktype_2.cpp | 14 ++++
 .../hip_fmha/ck_fmha_grouped_infer_fp16.cpp   | 65 +++++++++++------
 .../ck_fmha_grouped_infer_fp16_masktype_0.cpp | 11 +++
 .../ck_fmha_grouped_infer_fp16_masktype_1.cpp | 11 +++
 .../ck_fmha_grouped_infer_fp16_masktype_2.cpp | 11 +++
 16 files changed, 334 insertions(+), 88 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
index bd62aebe26..5d44a4e994 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
@@ -2,29 +2,56 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
+#include "ck_static_switch.h"
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
-          param, stream);
-    else
-      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
-          param, stream);
-    else
-      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 1)
+      batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 2)
+      batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else
-      batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp
new file mode 100644
index 0000000000..7d0a4c910c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp
new file mode 100644
index 0000000000..5aad14a674
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp
new file mode 100644
index 0000000000..e0ddb158db
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
index 3429c088e9..fa0bdd42d8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
@@ -2,29 +2,50 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
+#include "ck_static_switch.h"
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
+
+extern template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
-          param, stream);
-    else
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
-          param, stream);
-    else
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
-          param, stream);
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>::
+          Run(param, stream);
+    else if (param.custom_mask_type == 1)
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>::
+          Run(param, stream);
+    else if (param.custom_mask_type == 2)
+      batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>::
+          Run(param, stream);
     else
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..fa3ac06cd6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp
@@ -0,0 +1,11 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..ea4833f23e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp
@@ -0,0 +1,11 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..54c046e611
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp
@@ -0,0 +1,11 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
index d3accc720f..7963729516 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
@@ -2,29 +2,56 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
+#include "ck_static_switch.h"
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
-          param, stream);
-    else
-      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
-          param, stream);
-    else
-      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 1)
+      grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>::Run(param, stream);
+    else if (param.custom_mask_type == 2)
+      grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else
-      grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp
new file mode 100644
index 0000000000..6b6658de6f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp
new file mode 100644
index 0000000000..232517d2ba
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp
new file mode 100644
index 0000000000..19e58447ae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
index d2e8466831..ffc89ed539 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
@@ -2,29 +2,50 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
+#include "ck_static_switch.h"
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
+
+extern template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0) {
-    if (param.has_attn_bias)
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
-          param, stream);
-    else
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 1) {
-    if (param.has_attn_bias)
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
-          param, stream);
-    else
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>::Run(
-          param, stream);
-  } else if (param.custom_mask_type == 2) {
-    if (param.has_attn_bias)
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
-          param, stream);
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>::
+          Run(param, stream);
+    else if (param.custom_mask_type == 1)
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>::
+          Run(param, stream);
+    else if (param.custom_mask_type == 2)
+      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>::
+          Run(param, stream);
     else
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>::Run(
-          param, stream);
-  } else
-    throw std::runtime_error("Invalid custom_mask_type value");
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..ded6fe928d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp
@@ -0,0 +1,11 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..7eb3721289
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp
@@ -0,0 +1,11 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..95281e7bad
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp
@@ -0,0 +1,11 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>;

From 375d39c2289c7542815e210a477c8d5f9edbd887 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Oct 2023 23:59:55 +0000
Subject: [PATCH 102/837] Some fixes

---
 .../hip_fmha/attention_backward_generic.cpp    |  2 +-
 ...k_fmha_grouped_backward_bp16_masktype_1.cpp |  1 -
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp  | 18 ++++++++++++------
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp  | 18 ++++++++++++------
 4 files changed, 25 insertions(+), 14 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index c142352e00..1d28afd8ca 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -394,7 +394,7 @@ efficient_attention_backward_ck(
         ? reinterpret_cast<char*>(grad_bias.data_ptr())
         : nullptr;
 
-    int multiplier = 1;
+    size_t multiplier = 1;
 
     if (p.use_fp32_qkv_grad)
       multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
index 2892cd1299..6f5531b759 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
@@ -2,7 +2,6 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_backward.h"
-#include "ck_static_switch.h"
 
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index 00f92bdaeb..04769122d0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -37,14 +37,20 @@ extern template struct grouped_forward_masktype_attnbias_dispatched<
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>::Run(
-          param, stream);
+      grouped_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else if (param.custom_mask_type == 1)
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>::Run(
-          param, stream);
+      grouped_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else if (param.custom_mask_type == 2)
-      grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>::Run(
-          param, stream);
+      grouped_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index e3b0736b8f..9c059d9b77 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -37,14 +37,20 @@ extern template struct grouped_forward_masktype_attnbias_dispatched<
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>::Run(
-          param, stream);
+      grouped_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else if (param.custom_mask_type == 1)
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>::Run(
-          param, stream);
+      grouped_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else if (param.custom_mask_type == 2)
-      grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>::Run(
-          param, stream);
+      grouped_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>::Run(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });

From 49fddae636f6a8fc10a284fe630224cbd2fc8403 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 21 Oct 2023 23:08:27 +0000
Subject: [PATCH 103/837] Clarify the naming of the tunable scalar_per_vector
 template parameters for infer/forward/backward

---
 .../hip_fmha/ck_fmha_batched_backward.h       | 33 ++++++++++---------
 .../hip_fmha/ck_fmha_batched_forward.h        | 17 +++++-----
 .../hip_fmha/ck_fmha_batched_infer.h          |  7 ++--
 .../hip_fmha/ck_fmha_grouped_backward.h       | 33 ++++++++++---------
 .../hip_fmha/ck_fmha_grouped_forward.h        | 17 +++++-----
 .../hip_fmha/ck_fmha_grouped_infer.h          |  7 ++--
 6 files changed, 60 insertions(+), 54 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 317e3b54cb..75b5727084 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -64,9 +64,10 @@ struct batched_backward_masktype_attnbias_dispatched {
 
   static void Run(BatchedBackwardParams& param, hipStream_t stream) {
     // Tunables
-    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
     if (param.K <= 32 && param.Kv <= 32) {
       using DeviceOpInstance = ck::tensor_operation::device::
@@ -116,21 +117,21 @@ struct batched_backward_masktype_attnbias_dispatched {
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
               S<4, 64, 1>, // BBlockTransfer
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
               1,
               1,
               S<1, 64, 1, 4>,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
 
@@ -183,21 +184,21 @@ struct batched_backward_masktype_attnbias_dispatched {
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
               S<4, 64, 1>, // BBlockTransfer
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
               1,
               2,
               S<1, 32, 1, 8>,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
 
@@ -250,28 +251,28 @@ struct batched_backward_masktype_attnbias_dispatched {
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
               S<4, 64, 1>, // B0BlockTransfer
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
               S<8, 32, 1>, // B1BlockTransfer
               S<0, 2, 1>,
               S<0, 2, 1>,
               1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kB1BlockTransferSrcScalarPerVector, // TUNABLE
               2,
               false,
               1, // CShuffleMXdlPerWavePerShuffle
               4, // CShuffleNXdlPerWavePerShuffle
               S<1, 32, 1, 8>,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index c144cc5f56..c2ecfccd51 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -58,9 +58,10 @@ struct batched_forward_masktype_attnbias_dispatched {
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     // Tunables
-    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
     using DeviceOpInstance = ck::tensor_operation::device::
         DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
@@ -110,22 +111,22 @@ struct batched_forward_masktype_attnbias_dispatched {
             S<1, 0, 2>,
             S<1, 0, 2>,
             2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            kABBlockTransferSrcScalarPerVector, // TUNABLE
             8,
             true,
             S<4, 64, 1>, // BBlockTransfer
             S<1, 0, 2>,
             S<1, 0, 2>,
             2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            kABBlockTransferSrcScalarPerVector, // TUNABLE
             8,
             true,
-            Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+            kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
             S<16, 16, 1>, // B1BlockTransfer
             S<0, 2, 1>,
             S<0, 2, 1>,
             1,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            kB1BlockTransferSrcScalarPerVector, // TUNABLE
             2,
             false,
             1, // CShuffleMXdlPerWavePerShuffle
@@ -134,7 +135,7 @@ struct batched_forward_masktype_attnbias_dispatched {
               32,
               1,
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            kCShuffleBlockTransferScalarPerVector, // TUNABLE
             4,
             MaskingSpec>; // MaskingSpecialization
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index e5396d437d..53bdaa1e93 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -57,7 +57,8 @@ struct batched_infer_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
 
   static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
   template <
@@ -123,7 +124,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,
-          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          kB1BlockTransferSrcScalarPerVector, // TUNABLE
           2,
           false,
           1, // CShuffleMXdlPerWavePerShuffle
@@ -132,7 +133,7 @@ struct batched_infer_masktype_attnbias_dispatched {
             32,
             1,
             8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          kCShuffleBlockTransferScalarPerVector, // TUNABLE
           MaskingSpec>; // MaskingSpecialization
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index e0446bbcbe..f4afd8a75b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -65,9 +65,10 @@ struct grouped_backward_masktype_attnbias_dispatched {
 
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     // Tunables
-    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1; // 8
-    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1; // 4
-    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1; // 4
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
     if (param.K <= 32 && param.Kv <= 32) {
       using DeviceOpInstance = ck::tensor_operation::device::
@@ -117,21 +118,21 @@ struct grouped_backward_masktype_attnbias_dispatched {
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
               S<4, 64, 1>, // BBlockTransfer
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
               1,
               1,
               S<1, 64, 1, 4>,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
 
@@ -184,21 +185,21 @@ struct grouped_backward_masktype_attnbias_dispatched {
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
               S<4, 64, 1>, // BBlockTransfer
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
               1,
               2,
               S<1, 32, 1, 8>,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
 
@@ -251,28 +252,28 @@ struct grouped_backward_masktype_attnbias_dispatched {
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
               S<4, 64, 1>, // B0BlockTransfer
               S<1, 0, 2>,
               S<1, 0, 2>,
               2,
-              ABBlockTransferSrcScalarPerVector, // TUNABLE
+              kABBlockTransferSrcScalarPerVector, // TUNABLE
               8,
               true,
-              Acc0BiasTransferSrcScalarPerVector, // TUNABLE
+              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
               S<8, 32, 1>, // B1BlockTransfer
               S<0, 2, 1>,
               S<0, 2, 1>,
               1,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kB1BlockTransferSrcScalarPerVector, // TUNABLE
               2,
               false,
               1, // CShuffleMXdlPerWavePerShuffle
               4, // CShuffleNXdlPerWavePerShuffle
               S<1, 32, 1, 8>,
-              B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+              kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 74ebfc5a9b..a47cee4389 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -59,9 +59,10 @@ struct grouped_forward_masktype_attnbias_dispatched {
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     // Tunables
-    constexpr ck::index_t ABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t B1CShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
     using DeviceOpInstance = ck::tensor_operation::device::
         DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
@@ -111,22 +112,22 @@ struct grouped_forward_masktype_attnbias_dispatched {
             S<1, 0, 2>,
             S<1, 0, 2>,
             2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            kABBlockTransferSrcScalarPerVector, // TUNABLE
             8,
             true,
             S<4, 64, 1>, // BBlockTransfer
             S<1, 0, 2>,
             S<1, 0, 2>,
             2,
-            ABBlockTransferSrcScalarPerVector, // TUNABLE
+            kABBlockTransferSrcScalarPerVector, // TUNABLE
             8,
             true,
-            Acc0BiasTransferSrcScalarPerVector,
+            kAcc0BiasTransferSrcScalarPerVector,
             S<8, 32, 1>, // B1BlockTransfer
             S<0, 2, 1>,
             S<0, 2, 1>,
             1,
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            kB1BlockTransferSrcScalarPerVector, // TUNABLE
             2,
             false,
             1, // CShuffleMXdlPerWavePerShuffle
@@ -135,7 +136,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
               32,
               1,
               8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-            B1CShuffleBlockTransferScalarPerVector, // TUNABLE
+            kCShuffleBlockTransferScalarPerVector, // TUNABLE
             1,
             MaskingSpec>; // MaskingSpecialization
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 22faf161b5..2101181dc5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -58,7 +58,8 @@ struct grouped_infer_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
 
   static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1CShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
   template <
@@ -124,7 +125,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           S<0, 2, 1>,
           S<0, 2, 1>,
           1,
-          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          kB1BlockTransferSrcScalarPerVector, // TUNABLE
           2,
           false,
           1, // CShuffleMXdlPerWavePerShuffle
@@ -133,7 +134,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
             32,
             1,
             8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          kB1CShuffleBlockTransferScalarPerVector, // TUNABLE
+          kCShuffleBlockTransferScalarPerVector, // TUNABLE
           MaskingSpec>; // MaskingSpecialization
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {

From ae3f73ed3ff5f3fce944077642297b737b4b8630 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 22 Oct 2023 11:53:12 +0000
Subject: [PATCH 104/837] Use separate DeviceOpInstance according to head-dim
 size with fmha forward

---
 .../hip_fmha/ck_fmha_batched_forward.h        | 203 +++++++++++-------
 .../hip_fmha/ck_fmha_grouped_forward.h        | 201 ++++++++++-------
 2 files changed, 239 insertions(+), 165 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index c2ecfccd51..c32667315e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -56,90 +56,127 @@ struct batched_forward_masktype_attnbias_dispatched {
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
 
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    // Tunables
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-    using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
-            NumDimG,
-            NumDimM,
-            NumDimN,
-            NumDimK,
-            NumDimO,
-            ADataType,
-            B0DataType,
-            B1DataType,
-            CDataType,
-            GemmDataType,
-            ZDataType,
-            LSEDataType,
-            Acc0BiasDataType,
-            Acc1BiasDataType,
-            AccDataType,
-            CShuffleDataType,
-            AElementOp,
-            B0ElementOp,
-            Acc0ElementOp,
-            B1ElementOp,
-            CElementOp,
-            GemmSpec,
-            TensorSpecA,
-            TensorSpecB0,
-            TensorSpecB1,
-            TensorSpecC,
-            1,
-            256,
-            128, // MPerBlock
-            128, // NPerBlock
-            32, // KPerBlock
-            64, // Gemm1NPerBlock
-            32, // Gemm1KPerBlock
-            8, // AK1
-            8, // BK1
-            2, // B1K1
-            32, // MPerXDL
-            32, // NPerXDL
-            1, // MXdlPerWave
-            4, // NXdlPerWave
-            2, // Gemm1NXdlPerWave
-            1, // DropoutStep
-            S<4, 64, 1>, // ABlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            kABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            S<4, 64, 1>, // BBlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            kABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-            S<16, 16, 1>, // B1BlockTransfer
-            S<0, 2, 1>,
-            S<0, 2, 1>,
+  // Tunables
+  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::
+      DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          kGemm1NPerBlock,
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          kGemm1NXdlPerWave,
+          1, // DropoutStep
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
+          S<16, 16, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          kB1BlockTransferSrcScalarPerVector, // TUNABLE
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          kCShuffleNXdlPerWavePerShuffle,
+          S<1,
+            32,
             1,
-            kB1BlockTransferSrcScalarPerVector, // TUNABLE
-            2,
-            false,
-            1, // CShuffleMXdlPerWavePerShuffle
-            2, // CShuffleNXdlPerWavePerShuffle
-            S<1,
-              32,
-              1,
-              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-            kCShuffleBlockTransferScalarPerVector, // TUNABLE
-            4,
-            MaskingSpec>; // MaskingSpecialization
-
-    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          kCShuffleBlockTransferScalarPerVector, // TUNABLE
+          4,
+          MaskingSpec>; // MaskingSpecialization
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    if (param.K <= 32 && param.Kv <= 32) {
+      constexpr ck::index_t kGemm1NPerBlock = 32;
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else if (param.K <= 64 && param.Kv <= 64) {
+      constexpr ck::index_t kGemm1NPerBlock = 64;
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else {
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    };
   };
 
   template <typename DeviceOpInstance>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index a47cee4389..c1bb0d3a51 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -57,90 +57,127 @@ struct grouped_forward_masktype_attnbias_dispatched {
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
 
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    // Tunables
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-    using DeviceOpInstance = ck::tensor_operation::device::
-        DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
-            NumDimG,
-            NumDimM,
-            NumDimN,
-            NumDimK,
-            NumDimO,
-            ADataType,
-            B0DataType,
-            B1DataType,
-            CDataType,
-            GemmDataType,
-            ZDataType,
-            LSEDataType,
-            Acc0BiasDataType,
-            Acc1BiasDataType,
-            AccDataType,
-            CShuffleDataType,
-            AElementOp,
-            B0ElementOp,
-            Acc0ElementOp,
-            B1ElementOp,
-            CElementOp,
-            GemmSpec,
-            TensorSpecA,
-            TensorSpecB0,
-            TensorSpecB1,
-            TensorSpecC,
-            1,
-            256,
-            128, // MPerBlock
-            128, // NPerBlock
-            32, // KPerBlock
-            128, // Gemm1NPerBlock
-            32, // Gemm1KPerBlock
-            8, // AK1
-            8, // BK1
-            2, // B1K1
-            32, // MPerXDL
-            32, // NPerXDL
-            1, // MXdlPerWave
-            4, // NXdlPerWave
-            4, // Gemm1NXdlPerWave
-            1, // DropoutStep
-            S<4, 64, 1>, // ABlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            kABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            S<4, 64, 1>, // BBlockTransfer
-            S<1, 0, 2>,
-            S<1, 0, 2>,
-            2,
-            kABBlockTransferSrcScalarPerVector, // TUNABLE
-            8,
-            true,
-            kAcc0BiasTransferSrcScalarPerVector,
-            S<8, 32, 1>, // B1BlockTransfer
-            S<0, 2, 1>,
-            S<0, 2, 1>,
+  // Tunables
+  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::
+      DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          ADataType,
+          B0DataType,
+          B1DataType,
+          CDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          CShuffleDataType,
+          AElementOp,
+          B0ElementOp,
+          Acc0ElementOp,
+          B1ElementOp,
+          CElementOp,
+          GemmSpec,
+          TensorSpecA,
+          TensorSpecB0,
+          TensorSpecB1,
+          TensorSpecC,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          32, // KPerBlock
+          kGemm1NPerBlock,
+          32, // Gemm1KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          1, // MXdlPerWave
+          4, // NXdlPerWave
+          kGemm1NXdlPerWave,
+          1, // DropoutStep
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          kAcc0BiasTransferSrcScalarPerVector,
+          S<8, 32, 1>, // B1BlockTransfer
+          S<0, 2, 1>,
+          S<0, 2, 1>,
+          1,
+          kB1BlockTransferSrcScalarPerVector, // TUNABLE
+          2,
+          false,
+          1, // CShuffleMXdlPerWavePerShuffle
+          kCShuffleNXdlPerWavePerShuffle,
+          S<1,
+            32,
             1,
-            kB1BlockTransferSrcScalarPerVector, // TUNABLE
-            2,
-            false,
-            1, // CShuffleMXdlPerWavePerShuffle
-            2, // CShuffleNXdlPerWavePerShuffle
-            S<1,
-              32,
-              1,
-              8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-            kCShuffleBlockTransferScalarPerVector, // TUNABLE
-            1,
-            MaskingSpec>; // MaskingSpecialization
+            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
+          kCShuffleBlockTransferScalarPerVector, // TUNABLE
+          1,
+          MaskingSpec>; // MaskingSpecialization
 
-    RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    if (param.K <= 32 && param.Kv <= 32) {
+      constexpr ck::index_t kGemm1NPerBlock = 32;
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else if (param.K <= 64 && param.Kv <= 64) {
+      constexpr ck::index_t kGemm1NPerBlock = 64;
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    } else {
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle>;
+
+      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    };
   };
 
   template <typename DeviceOpInstance>

From 060c372f121bf4f4616d646dc66cbd23735e529b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 22 Oct 2023 20:46:18 +0000
Subject: [PATCH 105/837] Select some template parameters as tunables for
 backward

---
 .../hip_fmha/ck_fmha_batched_backward.h       | 234 ++++++++----------
 .../hip_fmha/ck_fmha_grouped_backward.h       | 229 +++++++----------
 2 files changed, 194 insertions(+), 269 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 75b5727084..beb93f7c20 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -62,145 +62,106 @@ struct batched_backward_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = true;
 
-  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
-    // Tunables
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      typename kCShuffleBlockTransferClusterLengths>
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::
+      DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          InputDataType,
+          OutputDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          ShuffleDataType,
+          QKVElementOp,
+          QKVElementOp,
+          Scale,
+          QKVElementOp,
+          YElementOp,
+          GemmSpec,
+          TensorSpecQ,
+          TensorSpecK,
+          TensorSpecV,
+          TensorSpecY,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          kGemm1NPerBlock, // KPerBlock == kGemm1NPerBlock required
+          kGemm1NPerBlock,
+          32, // Gemm1KperBlock
+          32, // Gemm2KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          4, // MXdlPerWave
+          1, // NXdlPerWave
+          kGemm1NXdlPerWave,
+          1, // Gemm2NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
+          1, // CShuffleMXdlPerWavePerShuffle
+          kCShuffleNXdlPerWavePerShuffle,
+          kCShuffleBlockTransferClusterLengths,
+          kCShuffleBlockTransferScalarPerVector, // TUNABLE
+          MaskingSpec,
+          Deterministic>;
 
+  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
     if (param.K <= 32 && param.Kv <= 32) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              InputDataType,
-              OutputDataType,
-              GemmDataType,
-              ZDataType,
-              LSEDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              ShuffleDataType,
-              QKVElementOp,
-              QKVElementOp,
-              Scale,
-              QKVElementOp,
-              YElementOp,
-              GemmSpec,
-              TensorSpecQ,
-              TensorSpecK,
-              TensorSpecV,
-              TensorSpecY,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              32, // Gemm1NPerBlock
-              32, // Gemm1KperBlock
-              64, // Gemm2KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              4, // MXdlPerWave
-              1, // NXdlPerWave
-              1, // Gemm1NXdlPerWave
-              1, // Gemm2NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-              1,
-              1,
-              S<1, 64, 1, 4>,
-              kCShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec,
-              Deterministic>;
+      constexpr ck::index_t kGemm1NPerBlock = 32;
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle,
+          kCShuffleBlockTransferClusterLengths>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else if (param.K <= 64 && param.Kv <= 64) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              InputDataType,
-              OutputDataType,
-              GemmDataType,
-              ZDataType,
-              LSEDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              ShuffleDataType,
-              QKVElementOp,
-              QKVElementOp,
-              Scale,
-              QKVElementOp,
-              YElementOp,
-              GemmSpec,
-              TensorSpecQ,
-              TensorSpecK,
-              TensorSpecV,
-              TensorSpecY,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              64, // KPerBlock
-              64, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              32, // Gemm2KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              4, // MXdlPerWave
-              1, // NXdlPerWave
-              2, // Gemm1NXdlPerWave
-              1, // Gemm2NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-              1,
-              2,
-              S<1, 32, 1, 8>,
-              kCShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec,
-              Deterministic>;
+      constexpr ck::index_t kGemm1NPerBlock = 64;
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle,
+          kCShuffleBlockTransferClusterLengths>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else {
@@ -271,7 +232,10 @@ struct batched_backward_masktype_attnbias_dispatched {
               false,
               1, // CShuffleMXdlPerWavePerShuffle
               4, // CShuffleNXdlPerWavePerShuffle
-              S<1, 32, 1, 8>,
+              S<1,
+                32,
+                1,
+                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
               kCShuffleBlockTransferScalarPerVector, // TUNABLE
               MaskingSpec,
               Deterministic>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index f4afd8a75b..9847b9fa08 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -63,145 +63,106 @@ struct grouped_backward_masktype_attnbias_dispatched {
       ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = true;
 
-  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
-    // Tunables
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-    constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
-    constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
+  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      typename kCShuffleBlockTransferClusterLengths>
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::
+      DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+          NumDimG,
+          NumDimM,
+          NumDimN,
+          NumDimK,
+          NumDimO,
+          InputDataType,
+          OutputDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          ShuffleDataType,
+          QKVElementOp,
+          QKVElementOp,
+          Scale,
+          QKVElementOp,
+          YElementOp,
+          GemmSpec,
+          TensorSpecQ,
+          TensorSpecK,
+          TensorSpecV,
+          TensorSpecY,
+          1,
+          256,
+          128, // MPerBlock
+          128, // NPerBlock
+          kGemm1NPerBlock, // KPerBlock = kGemm1NerBlock
+          kGemm1NPerBlock,
+          32, // Gemm1KPerBlock
+          32, // Gemm2KPerBlock
+          8, // AK1
+          8, // BK1
+          2, // B1K1
+          32, // MPerXDL
+          32, // NPerXDL
+          4, // MXdlPerWave
+          1, // NXdlPerWave
+          kGemm1NXdlPerWave,
+          1, // Gemm2NXdlPerWave
+          S<4, 64, 1>, // ABlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          S<4, 64, 1>, // BBlockTransfer
+          S<1, 0, 2>,
+          S<1, 0, 2>,
+          2,
+          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          8,
+          true,
+          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
+          1, // CShuffleMXdlPerWavePerShuffle
+          kCShuffleNXdlPerWavePerShuffle,
+          kCShuffleBlockTransferClusterLengths,
+          kCShuffleBlockTransferScalarPerVector, // TUNABLE
+          MaskingSpec,
+          Deterministic>;
 
+  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     if (param.K <= 32 && param.Kv <= 32) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              InputDataType,
-              OutputDataType,
-              GemmDataType,
-              ZDataType,
-              LSEDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              ShuffleDataType,
-              QKVElementOp,
-              QKVElementOp,
-              Scale,
-              QKVElementOp,
-              YElementOp,
-              GemmSpec,
-              TensorSpecQ,
-              TensorSpecK,
-              TensorSpecV,
-              TensorSpecY,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              32, // KPerBlock
-              32, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              64, // Gemm2KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              4, // MXdlPerWave
-              1, // NXdlPerWave
-              1, // Gemm1NXdlPerWave
-              1, // Gemm2NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-              1,
-              1,
-              S<1, 64, 1, 4>,
-              kCShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec,
-              Deterministic>;
+      constexpr ck::index_t kGemm1NPerBlock = 32;
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle,
+          kCShuffleBlockTransferClusterLengths>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else if (param.K <= 64 && param.Kv <= 64) {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              InputDataType,
-              OutputDataType,
-              GemmDataType,
-              ZDataType,
-              LSEDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              ShuffleDataType,
-              QKVElementOp,
-              QKVElementOp,
-              Scale,
-              QKVElementOp,
-              YElementOp,
-              GemmSpec,
-              TensorSpecQ,
-              TensorSpecK,
-              TensorSpecV,
-              TensorSpecY,
-              1,
-              256,
-              128, // MPerBlock
-              128, // NPerBlock
-              64, // KPerBlock
-              64, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              32, // Gemm2KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              4, // MXdlPerWave
-              1, // NXdlPerWave
-              2, // Gemm1NXdlPerWave
-              1, // Gemm2NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // BBlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-              1,
-              2,
-              S<1, 32, 1, 8>,
-              kCShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec,
-              Deterministic>;
+      constexpr ck::index_t kGemm1NPerBlock = 64;
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+
+      using DeviceOpInstance = DeviceOpInstanceTemp<
+          kGemm1NPerBlock,
+          kGemm1NXdlPerWave,
+          kCShuffleNXdlPerWavePerShuffle,
+          kCShuffleBlockTransferClusterLengths>;
 
       RunWithDeviceOp<DeviceOpInstance>(param, stream);
     } else {

From e300156595fcaef31c98d9d27d722d057a126002 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 23 Oct 2023 00:07:52 +0000
Subject: [PATCH 106/837] Provide classes to concentratedly define the common
 and default infer-op template parameters

---
 .../hip_fmha/ck_fmha_batched_infer.h          | 117 ++++++++---------
 .../hip_fmha/ck_fmha_device_gemm_constants.h  | 120 ++++++++++++++++++
 .../hip_fmha/ck_fmha_grouped_infer.h          | 113 ++++++++---------
 3 files changed, 222 insertions(+), 128 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 53bdaa1e93..c73108dc94 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -9,6 +9,7 @@
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp"
 
+#include "ck_fmha_device_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -29,12 +30,6 @@ struct batched_infer_masktype_attnbias_dispatched {
       typename std::conditional<has_attn_bias, scalar_t, void>::type;
   using Acc1BiasDataType = void;
 
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
   using AElementOp = PassThrough;
   using B0ElementOp = PassThrough;
   using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
@@ -47,15 +42,6 @@ struct batched_infer_masktype_attnbias_dispatched {
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
   static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
   static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
   static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
@@ -67,11 +53,11 @@ struct batched_infer_masktype_attnbias_dispatched {
       ck::index_t kCShuffleNXdlPerWavePerShuffle>
   using DeviceOpInstanceTemp = ck::tensor_operation::device::
       DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
           ADataType,
           B0DataType,
           B1DataType,
@@ -86,55 +72,56 @@ struct batched_infer_masktype_attnbias_dispatched {
           B1ElementOp,
           CElementOp,
           GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
           1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
+          GemmOpConstantsBatchedInfer::BlockSize,
+          GemmOpConstantsBatchedInfer::MPerBlock,
+          GemmOpConstantsBatchedInfer::NPerBlock,
+          GemmOpConstantsBatchedInfer::KPerBlock,
           kGemm1NPerBlock,
-          32,
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
+          GemmOpConstantsBatchedInfer::Gemm1KPerBlock,
+          GemmOpConstantsBatchedInfer::AK1,
+          GemmOpConstantsBatchedInfer::BK1,
+          GemmOpConstantsBatchedInfer::B1K1,
+          GemmOpConstantsBatchedInfer::MPerXDL,
+          GemmOpConstantsBatchedInfer::NPerXDL,
+          GemmOpConstantsBatchedInfer::MXdlPerWave,
+          GemmOpConstantsBatchedInfer::NXdlPerWave,
           kGemm1NXdlPerWave,
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-          S<16, 16, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          kB1BlockTransferSrcScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedInfer::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedInfer::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedInfer::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsBatchedInfer::ABlockLdsExtraM,
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedInfer::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedInfer::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedInfer::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedInfer::BBlockLdsExtraN,
+          kAcc0BiasTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedInfer::B1BlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedInfer::B1BlockTransferSrcVectorDim,
+          kB1BlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedInfer::B1BlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedInfer::B1BlockLdsExtraN,
+          GemmOpConstantsBatchedInfer::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          kCShuffleBlockTransferScalarPerVector, // TUNABLE
-          MaskingSpec>; // MaskingSpecialization
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          kCShuffleBlockTransferScalarPerVector,
+          MaskingSpec>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     if (param.K <= 32 && param.Kv <= 32) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
new file mode 100644
index 0000000000..2a14f1300a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
@@ -0,0 +1,120 @@
+#pragma once
+
+#include <ck/ck.hpp>
+#include "ck_fmha_op_helper.h"
+
+// list the template parameters that is commonly used
+struct GemmOpConstantsCommon {
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsBatchedInfer {
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 32;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 1;
+  static constexpr ck::index_t NXdlPerWave = 4;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static consexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
+      S<1, 32, 1, 8>;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsGroupedInfer {
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 32;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 1;
+  static constexpr ck::index_t NXdlPerWave = 4;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector,
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
+      S<1, 32, 1, 8>;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+struct GemmOpConstantsForward {};
+
+struct GemmOpConstantsBackward {};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 2101181dc5..b6aa53292e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -10,6 +10,7 @@
 #include <ck/utility/sequence.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp"
 
+#include "ck_fmha_device_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -30,12 +31,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
       typename std::conditional<has_attn_bias, scalar_t, void>::type;
   using Acc1BiasDataType = void;
 
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
   using AElementOp = PassThrough;
   using B0ElementOp = PassThrough;
   using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
@@ -48,15 +43,6 @@ struct grouped_infer_masktype_attnbias_dispatched {
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
   static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
   static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
   static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
@@ -68,11 +54,11 @@ struct grouped_infer_masktype_attnbias_dispatched {
       ck::index_t kCShuffleNXdlPerWavePerShuffle>
   using DeviceOpInstanceTemp = ck::tensor_operation::device::
       DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
           ADataType,
           B0DataType,
           B1DataType,
@@ -87,55 +73,56 @@ struct grouped_infer_masktype_attnbias_dispatched {
           B1ElementOp,
           CElementOp,
           GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
           1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
+          GemmOpConstantsGroupedInfer::BlockSize,
+          GemmOpConstantsGroupedInfer::MPerBlock,
+          GemmOpConstantsGroupedInfer::NPerBlock,
+          GemmOpConstantsGroupedInfer::KPerBlock,
           kGemm1NPerBlock,
-          32,
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
+          GemmOpConstantsGroupedInfer::Gemm1KPerBlock,
+          GemmOpConstantsGroupedInfer::AK1,
+          GemmOpConstantsGroupedInfer::BK1,
+          GemmOpConstantsGroupedInfer::B1K1,
+          GemmOpConstantsGroupedInfer::MPerXDL,
+          GemmOpConstantsGroupedInfer::NPerXDL,
+          GemmOpConstantsGroupedInfer::MXdlPerWave,
+          GemmOpConstantsGroupedInfer::NXdlPerWave,
           kGemm1NXdlPerWave,
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
+          GemmOpConstantsGroupedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedInfer::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedInfer::ABlockTransferSrcVectorDim,
           kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
+          GemmOpConstantsGroupedInfer::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsGroupedInfer::ABlockLdsExtraM,
+          GemmOpConstantsGroupedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedInfer::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedInfer::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedInfer::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedInfer::BBlockLdsExtraN,
           kAcc0BiasTransferSrcScalarPerVector,
-          S<8, 32, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          kB1BlockTransferSrcScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
+          GemmOpConstantsGroupedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedInfer::B1BlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedInfer::B1BlockTransferSrcVectorDim,
+          kB1BlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedInfer::B1BlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedInfer::B1BlockLdsExtraN,
+          GemmOpConstantsGroupedInfer::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          kCShuffleBlockTransferScalarPerVector, // TUNABLE
-          MaskingSpec>; // MaskingSpecialization
+          GemmOpConstantsGroupedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          kCShuffleBlockTransferScalarPerVector,
+          MaskingSpec>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     if (param.K <= 32 && param.Kv <= 32) {

From fe37e71572f7ec9e837c11834beeb74b4e044588 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 23 Oct 2023 22:33:05 +0000
Subject: [PATCH 107/837] [Performance] Add A/B0/B1 scalar_per_vector selection
 in inference

---
 .../csrc/attention/hip_fmha/ck_align_switch.h | 145 +++++++++++++
 .../hip_fmha/ck_fmha_batched_infer.h          | 192 +++++++++++++++--
 .../hip_fmha/ck_fmha_device_gemm_constants.h  |   4 +-
 .../hip_fmha/ck_fmha_grouped_infer.h          | 196 ++++++++++++++++--
 4 files changed, 493 insertions(+), 44 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_align_switch.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_align_switch.h b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
new file mode 100644
index 0000000000..edd49290b8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
@@ -0,0 +1,145 @@
+#pragma once
+
+#include <stdexcept>
+
+// assume the maximum alignment is 8 elements
+#define ALIGN_SWITCH_1(CONST_ALIGN_MAX1, CONST_ALIGN_NAME1, LENGTH1, ...)   \
+  [&] {                                                                     \
+    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
+      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
+        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
+        __VA_ARGS__();                                                      \
+      } else {                                                              \
+        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
+          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
+            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
+            __VA_ARGS__();                                                  \
+          } else {                                                          \
+            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
+              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
+                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
+                    CONST_ALIGN_MAX1 / 4;                                   \
+                __VA_ARGS__();                                              \
+              } else {                                                      \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
+                __VA_ARGS__();                                              \
+              };                                                            \
+            }                                                               \
+          };                                                                \
+        }                                                                   \
+      };                                                                    \
+    }                                                                       \
+  }()
+
+// assume the maximum alignment is 8 elements
+#define ALIGN_SWITCH_2(                                                       \
+    CONST_ALIGN_MAX1,                                                         \
+    CONST_ALIGN_NAME1,                                                        \
+    LENGTH1,                                                                  \
+    CONST_ALIGN_MAX2,                                                         \
+    CONST_ALIGN_NAME2,                                                        \
+    LENGTH2,                                                                  \
+    ...)                                                                      \
+  [&] {                                                                       \
+    if constexpr (CONST_ALIGN_MAX1 > 0) {                                     \
+      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                  \
+        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;           \
+        ALIGN_SWITCH_1(                                                       \
+            CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);     \
+      } else {                                                                \
+        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                             \
+          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                        \
+            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;   \
+            ALIGN_SWITCH_1(                                                   \
+                CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
+          } else {                                                            \
+            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                         \
+              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                    \
+                constexpr ck::index_t CONST_ALIGN_NAME1 =                     \
+                    CONST_ALIGN_MAX1 / 4;                                     \
+                ALIGN_SWITCH_1(                                               \
+                    CONST_ALIGN_MAX2,                                         \
+                    CONST_ALIGN_NAME2,                                        \
+                    LENGTH2,                                                  \
+                    ##__VA_ARGS__);                                           \
+              } else {                                                        \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                  \
+                ALIGN_SWITCH_1(                                               \
+                    CONST_ALIGN_MAX2,                                         \
+                    CONST_ALIGN_NAME2,                                        \
+                    LENGTH2,                                                  \
+                    ##__VA_ARGS__);                                           \
+              };                                                              \
+            }                                                                 \
+          };                                                                  \
+        }                                                                     \
+      };                                                                      \
+    }                                                                         \
+  }()
+
+// assume the maximum alignment is 8 elements
+#define ALIGN_SWITCH_3(                                                     \
+    CONST_ALIGN_MAX1,                                                       \
+    CONST_ALIGN_NAME1,                                                      \
+    LENGTH1,                                                                \
+    CONST_ALIGN_MAX2,                                                       \
+    CONST_ALIGN_NAME2,                                                      \
+    LENGTH2,                                                                \
+    CONST_ALIGN_MAX3,                                                       \
+    CONST_ALIGN_NAME3,                                                      \
+    LENGTH3,                                                                \
+    ...)                                                                    \
+  [&] {                                                                     \
+    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
+      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
+        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
+        ALIGN_SWITCH_2(                                                     \
+            CONST_ALIGN_MAX2,                                               \
+            CONST_ALIGN_NAME2,                                              \
+            LENGTH2,                                                        \
+            CONST_ALIGN_MAX3,                                               \
+            CONST_ALIGN_NAME3,                                              \
+            LENGTH3,                                                        \
+            ##__VA_ARGS__);                                                 \
+      } else {                                                              \
+        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
+          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
+            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
+            ALIGN_SWITCH_2(                                                 \
+                CONST_ALIGN_MAX2,                                           \
+                CONST_ALIGN_NAME2,                                          \
+                LENGTH2,                                                    \
+                CONST_ALIGN_MAX3,                                           \
+                CONST_ALIGN_NAME3,                                          \
+                LENGTH3,                                                    \
+                ##__VA_ARGS__);                                             \
+          } else {                                                          \
+            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
+              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
+                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
+                    CONST_ALIGN_MAX1 / 4;                                   \
+                ALIGN_SWITCH_2(                                             \
+                    CONST_ALIGN_MAX2,                                       \
+                    CONST_ALIGN_NAME2,                                      \
+                    LENGTH2,                                                \
+                    CONST_ALIGN_MAX3,                                       \
+                    CONST_ALIGN_NAME3,                                      \
+                    LENGTH3,                                                \
+                    ##__VA_ARGS__);                                         \
+              } else {                                                      \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
+                ALIGN_SWITCH_2(                                             \
+                    CONST_ALIGN_MAX2,                                       \
+                    CONST_ALIGN_NAME2,                                      \
+                    LENGTH2,                                                \
+                    CONST_ALIGN_MAX3,                                       \
+                    CONST_ALIGN_NAME3,                                      \
+                    LENGTH3,                                                \
+                    ##__VA_ARGS__);                                         \
+              };                                                            \
+            }                                                               \
+          };                                                                \
+        }                                                                   \
+      };                                                                    \
+    }                                                                       \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index c73108dc94..08230212e4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -7,8 +7,11 @@
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include <ck/utility/math.hpp>
+#include <ck/utility/number.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp"
 
+#include "ck_align_switch.h"
 #include "ck_fmha_device_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
@@ -42,15 +45,15 @@ struct batched_infer_masktype_attnbias_dispatched {
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kB1BlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
   using DeviceOpInstanceTemp = ck::tensor_operation::device::
       DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
           GemmOpConstantsCommon::NumDimG,
@@ -123,41 +126,190 @@ struct batched_infer_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
 
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
     if (param.K <= 32 && param.Kv <= 32) {
       constexpr ck::index_t kGemm1NPerBlock = 32;
       constexpr ck::index_t kGemm1NXdlPerWave = 1;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedInfer::AK1 /
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedInfer::BK1 /
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_b1k1 =
+          GemmOpConstantsBatchedInfer::B1K1 /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_b1k1);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
 
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      ALIGN_SWITCH_3(
+          kABBlockTransferSrcScalarPerVector_max,
+          kABBlockTransferSrcScalarPerVector,
+          param.K,
+          kB1BlockTransferSrcScalarPerVector_max,
+          kB1BlockTransferSrcScalarPerVector,
+          param.Kv,
+          kCShuffleBlockTransferScalarPerVector_max,
+          kCShuffleBlockTransferScalarPerVector,
+          param.Kv,
+          [&] {
+            using DeviceOpInstance = DeviceOpInstanceTemp<
+                kGemm1NPerBlock,
+                kGemm1NXdlPerWave,
+                kCShuffleNXdlPerWavePerShuffle,
+                kABBlockTransferSrcScalarPerVector,
+                kB1BlockTransferSrcScalarPerVector,
+                kCShuffleBlockTransferScalarPerVector>;
+
+            RunWithDeviceOp<DeviceOpInstance>(param, stream);
+          });
     } else if (param.K <= 64 && param.Kv <= 64) {
       constexpr ck::index_t kGemm1NPerBlock = 64;
       constexpr ck::index_t kGemm1NXdlPerWave = 2;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedInfer::AK1 /
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedInfer::BK1 /
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_b1k1 =
+          GemmOpConstantsBatchedInfer::B1K1 /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_b1k1);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
 
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      ALIGN_SWITCH_3(
+          kABBlockTransferSrcScalarPerVector_max,
+          kABBlockTransferSrcScalarPerVector,
+          param.K,
+          kB1BlockTransferSrcScalarPerVector_max,
+          kB1BlockTransferSrcScalarPerVector,
+          param.Kv,
+          kCShuffleBlockTransferScalarPerVector_max,
+          kCShuffleBlockTransferScalarPerVector,
+          param.Kv,
+          [&] {
+            using DeviceOpInstance = DeviceOpInstanceTemp<
+                kGemm1NPerBlock,
+                kGemm1NXdlPerWave,
+                kCShuffleNXdlPerWavePerShuffle,
+                kABBlockTransferSrcScalarPerVector,
+                kB1BlockTransferSrcScalarPerVector,
+                kCShuffleBlockTransferScalarPerVector>;
+
+            RunWithDeviceOp<DeviceOpInstance>(param, stream);
+          });
     } else {
       constexpr ck::index_t kGemm1NPerBlock = 128;
       constexpr ck::index_t kGemm1NXdlPerWave = 4;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedInfer::AK1 /
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedInfer::BK1 /
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
 
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    };
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_b1k1 =
+          GemmOpConstantsBatchedInfer::B1K1 /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_b1k1);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      ALIGN_SWITCH_3(
+          kABBlockTransferSrcScalarPerVector_max,
+          kABBlockTransferSrcScalarPerVector,
+          param.K,
+          kB1BlockTransferSrcScalarPerVector_max,
+          kB1BlockTransferSrcScalarPerVector,
+          param.Kv,
+          kCShuffleBlockTransferScalarPerVector_max,
+          kCShuffleBlockTransferScalarPerVector,
+          param.Kv,
+          [&] {
+            using DeviceOpInstance = DeviceOpInstanceTemp<
+                kGemm1NPerBlock,
+                kGemm1NXdlPerWave,
+                kCShuffleNXdlPerWavePerShuffle,
+                kABBlockTransferSrcScalarPerVector,
+                kB1BlockTransferSrcScalarPerVector,
+                kCShuffleBlockTransferScalarPerVector>;
+
+            RunWithDeviceOp<DeviceOpInstance>(param, stream);
+          });
+    }
   };
 
   template <typename DeviceOpInstance>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
index 2a14f1300a..eefb609925 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
@@ -51,7 +51,7 @@ struct GemmOpConstantsBatchedInfer {
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
   static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static consexpr bool BBlockLdsExtraN = true;
+  static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
   using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
   using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
@@ -60,7 +60,7 @@ struct GemmOpConstantsBatchedInfer {
   // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
   static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
   static constexpr bool B1BlockLdsExtraN = false;
-  static ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
   using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
       S<1, 32, 1, 8>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index b6aa53292e..04af760a06 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -7,9 +7,12 @@
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
+#include <ck/utility/math.hpp>
+#include <ck/utility/number.hpp>
 #include <ck/utility/sequence.hpp>
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp"
 
+#include "ck_align_switch.h"
 #include "ck_fmha_device_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
@@ -43,15 +46,15 @@ struct grouped_infer_masktype_attnbias_dispatched {
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kB1BlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
   using DeviceOpInstanceTemp = ck::tensor_operation::device::
       DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
           GemmOpConstantsCommon::NumDimG,
@@ -124,40 +127,189 @@ struct grouped_infer_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
 
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
     if (param.K <= 32 && param.Kv <= 32) {
       constexpr ck::index_t kGemm1NPerBlock = 32;
       constexpr ck::index_t kGemm1NXdlPerWave = 1;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedInfer::AK1 /
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedInfer::BK1 /
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_b1k1 =
+          GemmOpConstantsBatchedInfer::B1K1 /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_b1k1);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      ALIGN_SWITCH_3(
+          kABBlockTransferSrcScalarPerVector_max,
+          kABBlockTransferSrcScalarPerVector,
+          param.K,
+          kB1BlockTransferSrcScalarPerVector_max,
+          kB1BlockTransferSrcScalarPerVector,
+          param.Kv,
+          kCShuffleBlockTransferScalarPerVector_max,
+          kCShuffleBlockTransferScalarPerVector,
+          param.Kv,
+          [&] {
+            using DeviceOpInstance = DeviceOpInstanceTemp<
+                kGemm1NPerBlock,
+                kGemm1NXdlPerWave,
+                kCShuffleNXdlPerWavePerShuffle,
+                kABBlockTransferSrcScalarPerVector,
+                kB1BlockTransferSrcScalarPerVector,
+                kCShuffleBlockTransferScalarPerVector>;
+
+            RunWithDeviceOp<DeviceOpInstance>(param, stream);
+          });
     } else if (param.K <= 64 && param.Kv <= 64) {
       constexpr ck::index_t kGemm1NPerBlock = 64;
       constexpr ck::index_t kGemm1NXdlPerWave = 2;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedInfer::AK1 /
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedInfer::BK1 /
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_b1k1 =
+          GemmOpConstantsBatchedInfer::B1K1 /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_b1k1);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      ALIGN_SWITCH_3(
+          kABBlockTransferSrcScalarPerVector_max,
+          kABBlockTransferSrcScalarPerVector,
+          param.K,
+          kB1BlockTransferSrcScalarPerVector_max,
+          kB1BlockTransferSrcScalarPerVector,
+          param.Kv,
+          kCShuffleBlockTransferScalarPerVector_max,
+          kCShuffleBlockTransferScalarPerVector,
+          param.Kv,
+          [&] {
+            using DeviceOpInstance = DeviceOpInstanceTemp<
+                kGemm1NPerBlock,
+                kGemm1NXdlPerWave,
+                kCShuffleNXdlPerWavePerShuffle,
+                kABBlockTransferSrcScalarPerVector,
+                kB1BlockTransferSrcScalarPerVector,
+                kCShuffleBlockTransferScalarPerVector>;
+
+            RunWithDeviceOp<DeviceOpInstance>(param, stream);
+          });
     } else {
       constexpr ck::index_t kGemm1NPerBlock = 128;
       constexpr ck::index_t kGemm1NXdlPerWave = 4;
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedInfer::AK1 /
+          GemmOpConstantsBatchedInfer::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedInfer::BK1 /
+          GemmOpConstantsBatchedInfer::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_b1k1 =
+          GemmOpConstantsBatchedInfer::B1K1 /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_b1k1);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      ALIGN_SWITCH_3(
+          kABBlockTransferSrcScalarPerVector_max,
+          kABBlockTransferSrcScalarPerVector,
+          param.K,
+          kB1BlockTransferSrcScalarPerVector_max,
+          kB1BlockTransferSrcScalarPerVector,
+          param.Kv,
+          kCShuffleBlockTransferScalarPerVector_max,
+          kCShuffleBlockTransferScalarPerVector,
+          param.Kv,
+          [&] {
+            using DeviceOpInstance = DeviceOpInstanceTemp<
+                kGemm1NPerBlock,
+                kGemm1NXdlPerWave,
+                kCShuffleNXdlPerWavePerShuffle,
+                kABBlockTransferSrcScalarPerVector,
+                kB1BlockTransferSrcScalarPerVector,
+                kCShuffleBlockTransferScalarPerVector>;
+
+            RunWithDeviceOp<DeviceOpInstance>(param, stream);
+          });
     };
   };
 

From fbe7634e7797e7081905f846f32735808edd1d42 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 23 Oct 2023 22:41:04 +0000
Subject: [PATCH 108/837] Rename ck_static_switch.h to ck_bool_switch.h

---
 .../attention/hip_fmha/{ck_static_switch.h => ck_bool_switch.h} | 0
 .../csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp   | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp   | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp    | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp    | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp   | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp   | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp    | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp    | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp | 2 +-
 13 files changed, 12 insertions(+), 12 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_static_switch.h => ck_bool_switch.h} (100%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_static_switch.h b/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_static_switch.h
rename to xformers/csrc/attention/hip_fmha/ck_bool_switch.h
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 5b6ec3c2bf..81615faf96 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_backward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index a6f09ea547..3527beba7e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_backward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 6deae7724a..865c2de586 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_forward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index 7e4b9cb8c4..fe8371bb47 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_forward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
index 5d44a4e994..095487f92c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
index fa0bdd42d8..8e5b01fa00 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index 2d18eefe6c..709a4328f2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_backward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index e06a7dc582..2885df9b5d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_backward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index 04769122d0..b4b10a60ad 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_forward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index 9c059d9b77..7c7ef74add 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_forward.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
index 7963729516..4310d4f396 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
index ffc89ed539..9a015601f8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
@@ -2,7 +2,7 @@
 #include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
-#include "ck_static_switch.h"
+#include "ck_bool_switch.h"
 
 extern template struct grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,

From f719301f7739fe7d704efce821a64f8b0838824d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 24 Oct 2023 09:30:32 +0000
Subject: [PATCH 109/837] Fix in grouped_infer

---
 .../hip_fmha/ck_fmha_grouped_infer.h          | 42 +++++++++----------
 1 file changed, 21 insertions(+), 21 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 04af760a06..e30d4c06ac 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -139,12 +139,12 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
 
       constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedInfer::AK1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::AK1 /
+          GemmOpConstantsGroupedInfer::
               ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
       constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedInfer::BK1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::BK1 /
+          GemmOpConstantsGroupedInfer::
               BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
 
       static_assert(
@@ -155,8 +155,8 @@ struct grouped_infer_masktype_attnbias_dispatched {
           min(4, thread_slice_length_ak1);
 
       constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsBatchedInfer::B1K1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::B1K1 /
+          GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_b1k1);
@@ -164,7 +164,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
            kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::
               CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
                   At(I3);
 
@@ -198,12 +198,12 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
 
       constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedInfer::AK1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::AK1 /
+          GemmOpConstantsGroupedInfer::
               ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
       constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedInfer::BK1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::BK1 /
+          GemmOpConstantsGroupedInfer::
               BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
 
       static_assert(
@@ -214,8 +214,8 @@ struct grouped_infer_masktype_attnbias_dispatched {
           min(4, thread_slice_length_ak1);
 
       constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsBatchedInfer::B1K1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::B1K1 /
+          GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_b1k1);
@@ -223,7 +223,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
            kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::
               CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
                   At(I3);
 
@@ -257,12 +257,12 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
 
       constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedInfer::AK1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::AK1 /
+          GemmOpConstantsGroupedInfer::
               ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
       constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedInfer::BK1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::BK1 /
+          GemmOpConstantsGroupedInfer::
               BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
 
       static_assert(
@@ -273,8 +273,8 @@ struct grouped_infer_masktype_attnbias_dispatched {
           min(4, thread_slice_length_ak1);
 
       constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsBatchedInfer::B1K1 /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::B1K1 /
+          GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_b1k1);
@@ -282,7 +282,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
            kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
+          GemmOpConstantsGroupedInfer::
               CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
                   At(I3);
 

From 70c25ca0cdf7668473314f14b94d412db125b51a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 24 Oct 2023 18:46:44 +0000
Subject: [PATCH 110/837] Fix in using align_swith for tuning in infer

---
 .../ck_fmha_backward_gemm_constants.h         |   6 ++
 .../hip_fmha/ck_fmha_batched_infer.h          |  31 +++---
 .../hip_fmha/ck_fmha_common_gemm_constants.h  |  23 ++++
 .../hip_fmha/ck_fmha_device_gemm_constants.h  |   6 +-
 .../hip_fmha/ck_fmha_forward_gemm_constants.h |   6 ++
 .../hip_fmha/ck_fmha_grouped_infer.h          |  31 +++---
 .../hip_fmha/ck_fmha_infer_gemm_constants.h   | 102 ++++++++++++++++++
 7 files changed, 170 insertions(+), 35 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
new file mode 100644
index 0000000000..585a83e3a0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
@@ -0,0 +1,6 @@
+#pragma once
+
+#include <ck/ck.hpp>
+#include "ck_fmha_op_helper.h"
+
+struct GemmOpConstantsBackward {};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 08230212e4..23e6000ccb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -12,7 +12,8 @@
 #include "ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp"
 
 #include "ck_align_switch.h"
-#include "ck_fmha_device_gemm_constants.h"
+#include "ck_fmha_common_gemm_constants.h"
+#include "ck_fmha_infer_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -126,6 +127,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
 
+  static constexpr auto I1 = ck::Number<1>{};
   static constexpr auto I2 = ck::Number<2>{};
   static constexpr auto I3 = ck::Number<3>{};
 
@@ -153,12 +155,11 @@ struct batched_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_ak1);
 
-      constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsBatchedInfer::B1K1 /
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_b1k1);
+          min(2, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -168,7 +169,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -212,12 +213,11 @@ struct batched_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_ak1);
 
-      constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsBatchedInfer::B1K1 /
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_b1k1);
+          min(2, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -227,7 +227,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -271,12 +271,11 @@ struct batched_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_ak1);
 
-      constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsBatchedInfer::B1K1 /
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_b1k1);
+          min(2, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -286,7 +285,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
new file mode 100644
index 0000000000..654a7f8db7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
@@ -0,0 +1,23 @@
+#pragma once
+
+#include <ck/ck.hpp>
+#include "ck_fmha_op_helper.h"
+
+// list the template parameters that is commonly used
+struct GemmOpConstantsCommon {
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+};
+
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
index eefb609925..e49d6d4dca 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
@@ -58,7 +58,7 @@ struct GemmOpConstantsBatchedInfer {
   using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
   static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
   // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 4;
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
@@ -100,12 +100,12 @@ struct GemmOpConstantsGroupedInfer {
   static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
   static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
   using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
   using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
   static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
   // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 4;
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
new file mode 100644
index 0000000000..673adbea8c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -0,0 +1,6 @@
+#pragma once
+
+#include <ck/ck.hpp>
+#include "ck_fmha_op_helper.h"
+
+struct GemmOpConstantsForward {};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index e30d4c06ac..f24ed6c7c5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -13,7 +13,8 @@
 #include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp"
 
 #include "ck_align_switch.h"
-#include "ck_fmha_device_gemm_constants.h"
+#include "ck_fmha_common_gemm_constants.h"
+#include "ck_fmha_infer_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -127,6 +128,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
 
+  static constexpr auto I1 = ck::Number<1>{};
   static constexpr auto I2 = ck::Number<2>{};
   static constexpr auto I3 = ck::Number<3>{};
 
@@ -154,12 +156,11 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_ak1);
 
-      constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsGroupedInfer::B1K1 /
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_b1k1);
+          min(2, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -169,7 +170,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -213,12 +214,11 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_ak1);
 
-      constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsGroupedInfer::B1K1 /
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_b1k1);
+          min(2, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -228,7 +228,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -272,12 +272,11 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
           min(4, thread_slice_length_ak1);
 
-      constexpr ck::index_t thread_slice_length_b1k1 =
-          GemmOpConstantsGroupedInfer::B1K1 /
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_b1k1);
+          min(2, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -287,7 +286,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
new file mode 100644
index 0000000000..ae66edc1c2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -0,0 +1,102 @@
+#pragma once
+
+#include <ck/ck.hpp>
+#include "ck_fmha_op_helper.h"
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsBatchedInfer {
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 32;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 1;
+  static constexpr ck::index_t NXdlPerWave = 4;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
+      S<1, 32, 1, 8>;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsGroupedInfer {
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 32;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 1;
+  static constexpr ck::index_t NXdlPerWave = 4;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector,
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
+      S<1, 32, 1, 8>;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+struct GemmOpConstantsForward {};
+
+struct GemmOpConstantsBackward {};

From 7249076e032f64f9c20c5feea77281b009f55064 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 24 Oct 2023 19:50:03 +0000
Subject: [PATCH 111/837] Split the .cpp files for infer to speed-up the
 compiling

---
 ...k_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp} | 5 -----
 ..._fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp | 9 +++++++++
 ...k_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp} | 5 -----
 ..._fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp | 9 +++++++++
 ...k_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp} | 5 -----
 ..._fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp | 9 +++++++++
 ...k_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp} | 2 --
 ..._fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp | 6 ++++++
 ...k_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp} | 2 --
 ..._fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp | 6 ++++++
 ...k_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp} | 2 --
 ..._fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp | 6 ++++++
 ...k_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp} | 5 -----
 ..._fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp | 9 +++++++++
 ...k_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp} | 5 -----
 ..._fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp | 9 +++++++++
 ...k_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp} | 5 -----
 ..._fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp | 9 +++++++++
 ...k_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp} | 2 --
 ..._fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp | 6 ++++++
 ...k_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp} | 2 --
 ..._fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp | 6 ++++++
 ...k_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp} | 2 --
 ..._fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp | 6 ++++++
 24 files changed, 90 insertions(+), 42 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_infer_bp16_masktype_0.cpp => ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp} (64%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_infer_bp16_masktype_1.cpp => ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp} (64%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_infer_bp16_masktype_2.cpp => ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp} (64%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_infer_fp16_masktype_0.cpp => ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp} (67%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_infer_fp16_masktype_1.cpp => ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp} (67%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_infer_fp16_masktype_2.cpp => ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp} (67%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_infer_bp16_masktype_0.cpp => ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp} (64%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_infer_bp16_masktype_1.cpp => ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp} (64%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_infer_bp16_masktype_2.cpp => ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp} (64%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_infer_fp16_masktype_0.cpp => ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp} (67%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_infer_fp16_masktype_1.cpp => ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp} (67%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_infer_fp16_masktype_2.cpp => ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp} (67%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
similarity index 64%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
index 7d0a4c910c..9e1947e670 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
@@ -3,11 +3,6 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>;
-
 template struct batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..e6c5c49fee
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,9 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
similarity index 64%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
index 5aad14a674..9227f70635 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
@@ -3,11 +3,6 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>;
-
 template struct batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..fab0289011
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,9 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
similarity index 64%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
index e0ddb158db..0d7a88e0e0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
@@ -3,11 +3,6 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>;
-
 template struct batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..57af33adb1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,9 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
similarity index 67%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
index fa3ac06cd6..838baed946 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -3,8 +3,6 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
-
 template struct batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..0d5f091c2a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,6 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
similarity index 67%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
index ea4833f23e..21324abb57 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -3,8 +3,6 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
-
 template struct batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..0e8a8c384b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,6 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
similarity index 67%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
index 54c046e611..19b4aa0f7e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -3,8 +3,6 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
-
 template struct batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..e471b0550c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,6 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_infer.h"
+
+template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
similarity index 64%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
index 6b6658de6f..67b1dae7c4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
@@ -3,11 +3,6 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>;
-
 template struct grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..343ba049d6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,9 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
similarity index 64%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
index 232517d2ba..c42bacba31 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
@@ -3,11 +3,6 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>;
-
 template struct grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..fc9563043f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,9 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
similarity index 64%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
index 19e58447ae..2599755a02 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
@@ -3,11 +3,6 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>;
-
 template struct grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..bf9183e863
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,9 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
similarity index 67%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
index ded6fe928d..39b4a9adf9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -3,8 +3,6 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
-
 template struct grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..7bda05420f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,6 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
similarity index 67%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
index 7eb3721289..34c2c97c05 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -3,8 +3,6 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
-
 template struct grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..66c2d5724d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,6 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
similarity index 67%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
index 95281e7bad..ab0d8176d7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -3,8 +3,6 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
-
 template struct grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..8bcb37f74f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,6 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_grouped_infer.h"
+
+template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;

From 13720780b9ce07a4a0a6beafd3915a0743d2fcef Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 24 Oct 2023 20:12:37 +0000
Subject: [PATCH 112/837] Relax the scope for
 kB1BlockTransferSrcScalarPerVector

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h | 6 +++---
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h | 6 +++---
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 23e6000ccb..74cc0e8bfb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -159,7 +159,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
+          min(4, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -217,7 +217,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
+          min(4, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -275,7 +275,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
+          min(4, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index f24ed6c7c5..731ad7f78a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -160,7 +160,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
+          min(4, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -218,7 +218,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
+          min(4, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
@@ -276,7 +276,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
+          min(4, thread_slice_length_gemm1n);
 
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /

From 43db51689e992c022d54aa78e789995329e81758 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 24 Oct 2023 21:58:01 +0000
Subject: [PATCH 113/837] Relax the scope for
 kCShuffleBlockTransferScalarPerVector

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h | 6 +++---
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h | 6 +++---
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 74cc0e8bfb..7794b5ee0b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -169,7 +169,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(2, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -227,7 +227,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(2, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -285,7 +285,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(2, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 731ad7f78a..579841b57f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -170,7 +170,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(2, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -228,7 +228,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(2, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,
@@ -286,7 +286,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(2, thread_slice_length_cshuflle_n);
 
       ALIGN_SWITCH_3(
           kABBlockTransferSrcScalarPerVector_max,

From d37bc3046345d9a02cafba6453d2e02fe3aef8bc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 25 Oct 2023 23:26:24 +0000
Subject: [PATCH 114/837] Split the .cpp files for forward to speed-up the
 compiling

---
 ...k_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp} | 7 -------
 ..._fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp | 7 +++++++
 ...k_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp} | 7 -------
 ..._fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp | 7 +++++++
 ...k_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp} | 7 -------
 ..._fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp | 7 +++++++
 ...k_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp} | 7 -------
 ..._fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp | 7 +++++++
 ...k_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp} | 7 -------
 ..._fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp | 7 +++++++
 ...k_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp} | 7 -------
 ..._fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp | 7 +++++++
 ...k_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp} | 7 -------
 ..._fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp | 7 +++++++
 ...k_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp} | 7 -------
 ..._fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp | 7 +++++++
 ...k_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp} | 7 -------
 ..._fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp | 7 +++++++
 ...k_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp} | 7 -------
 ..._fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp | 7 +++++++
 ...k_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp} | 7 -------
 ..._fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp | 7 +++++++
 ...k_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp} | 7 -------
 ..._fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp | 7 +++++++
 24 files changed, 84 insertions(+), 84 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_forward_bp16_masktype_0.cpp => ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_forward_bp16_masktype_1.cpp => ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_forward_bp16_masktype_2.cpp => ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_forward_fp16_masktype_0.cpp => ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_forward_fp16_masktype_1.cpp => ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_forward_fp16_masktype_2.cpp => ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_forward_bp16_masktype_0.cpp => ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_forward_bp16_masktype_1.cpp => ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_forward_bp16_masktype_2.cpp => ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_forward_fp16_masktype_0.cpp => ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_forward_fp16_masktype_1.cpp => ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_forward_fp16_masktype_2.cpp => ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp} (56%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
index 3813bfbe20..be1d4f58d2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>;
-
 template struct batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..54091ff9b5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
index 7ea33a2a9f..8f2778fd60 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>;
-
 template struct batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..da35f17b9a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
index 732704f620..f775af0d67 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>;
-
 template struct batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..ad9950d936
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
index a9fbc47d76..8af5e20f81 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>;
-
 template struct batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..22568941d5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
index 7712f091f1..466dcc9a3b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>;
-
 template struct batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..7346ec8043
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
index 45874124e0..c7f68924b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>;
-
 template struct batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..d7a5106f8a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template struct batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
index 55629443b1..8083cb25ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>;
-
 template struct grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..a0d3681f15
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
index c1ed66880e..f877be39f9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>;
-
 template struct grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..aca8091ab0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
index e41a762788..f9ade6d612 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>;
-
 template struct grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..0014a5e69b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
index 3a2c45e6f7..3d62db8509 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>;
-
 template struct grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..1b80b483c9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
index 83b62defcf..26d5bccd16 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>;
-
 template struct grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..3eae0ae71b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
similarity index 56%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
index 7ef8f40a29..9bba3eecae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
@@ -1,13 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>;
-
 template struct grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..2d5152e873
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template struct grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>;

From 3aeda8ea363a303ceefa8329d49645a5702daddc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 25 Oct 2023 23:59:59 +0000
Subject: [PATCH 115/837] Split the .cpp files for backward to speed-up the
 compiling

---
 ...tched_backward_bp16_masktype_0_no_attnbias.cpp} | 14 --------------
 ...ched_backward_bp16_masktype_0_with_attnbias.cpp | 14 ++++++++++++++
 ...tched_backward_bp16_masktype_1_no_attnbias.cpp} | 14 --------------
 ...ched_backward_bp16_masktype_1_with_attnbias.cpp | 14 ++++++++++++++
 ...tched_backward_bp16_masktype_2_no_attnbias.cpp} | 14 --------------
 ...ched_backward_bp16_masktype_2_with_attnbias.cpp | 14 ++++++++++++++
 ...tched_backward_fp16_masktype_0_no_attnbias.cpp} | 14 --------------
 ...ched_backward_fp16_masktype_0_with_attnbias.cpp | 14 ++++++++++++++
 ...atched_backward_fp16_masktype_1_no_attnbias.cpp | 14 ++++++++++++++
 ...hed_backward_fp16_masktype_1_with_attnbias.cpp} | 12 ------------
 ...tched_backward_fp16_masktype_2_no_attnbias.cpp} | 14 --------------
 ...ched_backward_fp16_masktype_2_with_attnbias.cpp | 14 ++++++++++++++
 ...ouped_backward_bp16_masktype_0_no_attnbias.cpp} | 14 --------------
 ...uped_backward_bp16_masktype_0_with_attnbias.cpp | 14 ++++++++++++++
 ...ouped_backward_bp16_masktype_1_no_attnbias.cpp} | 14 --------------
 ...uped_backward_bp16_masktype_1_with_attnbias.cpp | 14 ++++++++++++++
 ...ouped_backward_bp16_masktype_2_no_attnbias.cpp} | 14 --------------
 ...uped_backward_bp16_masktype_2_with_attnbias.cpp | 14 ++++++++++++++
 ...ouped_backward_fp16_masktype_0_no_attnbias.cpp} | 14 --------------
 ...uped_backward_fp16_masktype_0_with_attnbias.cpp | 14 ++++++++++++++
 ...ouped_backward_fp16_masktype_1_no_attnbias.cpp} | 14 --------------
 ...uped_backward_fp16_masktype_1_with_attnbias.cpp | 14 ++++++++++++++
 ...ouped_backward_fp16_masktype_2_no_attnbias.cpp} | 14 --------------
 ...uped_backward_fp16_masktype_2_with_attnbias.cpp | 14 ++++++++++++++
 24 files changed, 168 insertions(+), 166 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_backward_bp16_masktype_0.cpp => ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_backward_bp16_masktype_1.cpp => ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_backward_bp16_masktype_2.cpp => ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_backward_fp16_masktype_0.cpp => ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_backward_fp16_masktype_1.cpp => ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp} (57%)
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_batched_backward_fp16_masktype_2.cpp => ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_backward_bp16_masktype_0.cpp => ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_backward_bp16_masktype_1.cpp => ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_backward_bp16_masktype_2.cpp => ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_backward_fp16_masktype_0.cpp => ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_backward_fp16_masktype_1.cpp => ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/{ck_fmha_grouped_backward_fp16_masktype_2.cpp => ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp} (53%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
index 3b27b27f71..52541f3801 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>;
-
 template struct batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..7bf0a59596
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
index a59443dc06..6420ddf15e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>;
-
 template struct batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..b10c2895cc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
index 28396507c6..aca4acbf27 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>;
-
 template struct batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..c8ef030504
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
index 6b6d09949e..6421a77b33 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>;
-
 template struct batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..7e7bc9ad4b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..cbfa45b676
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
similarity index 57%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
index c11fb25354..dc2df739a9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
@@ -14,15 +14,3 @@ template struct batched_backward_masktype_attnbias_dispatched<
     1,
     true,
     false>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
index 9dc0df5e92..1f77acb1ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>;
-
-template struct batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>;
-
 template struct batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..5743fb768e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>;
+
+template struct batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
index 703176268e..558cd3d68c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>;
-
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>;
-
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..52e36a445a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
index 6f5531b759..47e5e97e5a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>;
-
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>;
-
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..542226d72c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
index 535ea659d7..833c49504d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>;
-
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>;
-
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..6772bbac77
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
index 409c2d159e..85d0fbfd7a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>;
-
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>;
-
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..69a3839e7e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
index 9662fe5295..7e826ab00a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>;
-
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>;
-
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..1235af9a6a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
similarity index 53%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp
rename to xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
index d13fd9b05d..1cec428a6c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,20 +1,6 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
-
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>;
-
-template struct grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>;
-
 template struct grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..c01bea26ba
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>;
+
+template struct grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>;

From 0e237d8b5b01ecca78c923ecde0ec825a8814792 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 26 Oct 2023 14:55:31 +0000
Subject: [PATCH 116/837] Move to the latest composable_kernel commit and
 corresponding API adapting

---
 third_party/composable_kernel                        |  2 +-
 .../attention/hip_fmha/ck_fmha_batched_backward.h    | 12 ++++++++++++
 .../attention/hip_fmha/ck_fmha_grouped_backward.h    | 12 ++++++++++++
 3 files changed, 25 insertions(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index f27f915811..4033f5df2d 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit f27f91581162c788f144f0f4f9aa68fa465a33fc
+Subproject commit 4033f5df2de7a3e778fced14041304d6fc20d673
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index beb93f7c20..50d0761a65 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -264,6 +264,10 @@ struct batched_backward_masktype_attnbias_dispatched {
         param.k_strides[1],
         param.k_strides[3]};
 
+    // ToDo: support multi-query and group-query attention
+    std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = k_gs_ns_ks_lengths;
+    std::vector<ck::index_t> kgrad_gs_ns_ks_strides = k_gs_ns_ks_strides;
+
     std::vector<ck::index_t> v_gs_os_ns_lengths{
         param.B, param.num_heads, param.Kv, param.N};
     std::vector<ck::index_t> v_gs_os_ns_strides{
@@ -272,6 +276,10 @@ struct batched_backward_masktype_attnbias_dispatched {
         param.v_strides[3],
         param.v_strides[1]};
 
+    // ToDo: support multi-query and group-query attention
+    std::vector<ck::index_t> vgrad_gs_os_ns_lengths = v_gs_os_ns_lengths;
+    std::vector<ck::index_t> vgrad_gs_os_ns_strides = v_gs_os_ns_strides;
+
     std::vector<ck::index_t> y_gs_ms_os_lengths{
         param.B, param.num_heads, param.M, param.Kv};
     std::vector<ck::index_t> y_gs_ms_os_strides{
@@ -329,6 +337,10 @@ struct batched_backward_masktype_attnbias_dispatched {
         y_gs_ms_os_lengths, // y, dY should have same shape
         y_gs_ms_os_strides,
         lse_gs_ms_lengths,
+        kgrad_gs_ns_ks_lengths,
+        kgrad_gs_ns_ks_strides,
+        vgrad_gs_os_ns_lengths,
+        vgrad_gs_os_ns_strides,
         d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
         d_gs_ms_ns_strides,
         {}, // acc1_biases_gs_ms_os_lengths
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 9847b9fa08..0de98ed0ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -267,11 +267,19 @@ struct grouped_backward_masktype_attnbias_dispatched {
       std::vector<ck::index_t> k_gs_ns_ks_strides{
           0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
 
+      // ToDo: support multi-query and group-query attention
+      std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = k_gs_ns_ks_lengths;
+      std::vector<ck::index_t> kgrad_gs_ns_ks_strides = k_gs_ns_ks_strides;
+
       // to be changed to v_gs_ns_os_lengths
       std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1, Kv, N};
       std::vector<ck::index_t> v_gs_os_ns_strides{
           0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
 
+      // ToDo: support multi-query and group-query attention
+      std::vector<ck::index_t> vgrad_gs_os_ns_lengths = v_gs_os_ns_lengths;
+      std::vector<ck::index_t> vgrad_gs_os_ns_strides = v_gs_os_ns_strides;
+
       std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1, M, Kv};
       std::vector<ck::index_t> y_gs_ms_os_strides{
           0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
@@ -308,6 +316,10 @@ struct grouped_backward_masktype_attnbias_dispatched {
           y_gs_ms_os_strides,
           lse_gs_ms_lengths,
           lse_gs_ms_strides,
+          kgrad_gs_ns_ks_lengths,
+          kgrad_gs_ns_ks_strides,
+          vgrad_gs_os_ns_lengths,
+          vgrad_gs_os_ns_strides,
           d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
           d_gs_ms_ns_strides,
           {}, // acc1_biases_gs_ms_os_lengths

From 60c33f2b18899a22aff3e4b5f1688e5b1bc966c6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 26 Oct 2023 17:27:44 +0000
Subject: [PATCH 117/837] Remove un-used header file

---
 .../hip_fmha/ck_fmha_device_gemm_constants.h  | 120 ------------------
 1 file changed, 120 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
deleted file mode 100644
index e49d6d4dca..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_device_gemm_constants.h
+++ /dev/null
@@ -1,120 +0,0 @@
-#pragma once
-
-#include <ck/ck.hpp>
-#include "ck_fmha_op_helper.h"
-
-// list the template parameters that is commonly used
-struct GemmOpConstantsCommon {
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-};
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedInfer {
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 32;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 1;
-  static constexpr ck::index_t NXdlPerWave = 4;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 4;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 32, 1, 8>;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedInfer {
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 32;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 1;
-  static constexpr ck::index_t NXdlPerWave = 4;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector,
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 4;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 32, 1, 8>;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-
-struct GemmOpConstantsForward {};
-
-struct GemmOpConstantsBackward {};

From ae2545099c57779899b67f0976e250d4aadf109c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 26 Oct 2023 17:29:49 +0000
Subject: [PATCH 118/837] Remove un-used codes in
 benchmark_mem_eff_attention_ck.py

---
 xformers/benchmarks/benchmark_mem_eff_attention_ck.py | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
index bd700518d9..0c754d8c18 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
@@ -176,14 +176,6 @@ def create_tensors(shape, dtype, requires_grad=False):
     q, k, v = xformers.ops.unbind(qkv, 2)
     return qkv, q, k, v
 
-def create_discrete_tensors(shape, dtype, requires_grad=False):
-    B, M, H, K = shape
-    q = torch.rand([B, M, H, K], device=device, dtype=dtype, requires_grad=requires_grad)
-    k = torch.rand([B, M, H, K], device=device, dtype=dtype, requires_grad=requires_grad)
-    v = torch.rand([B, M, H, K], device=device, dtype=dtype, requires_grad=requires_grad)
-
-    return q, k, v
-
 def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
     B, M, H, K = shape
     _, q, k, v = create_tensors(shape, dtype)

From 0d21bf86a211db5e32197a3c3ca5d4ed38c96b38 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 27 Oct 2023 10:39:52 +0000
Subject: [PATCH 119/837] [Performance] Add A/B0/B1/C scalar_per_vector
 selection in forward

---
 .../hip_fmha/ck_fmha_batched_forward.h        | 269 +++++++++++------
 .../hip_fmha/ck_fmha_forward_gemm_constants.h | 102 ++++++-
 .../hip_fmha/ck_fmha_grouped_forward.h        | 281 +++++++++++-------
 3 files changed, 451 insertions(+), 201 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index c32667315e..0307d47a5e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -5,10 +5,15 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp"
+#include <ck/utility/math.hpp>
+#include <ck/utility/number.hpp>
 
+#include "ck_align_switch.h"
+#include "ck_fmha_common_gemm_constants.h"
+#include "ck_fmha_forward_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -56,23 +61,44 @@ struct batched_forward_masktype_attnbias_dispatched {
   static constexpr auto TensorSpecC =
       ck::tensor_operation::device::TensorSpecialization::Default;
 
-  // Tunables
-  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
+#ifndef BATCHED_FORWARD_HEADDIM_SWITCH
+#define BATCHED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                           \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+      __VA_ARGS__();                                              \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+      __VA_ARGS__();                                              \
+    } else {                                                      \
+      constexpr ck::index_t kGemm1NPerBlock = 128;                \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+      __VA_ARGS__();                                              \
+    }                                                             \
+  }()
+#endif
+
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kB1BlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
   using DeviceOpInstanceTemp = ck::tensor_operation::device::
       DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
           ADataType,
           B0DataType,
           B1DataType,
@@ -90,93 +116,150 @@ struct batched_forward_masktype_attnbias_dispatched {
           B1ElementOp,
           CElementOp,
           GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
+          GemmOpConstantsBatchedForward::NumGemmKPrefetchStage,
+          GemmOpConstantsBatchedForward::BlockSize,
+          GemmOpConstantsBatchedForward::MPerBlock,
+          GemmOpConstantsBatchedForward::NPerBlock,
+          GemmOpConstantsBatchedForward::KPerBlock,
           kGemm1NPerBlock,
-          32, // Gemm1KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
+          GemmOpConstantsBatchedForward::Gemm1KPerBlock,
+          GemmOpConstantsBatchedForward::AK1,
+          GemmOpConstantsBatchedForward::BK1,
+          GemmOpConstantsBatchedForward::B1K1,
+          GemmOpConstantsBatchedForward::MPerXDL,
+          GemmOpConstantsBatchedForward::NPerXDL,
+          GemmOpConstantsBatchedForward::MXdlPerWave,
+          GemmOpConstantsBatchedForward::NXdlPerWave,
           kGemm1NXdlPerWave,
-          1, // DropoutStep
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-          S<16, 16, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          kB1BlockTransferSrcScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
+          GemmOpConstantsBatchedForward::DropoutStep,
+          GemmOpConstantsBatchedForward::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsBatchedForward::
+              ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedForward::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedForward::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedForward::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsBatchedForward::ABlockLdsExtraM,
+          GemmOpConstantsBatchedForward::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedForward::
+              BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedForward::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedForward::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedForward::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedForward::BBlockLdsExtraN,
+          kAcc0BiasTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedForward::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedForward::
+              B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedForward::B1BlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedForward::B1BlockTransferSrcVectorDim,
+          kB1BlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedForward::B1BlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedForward::B1BlockLdsExtraN,
+          GemmOpConstantsBatchedForward::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          kCShuffleBlockTransferScalarPerVector, // TUNABLE
-          4,
-          MaskingSpec>; // MaskingSpecialization
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    if (param.K <= 32 && param.Kv <= 32) {
-      constexpr ck::index_t kGemm1NPerBlock = 32;
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
-
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else if (param.K <= 64 && param.Kv <= 64) {
-      constexpr ck::index_t kGemm1NPerBlock = 64;
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
-
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+          GemmOpConstantsBatchedForward::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          kCShuffleBlockTransferScalarPerVector,
+          GemmOpConstantsBatchedForward::Acc1BiasTransferSrcScalarPerVector,
+          MaskingSpec>;
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
 
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    };
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedForward::AK1 /
+          GemmOpConstantsBatchedForward::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedForward::BK1 /
+          GemmOpConstantsBatchedForward::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsBatchedForward::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedForward::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(2, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
   };
 
   template <typename DeviceOpInstance>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index 673adbea8c..ab72b87cf6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -3,4 +3,104 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_op_helper.h"
 
-struct GemmOpConstantsForward {};
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsBatchedForward {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 32;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 1;
+  static constexpr ck::index_t NXdlPerWave = 4;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t DropoutStep = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
+      S<1, 32, 1, 8>;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector =
+      1; // not actually used by the kernel
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsGroupedForward {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 32;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 1;
+  static constexpr ck::index_t NXdlPerWave = 4;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t DropoutStep = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
+      S<1, 32, 1, 8>;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector =
+      1; // not actually used by the kernel
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index c1bb0d3a51..a612370143 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -8,8 +8,12 @@
 #include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/sequence.hpp>
+#include <ck/utility/math.hpp>
+#include <ck/utility/number.hpp>
 
+#include "ck_align_switch.h"
+#include "ck_fmha_common_gemm_constants.h"
+#include "ck_fmha_forward_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -30,12 +34,6 @@ struct grouped_forward_masktype_attnbias_dispatched {
       typename std::conditional<has_attn_bias, scalar_t, void>::type;
   using Acc1BiasDataType = void;
 
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
   using AElementOp = PassThrough;
   using B0ElementOp = PassThrough;
   using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
@@ -48,32 +46,44 @@ struct grouped_forward_masktype_attnbias_dispatched {
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
-  // Tunables
-  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
+#ifndef GROUPED_FORWARD_HEADDIM_SWITCH
+#define GROUPED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                           \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+      __VA_ARGS__();                                              \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+      __VA_ARGS__();                                              \
+    } else {                                                      \
+      constexpr ck::index_t kGemm1NPerBlock = 128;                \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+      __VA_ARGS__();                                              \
+    }                                                             \
+  }()
+#endif
+
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle>
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kB1BlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
   using DeviceOpInstanceTemp = ck::tensor_operation::device::
       DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
           ADataType,
           B0DataType,
           B1DataType,
@@ -91,93 +101,150 @@ struct grouped_forward_masktype_attnbias_dispatched {
           B1ElementOp,
           CElementOp,
           GemmSpec,
-          TensorSpecA,
-          TensorSpecB0,
-          TensorSpecB1,
-          TensorSpecC,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
-          32, // KPerBlock
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
+          GemmOpConstantsGroupedForward::NumGemmKPrefetchStage,
+          GemmOpConstantsGroupedForward::BlockSize,
+          GemmOpConstantsGroupedForward::MPerBlock,
+          GemmOpConstantsGroupedForward::NPerBlock,
+          GemmOpConstantsGroupedForward::KPerBlock,
           kGemm1NPerBlock,
-          32, // Gemm1KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          1, // MXdlPerWave
-          4, // NXdlPerWave
+          GemmOpConstantsGroupedForward::Gemm1KPerBlock,
+          GemmOpConstantsGroupedForward::AK1,
+          GemmOpConstantsGroupedForward::BK1,
+          GemmOpConstantsGroupedForward::B1K1,
+          GemmOpConstantsGroupedForward::MPerXDL,
+          GemmOpConstantsGroupedForward::NPerXDL,
+          GemmOpConstantsGroupedForward::MXdlPerWave,
+          GemmOpConstantsGroupedForward::NXdlPerWave,
           kGemm1NXdlPerWave,
-          1, // DropoutStep
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
+          GemmOpConstantsGroupedForward::DropoutStep,
+          GemmOpConstantsGroupedForward::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsGroupedForward::
+              ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedForward::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedForward::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedForward::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsGroupedForward::ABlockLdsExtraM,
+          GemmOpConstantsGroupedForward::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedForward::
+              BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedForward::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedForward::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedForward::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedForward::BBlockLdsExtraN,
           kAcc0BiasTransferSrcScalarPerVector,
-          S<8, 32, 1>, // B1BlockTransfer
-          S<0, 2, 1>,
-          S<0, 2, 1>,
-          1,
-          kB1BlockTransferSrcScalarPerVector, // TUNABLE
-          2,
-          false,
-          1, // CShuffleMXdlPerWavePerShuffle
+          GemmOpConstantsGroupedForward::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedForward::
+              B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedForward::B1BlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedForward::B1BlockTransferSrcVectorDim,
+          kB1BlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedForward::B1BlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedForward::B1BlockLdsExtraN,
+          GemmOpConstantsGroupedForward::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          S<1,
-            32,
-            1,
-            8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-          kCShuffleBlockTransferScalarPerVector, // TUNABLE
-          1,
-          MaskingSpec>; // MaskingSpecialization
+          GemmOpConstantsGroupedForward::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          kCShuffleBlockTransferScalarPerVector,
+          GemmOpConstantsGroupedForward::Acc1BiasTransferSrcScalarPerVector,
+          MaskingSpec>;
 
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    if (param.K <= 32 && param.Kv <= 32) {
-      constexpr ck::index_t kGemm1NPerBlock = 32;
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else if (param.K <= 64 && param.Kv <= 64) {
-      constexpr ck::index_t kGemm1NPerBlock = 64;
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
-
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    };
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedForward::AK1 /
+          GemmOpConstantsBatchedForward::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedForward::BK1 /
+          GemmOpConstantsBatchedForward::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsBatchedForward::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedForward::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(2, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
   };
 
   template <typename DeviceOpInstance>

From c3270c4e40e733b138223c453c6c2bc54f7b1d60 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 27 Oct 2023 11:54:54 +0000
Subject: [PATCH 120/837] Use compile-time checking(constexpr) to reduce the
 number of compiled instances in inference

---
 .../hip_fmha/ck_fmha_batched_infer.h          | 216 ++++++-----------
 .../hip_fmha/ck_fmha_grouped_infer.h          | 217 ++++++------------
 2 files changed, 144 insertions(+), 289 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 7794b5ee0b..6fddd553cf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -5,11 +5,11 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/math.hpp>
 #include <ck/utility/number.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp"
 
 #include "ck_align_switch.h"
 #include "ck_fmha_common_gemm_constants.h"
@@ -48,6 +48,28 @@ struct batched_infer_masktype_attnbias_dispatched {
 
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
+#ifndef BATCHED_INFER_HEADDIM_SWITCH
+#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                         \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
+      constexpr ck::index_t kGemm1NPerBlock = 32;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
+      __VA_ARGS__();                                            \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
+      constexpr ck::index_t kGemm1NPerBlock = 64;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
+      __VA_ARGS__();                                            \
+    } else {                                                    \
+      constexpr ck::index_t kGemm1NPerBlock = 128;              \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
+      __VA_ARGS__();                                            \
+    }                                                           \
+  }()
+#endif
+
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -134,69 +156,7 @@ struct batched_infer_masktype_attnbias_dispatched {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using ck::math::min;
 
-    if (param.K <= 32 && param.Kv <= 32) {
-      constexpr ck::index_t kGemm1NPerBlock = 32;
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedInfer::AK1 /
-          GemmOpConstantsBatchedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedInfer::BK1 /
-          GemmOpConstantsBatchedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      ALIGN_SWITCH_3(
-          kABBlockTransferSrcScalarPerVector_max,
-          kABBlockTransferSrcScalarPerVector,
-          param.K,
-          kB1BlockTransferSrcScalarPerVector_max,
-          kB1BlockTransferSrcScalarPerVector,
-          param.Kv,
-          kCShuffleBlockTransferScalarPerVector_max,
-          kCShuffleBlockTransferScalarPerVector,
-          param.Kv,
-          [&] {
-            using DeviceOpInstance = DeviceOpInstanceTemp<
-                kGemm1NPerBlock,
-                kGemm1NXdlPerWave,
-                kCShuffleNXdlPerWavePerShuffle,
-                kABBlockTransferSrcScalarPerVector,
-                kB1BlockTransferSrcScalarPerVector,
-                kCShuffleBlockTransferScalarPerVector>;
-
-            RunWithDeviceOp<DeviceOpInstance>(param, stream);
-          });
-    } else if (param.K <= 64 && param.Kv <= 64) {
-      constexpr ck::index_t kGemm1NPerBlock = 64;
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
-
+    BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_ak1 =
           GemmOpConstantsBatchedInfer::AK1 /
           GemmOpConstantsBatchedInfer::
@@ -229,86 +189,54 @@ struct batched_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
           min(2, thread_slice_length_cshuflle_n);
 
-      ALIGN_SWITCH_3(
-          kABBlockTransferSrcScalarPerVector_max,
-          kABBlockTransferSrcScalarPerVector,
-          param.K,
-          kB1BlockTransferSrcScalarPerVector_max,
-          kB1BlockTransferSrcScalarPerVector,
-          param.Kv,
-          kCShuffleBlockTransferScalarPerVector_max,
-          kCShuffleBlockTransferScalarPerVector,
-          param.Kv,
-          [&] {
-            using DeviceOpInstance = DeviceOpInstanceTemp<
-                kGemm1NPerBlock,
-                kGemm1NXdlPerWave,
-                kCShuffleNXdlPerWavePerShuffle,
-                kABBlockTransferSrcScalarPerVector,
-                kB1BlockTransferSrcScalarPerVector,
-                kCShuffleBlockTransferScalarPerVector>;
-
-            RunWithDeviceOp<DeviceOpInstance>(param, stream);
-          });
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedInfer::AK1 /
-          GemmOpConstantsBatchedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedInfer::BK1 /
-          GemmOpConstantsBatchedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      ALIGN_SWITCH_3(
-          kABBlockTransferSrcScalarPerVector_max,
-          kABBlockTransferSrcScalarPerVector,
-          param.K,
-          kB1BlockTransferSrcScalarPerVector_max,
-          kB1BlockTransferSrcScalarPerVector,
-          param.Kv,
-          kCShuffleBlockTransferScalarPerVector_max,
-          kCShuffleBlockTransferScalarPerVector,
-          param.Kv,
-          [&] {
-            using DeviceOpInstance = DeviceOpInstanceTemp<
-                kGemm1NPerBlock,
-                kGemm1NXdlPerWave,
-                kCShuffleNXdlPerWavePerShuffle,
-                kABBlockTransferSrcScalarPerVector,
-                kB1BlockTransferSrcScalarPerVector,
-                kCShuffleBlockTransferScalarPerVector>;
-
-            RunWithDeviceOp<DeviceOpInstance>(param, stream);
-          });
-    }
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
   };
 
   template <typename DeviceOpInstance>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 579841b57f..c68a0142a5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -5,12 +5,11 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
 #include <ck/utility/math.hpp>
 #include <ck/utility/number.hpp>
-#include <ck/utility/sequence.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp"
 
 #include "ck_align_switch.h"
 #include "ck_fmha_common_gemm_constants.h"
@@ -49,6 +48,28 @@ struct grouped_infer_masktype_attnbias_dispatched {
 
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
+#ifndef GROUPED_INFER_HEADDIM_SWITCH
+#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                         \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
+      constexpr ck::index_t kGemm1NPerBlock = 32;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
+      __VA_ARGS__();                                            \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
+      constexpr ck::index_t kGemm1NPerBlock = 64;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
+      __VA_ARGS__();                                            \
+    } else {                                                    \
+      constexpr ck::index_t kGemm1NPerBlock = 128;              \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
+      __VA_ARGS__();                                            \
+    }                                                           \
+  }()
+#endif
+
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -135,69 +156,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using ck::math::min;
 
-    if (param.K <= 32 && param.Kv <= 32) {
-      constexpr ck::index_t kGemm1NPerBlock = 32;
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedInfer::AK1 /
-          GemmOpConstantsGroupedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedInfer::BK1 /
-          GemmOpConstantsGroupedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsGroupedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      ALIGN_SWITCH_3(
-          kABBlockTransferSrcScalarPerVector_max,
-          kABBlockTransferSrcScalarPerVector,
-          param.K,
-          kB1BlockTransferSrcScalarPerVector_max,
-          kB1BlockTransferSrcScalarPerVector,
-          param.Kv,
-          kCShuffleBlockTransferScalarPerVector_max,
-          kCShuffleBlockTransferScalarPerVector,
-          param.Kv,
-          [&] {
-            using DeviceOpInstance = DeviceOpInstanceTemp<
-                kGemm1NPerBlock,
-                kGemm1NXdlPerWave,
-                kCShuffleNXdlPerWavePerShuffle,
-                kABBlockTransferSrcScalarPerVector,
-                kB1BlockTransferSrcScalarPerVector,
-                kCShuffleBlockTransferScalarPerVector>;
-
-            RunWithDeviceOp<DeviceOpInstance>(param, stream);
-          });
-    } else if (param.K <= 64 && param.Kv <= 64) {
-      constexpr ck::index_t kGemm1NPerBlock = 64;
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
-
+    GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_ak1 =
           GemmOpConstantsGroupedInfer::AK1 /
           GemmOpConstantsGroupedInfer::
@@ -230,86 +189,54 @@ struct grouped_infer_masktype_attnbias_dispatched {
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
           min(2, thread_slice_length_cshuflle_n);
 
-      ALIGN_SWITCH_3(
-          kABBlockTransferSrcScalarPerVector_max,
-          kABBlockTransferSrcScalarPerVector,
-          param.K,
-          kB1BlockTransferSrcScalarPerVector_max,
-          kB1BlockTransferSrcScalarPerVector,
-          param.Kv,
-          kCShuffleBlockTransferScalarPerVector_max,
-          kCShuffleBlockTransferScalarPerVector,
-          param.Kv,
-          [&] {
-            using DeviceOpInstance = DeviceOpInstanceTemp<
-                kGemm1NPerBlock,
-                kGemm1NXdlPerWave,
-                kCShuffleNXdlPerWavePerShuffle,
-                kABBlockTransferSrcScalarPerVector,
-                kB1BlockTransferSrcScalarPerVector,
-                kCShuffleBlockTransferScalarPerVector>;
-
-            RunWithDeviceOp<DeviceOpInstance>(param, stream);
-          });
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedInfer::AK1 /
-          GemmOpConstantsGroupedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedInfer::BK1 /
-          GemmOpConstantsGroupedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsGroupedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      ALIGN_SWITCH_3(
-          kABBlockTransferSrcScalarPerVector_max,
-          kABBlockTransferSrcScalarPerVector,
-          param.K,
-          kB1BlockTransferSrcScalarPerVector_max,
-          kB1BlockTransferSrcScalarPerVector,
-          param.Kv,
-          kCShuffleBlockTransferScalarPerVector_max,
-          kCShuffleBlockTransferScalarPerVector,
-          param.Kv,
-          [&] {
-            using DeviceOpInstance = DeviceOpInstanceTemp<
-                kGemm1NPerBlock,
-                kGemm1NXdlPerWave,
-                kCShuffleNXdlPerWavePerShuffle,
-                kABBlockTransferSrcScalarPerVector,
-                kB1BlockTransferSrcScalarPerVector,
-                kCShuffleBlockTransferScalarPerVector>;
-
-            RunWithDeviceOp<DeviceOpInstance>(param, stream);
-          });
-    };
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
   };
 
   template <typename DeviceOpInstance>

From d5b32ef54735da011aabad6812b6fdddc9278b65 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 27 Oct 2023 12:00:15 +0000
Subject: [PATCH 121/837] Fix in ck_fmha_grouped_forward.h

---
 .../attention/hip_fmha/ck_fmha_grouped_forward.h     | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index a612370143..1588f8b415 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -166,12 +166,12 @@ struct grouped_forward_masktype_attnbias_dispatched {
 
     GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedForward::AK1 /
-          GemmOpConstantsBatchedForward::
+          GemmOpConstantsGroupedForward::AK1 /
+          GemmOpConstantsGroupedForward::
               ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
       constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedForward::BK1 /
-          GemmOpConstantsBatchedForward::
+          GemmOpConstantsGroupedForward::BK1 /
+          GemmOpConstantsGroupedForward::
               BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
 
       static_assert(
@@ -182,7 +182,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
           min(2, thread_slice_length_ak1);
 
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedForward::
+          GemmOpConstantsGroupedForward::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
       constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
           min(2, thread_slice_length_gemm1n);
@@ -190,7 +190,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
       constexpr ck::index_t thread_slice_length_cshuflle_n =
           (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
            kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedForward::
+          GemmOpConstantsGroupedForward::
               CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
                   At(I3);
 

From 7892b945d24f0fe22ffaa815124dc3887b3cfd28 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 27 Oct 2023 15:54:57 +0000
Subject: [PATCH 122/837] Codes simplificaton in forward/infer

---
 .../hip_fmha/ck_fmha_batched_forward.h        | 33 ++++++++++---------
 .../hip_fmha/ck_fmha_batched_infer.h          | 33 ++++++++++---------
 .../hip_fmha/ck_fmha_grouped_forward.h        | 33 ++++++++++---------
 .../hip_fmha/ck_fmha_grouped_infer.h          | 33 ++++++++++---------
 4 files changed, 68 insertions(+), 64 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 0307d47a5e..f9d0dc0870 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -179,23 +179,24 @@ struct batched_forward_masktype_attnbias_dispatched {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using ck::math::min;
 
-    BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedForward::AK1 /
-          GemmOpConstantsBatchedForward::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedForward::BK1 /
-          GemmOpConstantsBatchedForward::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsBatchedForward::AK1 /
+        GemmOpConstantsBatchedForward::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsBatchedForward::BK1 /
+        GemmOpConstantsBatchedForward::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(2, thread_slice_length_ak1);
 
+    BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsBatchedForward::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 6fddd553cf..335a7ca3b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -156,23 +156,24 @@ struct batched_infer_masktype_attnbias_dispatched {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using ck::math::min;
 
-    BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedInfer::AK1 /
-          GemmOpConstantsBatchedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedInfer::BK1 /
-          GemmOpConstantsBatchedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_ak1);
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsBatchedInfer::AK1 /
+        GemmOpConstantsBatchedInfer::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsBatchedInfer::BK1 /
+        GemmOpConstantsBatchedInfer::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(4, thread_slice_length_ak1);
 
+    BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsBatchedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 1588f8b415..1ca4c32101 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -164,23 +164,24 @@ struct grouped_forward_masktype_attnbias_dispatched {
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using ck::math::min;
 
-    GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedForward::AK1 /
-          GemmOpConstantsGroupedForward::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedForward::BK1 /
-          GemmOpConstantsGroupedForward::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsGroupedForward::AK1 /
+        GemmOpConstantsGroupedForward::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsGroupedForward::BK1 /
+        GemmOpConstantsGroupedForward::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(2, thread_slice_length_ak1);
 
+    GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsGroupedForward::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index c68a0142a5..5552a3074a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -156,23 +156,24 @@ struct grouped_infer_masktype_attnbias_dispatched {
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using ck::math::min;
 
-    GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedInfer::AK1 /
-          GemmOpConstantsGroupedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedInfer::BK1 /
-          GemmOpConstantsGroupedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_ak1);
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsGroupedInfer::AK1 /
+        GemmOpConstantsGroupedInfer::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsGroupedInfer::BK1 /
+        GemmOpConstantsGroupedInfer::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(4, thread_slice_length_ak1);
 
+    GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
           GemmOpConstantsGroupedInfer::
               B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);

From c2de2281b0d44aaeefcc378fbb79132ef7ba8853 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 27 Oct 2023 16:52:41 +0000
Subject: [PATCH 123/837] Tiny change to the grouped forward gemm constants

---
 .../csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index ab72b87cf6..992a4c4b25 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -88,7 +88,7 @@ struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
   static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
   using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
   using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
   static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;

From 8b63dca454abe0e16d5efac201bf8ed9d50ac7a9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 28 Oct 2023 00:24:12 +0000
Subject: [PATCH 124/837] [Performance] Add A/B0/B1/C scalar_per_vector
 selection in backward

---
 .../ck_fmha_backward_gemm_constants.h         | 186 ++++++-
 .../hip_fmha/ck_fmha_batched_backward.h       | 456 +++++++++++-------
 .../hip_fmha/ck_fmha_grouped_backward.h       | 447 ++++++++++-------
 3 files changed, 764 insertions(+), 325 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
index 585a83e3a0..d80ffa43b2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
@@ -3,4 +3,188 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_op_helper.h"
 
-struct GemmOpConstantsBackward {};
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsBatchedBackward_V1 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  // static constexpr ck::index_t KPerBlock;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 4;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsBatchedBackward_V2 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 64;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 128;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 64;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 2;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsGroupedBackward_V1 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  // static constexpr ck::index_t KPerBlock;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 4;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
+
+// list the template parameters that will not be tuned,
+// the commented lines gives the tunable template parameters
+struct GemmOpConstantsGroupedBackward_V2 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 64;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 128;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 64;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 2;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 50d0761a65..9fd8e06e09 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -5,11 +5,14 @@
 
 #include <ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v1.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v1.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
 
+#include "ck_align_switch.h"
+#include "ck_fmha_backward_gemm_constants.h"
+#include "ck_fmha_common_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -37,48 +40,49 @@ struct batched_backward_masktype_attnbias_dispatched {
       typename std::conditional<has_attn_bias, scalar_t, void>::type;
   using Acc1BiasDataType = void;
 
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock =
-      MaxVectorSizeForType<scalar_t>::value;
-
   static constexpr auto GemmSpec =
       ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
   static constexpr auto MaskingSpec =
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr auto TensorSpecQ =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecK =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecV =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecY =
-      ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = true;
 
-  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
+#ifndef BATCHED_BACKWARD_V1_HEADDIM_SWITCH
+#define BATCHED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                               \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
+      __VA_ARGS__();                                                  \
+    } else {                                                          \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
+      __VA_ARGS__();                                                  \
+    };                                                                \
+  }()
+#endif
+
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
       ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      typename kCShuffleBlockTransferClusterLengths>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
+      typename kCShuffleBlockTransferClusterLengths,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
+  using DeviceOpInstanceTemp_V1 = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
           InputDataType,
           OutputDataType,
           GemmDataType,
@@ -94,153 +98,279 @@ struct batched_backward_masktype_attnbias_dispatched {
           QKVElementOp,
           YElementOp,
           GemmSpec,
-          TensorSpecQ,
-          TensorSpecK,
-          TensorSpecV,
-          TensorSpecY,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
+          GemmOpConstantsBatchedBackward_V1::NumGemmKPrefetchStage,
+          GemmOpConstantsBatchedBackward_V1::BlockSize,
+          GemmOpConstantsBatchedBackward_V1::MPerBlock,
+          GemmOpConstantsBatchedBackward_V1::NPerBlock,
           kGemm1NPerBlock, // KPerBlock == kGemm1NPerBlock required
           kGemm1NPerBlock,
-          32, // Gemm1KperBlock
-          32, // Gemm2KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          4, // MXdlPerWave
-          1, // NXdlPerWave
+          GemmOpConstantsBatchedBackward_V1::Gemm1KPerBlock,
+          GemmOpConstantsBatchedBackward_V1::Gemm2KPerBlock,
+          GemmOpConstantsBatchedBackward_V1::AK1,
+          GemmOpConstantsBatchedBackward_V1::BK1,
+          GemmOpConstantsBatchedBackward_V1::B1K1,
+          GemmOpConstantsBatchedBackward_V1::MPerXDL,
+          GemmOpConstantsBatchedBackward_V1::NPerXDL,
+          GemmOpConstantsBatchedBackward_V1::MXdlPerWave,
+          GemmOpConstantsBatchedBackward_V1::NXdlPerWave,
           kGemm1NXdlPerWave,
-          1, // Gemm2NXdlPerWave
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-          1, // CShuffleMXdlPerWavePerShuffle
+          GemmOpConstantsBatchedBackward_V1::Gemm2NXdlPerWave,
+          GemmOpConstantsBatchedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsBatchedBackward_V1::ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedBackward_V1::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedBackward_V1::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V1::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsBatchedBackward_V1::ABlockLdsExtraM,
+          GemmOpConstantsBatchedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedBackward_V1::BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedBackward_V1::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedBackward_V1::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V1::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedBackward_V1::BBlockLdsExtraN,
+          kAcc0BiasTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V1::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
           kCShuffleBlockTransferClusterLengths,
-          kCShuffleBlockTransferScalarPerVector, // TUNABLE
+          kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
+  // clang-format on
 
-  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
-    if (param.K <= 32 && param.Kv <= 32) {
-      constexpr ck::index_t kGemm1NPerBlock = 32;
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
-      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;
-
-      using DeviceOpInstance = DeviceOpInstanceTemp<
+  // clang-format off
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      typename kCShuffleBlockTransferClusterLengths,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kB1BlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
+  using DeviceOpInstanceTemp_V2 = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
+          InputDataType,
+          OutputDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          ShuffleDataType,
+          QKVElementOp,
+          QKVElementOp,
+          Scale,
+          QKVElementOp,
+          YElementOp,
+          GemmSpec,
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
+          GemmOpConstantsBatchedBackward_V2::NumGemmKPrefetchStage,
+          GemmOpConstantsBatchedBackward_V2::BlockSize,
+          GemmOpConstantsBatchedBackward_V2::MPerBlock,
+          GemmOpConstantsBatchedBackward_V2::NPerBlock,
+          GemmOpConstantsBatchedBackward_V2::KPerBlock,
           kGemm1NPerBlock,
+          GemmOpConstantsBatchedBackward_V2::Gemm1KPerBlock,
+          GemmOpConstantsBatchedBackward_V2::Gemm2KPerBlock,
+          GemmOpConstantsBatchedBackward_V2::AK1,
+          GemmOpConstantsBatchedBackward_V2::BK1,
+          GemmOpConstantsBatchedBackward_V2::B1K1,
+          GemmOpConstantsBatchedBackward_V2::MPerXDL,
+          GemmOpConstantsBatchedBackward_V2::NPerXDL,
+          GemmOpConstantsBatchedBackward_V2::MXdlPerWave,
+          GemmOpConstantsBatchedBackward_V2::NXdlPerWave,
           kGemm1NXdlPerWave,
+          GemmOpConstantsBatchedBackward_V2::Gemm2NXdlPerWave,
+          GemmOpConstantsBatchedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsBatchedBackward_V2::ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedBackward_V2::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedBackward_V2::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V2::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsBatchedBackward_V2::ABlockLdsExtraM,
+          GemmOpConstantsBatchedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedBackward_V2::BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedBackward_V2::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedBackward_V2::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V2::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedBackward_V2::BBlockLdsExtraN,
+          kAcc0BiasTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V2::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedBackward_V2::B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedBackward_V2::B1BlockTransferSrcAccessOrder,
+          GemmOpConstantsBatchedBackward_V2::B1BlockTransferSrcVectorDim,
+          kB1BlockTransferSrcScalarPerVector,
+          GemmOpConstantsBatchedBackward_V2::B1BlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsBatchedBackward_V2::B1BlockLdsExtraN,
+          GemmOpConstantsBatchedBackward_V2::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else if (param.K <= 64 && param.Kv <= 64) {
-      constexpr ck::index_t kGemm1NPerBlock = 64;
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+          kCShuffleBlockTransferClusterLengths,
+          kCShuffleBlockTransferScalarPerVector,
+          MaskingSpec,
+          Deterministic>;
+  // clang-format on
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths>;
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
 
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    if (param.K <= 64 && param.Kv <= 64) {
+      // compile-time constants which don't depend on head-dim switching
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedBackward_V1::AK1 /
+          GemmOpConstantsBatchedBackward_V1::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedBackward_V1::BK1 /
+          GemmOpConstantsBatchedBackward_V1::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      BATCHED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+        constexpr ck::index_t thread_slice_length_cshuflle_n =
+            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+             kGemm1NXdlPerWave) /
+            kCShuffleBlockTransferClusterLengths::At(I3);
+
+        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+            min(2, thread_slice_length_cshuflle_n);
+
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      });
     } else {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              InputDataType,
-              OutputDataType,
-              GemmDataType,
-              ZDataType,
-              LSEDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              ShuffleDataType,
-              QKVElementOp,
-              QKVElementOp,
-              Scale,
-              QKVElementOp,
-              YElementOp,
-              GemmSpec,
-              TensorSpecQ,
-              TensorSpecK,
-              TensorSpecV,
-              TensorSpecY,
-              1,
-              256,
-              64, // MPerBlock
-              128, // NPerBlock
-              128, // KPerBlock
-              128, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              64, // Gemm2KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // A1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              2, // MXdlPerWave
-              1, // NXdlPerWave
-              4, // Gemm1NXdlPerWave
-              1, // Gemm2NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // B0BlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-              S<8, 32, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              kB1BlockTransferSrcScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              4, // CShuffleNXdlPerWavePerShuffle
-              S<1,
-                32,
-                1,
-                8>, // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock
-              kCShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec,
-              Deterministic>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedBackward_V2::AK1 /
+          GemmOpConstantsBatchedBackward_V2::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedBackward_V2::BK1 /
+          GemmOpConstantsBatchedBackward_V2::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsBatchedBackward_V2::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          kCShuffleBlockTransferClusterLengths::At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(2, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+
+              static_assert(
+                  kB1BlockTransferSrcScalarPerVector > 0,
+                  "kB1BlockTransferSrcScalarPerVector must be positive");
+
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+
+              static_assert(
+                  kB1BlockTransferSrcScalarPerVector > 0,
+                  "kB1BlockTransferSrcScalarPerVector must be positive");
+
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
     };
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 0de98ed0ce..3301fc2b6b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -5,12 +5,16 @@
 
 #include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v1.hpp>
+#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v2.hpp>
 #include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
 #include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/sequence.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v1.hpp"
-#include "ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v2.hpp"
+#include <ck/utility/math.hpp>
+#include <ck/utility/number.hpp>
 
+#include "ck_align_switch.h"
+#include "ck_fmha_backward_gemm_constants.h"
+#include "ck_fmha_common_gemm_constants.h"
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
@@ -38,48 +42,49 @@ struct grouped_backward_masktype_attnbias_dispatched {
       typename std::conditional<has_attn_bias, scalar_t, void>::type;
   using Acc1BiasDataType = void;
 
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock =
-      MaxVectorSizeForType<scalar_t>::value;
-
   static constexpr auto GemmSpec =
       ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
   static constexpr auto MaskingSpec =
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr auto TensorSpecQ =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecK =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecV =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecY =
-      ck::tensor_operation::device::TensorSpecialization::Default;
   static constexpr bool Deterministic = true;
 
-  static constexpr ck::index_t kABBlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kB1BlockTransferSrcScalarPerVector = 1;
-  static constexpr ck::index_t kCShuffleBlockTransferScalarPerVector = 1;
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
+#ifndef GROUPED_BACKWARD_V1_HEADDIM_SWITCH
+#define GROUPED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                               \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
+      __VA_ARGS__();                                                  \
+    } else {                                                          \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
+      __VA_ARGS__();                                                  \
+    };                                                                \
+  }()
+#endif
+
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
       ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      typename kCShuffleBlockTransferClusterLengths>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-          NumDimG,
-          NumDimM,
-          NumDimN,
-          NumDimK,
-          NumDimO,
+      typename kCShuffleBlockTransferClusterLengths,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
+  using DeviceOpInstanceTemp_V1 = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
           InputDataType,
           OutputDataType,
           GemmDataType,
@@ -95,150 +100,270 @@ struct grouped_backward_masktype_attnbias_dispatched {
           QKVElementOp,
           YElementOp,
           GemmSpec,
-          TensorSpecQ,
-          TensorSpecK,
-          TensorSpecV,
-          TensorSpecY,
-          1,
-          256,
-          128, // MPerBlock
-          128, // NPerBlock
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
+          GemmOpConstantsGroupedBackward_V1::NumGemmKPrefetchStage,
+          GemmOpConstantsGroupedBackward_V1::BlockSize,
+          GemmOpConstantsGroupedBackward_V1::MPerBlock,
+          GemmOpConstantsGroupedBackward_V1::NPerBlock,
           kGemm1NPerBlock, // KPerBlock = kGemm1NerBlock
           kGemm1NPerBlock,
-          32, // Gemm1KPerBlock
-          32, // Gemm2KPerBlock
-          8, // AK1
-          8, // BK1
-          2, // B1K1
-          32, // MPerXDL
-          32, // NPerXDL
-          4, // MXdlPerWave
-          1, // NXdlPerWave
+          GemmOpConstantsGroupedBackward_V1::Gemm1KPerBlock,
+          GemmOpConstantsGroupedBackward_V1::Gemm2KPerBlock,
+          GemmOpConstantsGroupedBackward_V1::AK1,
+          GemmOpConstantsGroupedBackward_V1::BK1,
+          GemmOpConstantsGroupedBackward_V1::B1K1,
+          GemmOpConstantsGroupedBackward_V1::MPerXDL,
+          GemmOpConstantsGroupedBackward_V1::NPerXDL,
+          GemmOpConstantsGroupedBackward_V1::MXdlPerWave,
+          GemmOpConstantsGroupedBackward_V1::NXdlPerWave,
           kGemm1NXdlPerWave,
-          1, // Gemm2NXdlPerWave
-          S<4, 64, 1>, // ABlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          S<4, 64, 1>, // BBlockTransfer
-          S<1, 0, 2>,
-          S<1, 0, 2>,
-          2,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
-          8,
-          true,
-          kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-          1, // CShuffleMXdlPerWavePerShuffle
+          GemmOpConstantsGroupedBackward_V1::Gemm2NXdlPerWave,
+          GemmOpConstantsGroupedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsGroupedBackward_V1::ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedBackward_V1::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedBackward_V1::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V1::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsGroupedBackward_V1::ABlockLdsExtraM,
+          GemmOpConstantsGroupedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedBackward_V1::BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedBackward_V1::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedBackward_V1::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V1::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedBackward_V1::BBlockLdsExtraN,
+          kAcc0BiasTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V2::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
           kCShuffleBlockTransferClusterLengths,
-          kCShuffleBlockTransferScalarPerVector, // TUNABLE
+          kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
+  // clang-format on
 
-  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
-    if (param.K <= 32 && param.Kv <= 32) {
-      constexpr ck::index_t kGemm1NPerBlock = 32;
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;
-      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;
-
-      using DeviceOpInstance = DeviceOpInstanceTemp<
+  // clang-format off
+  template <
+      ck::index_t kGemm1NPerBlock,
+      ck::index_t kGemm1NXdlPerWave,
+      ck::index_t kCShuffleNXdlPerWavePerShuffle,
+      typename kCShuffleBlockTransferClusterLengths,
+      ck::index_t kABBlockTransferSrcScalarPerVector,
+      ck::index_t kB1BlockTransferSrcScalarPerVector,
+      ck::index_t kCShuffleBlockTransferScalarPerVector>
+  using DeviceOpInstanceTemp_V2 = ck::tensor_operation::device::
+      DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+          GemmOpConstantsCommon::NumDimG,
+          GemmOpConstantsCommon::NumDimM,
+          GemmOpConstantsCommon::NumDimN,
+          GemmOpConstantsCommon::NumDimK,
+          GemmOpConstantsCommon::NumDimO,
+          InputDataType,
+          OutputDataType,
+          GemmDataType,
+          ZDataType,
+          LSEDataType,
+          Acc0BiasDataType,
+          Acc1BiasDataType,
+          AccDataType,
+          ShuffleDataType,
+          QKVElementOp,
+          QKVElementOp,
+          Scale,
+          QKVElementOp,
+          YElementOp,
+          GemmSpec,
+          GemmOpConstantsCommon::TensorSpecA,
+          GemmOpConstantsCommon::TensorSpecB0,
+          GemmOpConstantsCommon::TensorSpecB1,
+          GemmOpConstantsCommon::TensorSpecC,
+          GemmOpConstantsGroupedBackward_V2::NumGemmKPrefetchStage,
+          GemmOpConstantsGroupedBackward_V2::BlockSize,
+          GemmOpConstantsGroupedBackward_V2::MPerBlock,
+          GemmOpConstantsGroupedBackward_V2::NPerBlock,
+          GemmOpConstantsGroupedBackward_V2::KPerBlock,
           kGemm1NPerBlock,
+          GemmOpConstantsGroupedBackward_V2::Gemm1KPerBlock,
+          GemmOpConstantsGroupedBackward_V2::Gemm2KPerBlock,
+          GemmOpConstantsGroupedBackward_V2::AK1,
+          GemmOpConstantsGroupedBackward_V2::BK1,
+          GemmOpConstantsGroupedBackward_V2::B1K1,
+          GemmOpConstantsGroupedBackward_V2::MPerXDL,
+          GemmOpConstantsGroupedBackward_V2::NPerXDL,
+          GemmOpConstantsGroupedBackward_V2::MXdlPerWave,
+          GemmOpConstantsGroupedBackward_V2::NXdlPerWave,
           kGemm1NXdlPerWave,
+          GemmOpConstantsBatchedBackward_V2::Gemm2NXdlPerWave,
+          GemmOpConstantsGroupedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsGroupedBackward_V2::ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedBackward_V2::ABlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedBackward_V2::ABlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V2::ABlockTransferDstScalarPerVector_AK1,
+          GemmOpConstantsGroupedBackward_V2::ABlockLdsExtraM,
+          GemmOpConstantsGroupedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedBackward_V2::BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedBackward_V2::BBlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedBackward_V2::BBlockTransferSrcVectorDim,
+          kABBlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V2::BBlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedBackward_V2::BBlockLdsExtraN,
+          kAcc0BiasTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V2::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedBackward_V2::B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedBackward_V2::B1BlockTransferSrcAccessOrder,
+          GemmOpConstantsGroupedBackward_V2::B1BlockTransferSrcVectorDim,
+          kB1BlockTransferSrcScalarPerVector,
+          GemmOpConstantsGroupedBackward_V2::B1BlockTransferDstScalarPerVector_BK1,
+          GemmOpConstantsGroupedBackward_V2::B1BlockLdsExtraN,
+          GemmOpConstantsGroupedBackward_V2::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
-    } else if (param.K <= 64 && param.Kv <= 64) {
-      constexpr ck::index_t kGemm1NPerBlock = 64;
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+          kCShuffleBlockTransferClusterLengths,
+          kCShuffleBlockTransferScalarPerVector,
+          MaskingSpec,
+          Deterministic>;
+  // clang-format on
 
-      using DeviceOpInstance = DeviceOpInstanceTemp<
-          kGemm1NPerBlock,
-          kGemm1NXdlPerWave,
-          kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths>;
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
 
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    if (param.K <= 64 && param.Kv <= 64) {
+      // compile-time constants which don't depend on head-dim switching
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsGroupedBackward_V1::AK1 /
+          GemmOpConstantsGroupedBackward_V1::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsGroupedBackward_V1::BK1 /
+          GemmOpConstantsGroupedBackward_V1::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      GROUPED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+        constexpr ck::index_t thread_slice_length_cshuflle_n =
+            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+             kGemm1NXdlPerWave) /
+            kCShuffleBlockTransferClusterLengths::At(I3);
+
+        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+            min(2, thread_slice_length_cshuflle_n);
+
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      });
     } else {
-      using DeviceOpInstance = ck::tensor_operation::device::
-          DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-              NumDimG,
-              NumDimM,
-              NumDimN,
-              NumDimK,
-              NumDimO,
-              InputDataType,
-              OutputDataType,
-              GemmDataType,
-              ZDataType,
-              LSEDataType,
-              Acc0BiasDataType,
-              Acc1BiasDataType,
-              AccDataType,
-              ShuffleDataType,
-              QKVElementOp,
-              QKVElementOp,
-              Scale,
-              QKVElementOp,
-              YElementOp,
-              GemmSpec,
-              TensorSpecQ,
-              TensorSpecK,
-              TensorSpecV,
-              TensorSpecY,
-              1,
-              256,
-              64, // MPerBlock
-              128, // NPerBlock
-              128, // KPerBlock
-              128, // Gemm1NPerBlock
-              32, // Gemm1KPerBlock
-              64, // Gemm2KPerBlock
-              8, // AK1
-              8, // BK1
-              2, // B1K1
-              32, // MPerXDL
-              32, // NPerXDL
-              2, // MXdlPerWave
-              1, // NXdlPerWave
-              4, // Gemm1NXdlPerWave
-              1, // Gemm2NXdlPerWave
-              S<4, 64, 1>, // ABlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              S<4, 64, 1>, // B0BlockTransfer
-              S<1, 0, 2>,
-              S<1, 0, 2>,
-              2,
-              kABBlockTransferSrcScalarPerVector, // TUNABLE
-              8,
-              true,
-              kAcc0BiasTransferSrcScalarPerVector, // TUNABLE
-              S<8, 32, 1>, // B1BlockTransfer
-              S<0, 2, 1>,
-              S<0, 2, 1>,
-              1,
-              kB1BlockTransferSrcScalarPerVector, // TUNABLE
-              2,
-              false,
-              1, // CShuffleMXdlPerWavePerShuffle
-              4, // CShuffleNXdlPerWavePerShuffle
-              S<1, 32, 1, 8>,
-              kCShuffleBlockTransferScalarPerVector, // TUNABLE
-              MaskingSpec,
-              Deterministic>;
-
-      RunWithDeviceOp<DeviceOpInstance>(param, stream);
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsGroupedBackward_V2::AK1 /
+          GemmOpConstantsGroupedBackward_V2::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsGroupedBackward_V2::BK1 /
+          GemmOpConstantsGroupedBackward_V2::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsGroupedBackward_V2::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          kCShuffleBlockTransferClusterLengths::At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(2, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
     };
   };
 

From ad617a5b8d08348beb76a815ab2c8cac9d6ff33c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 28 Oct 2023 00:36:27 +0000
Subject: [PATCH 125/837] Add clang-format off to better show the device-op
 template instance definition

---
 .../hip_fmha/ck_fmha_batched_forward.h        | 26 +++++++------------
 .../hip_fmha/ck_fmha_batched_infer.h          | 17 +++++-------
 .../hip_fmha/ck_fmha_grouped_backward.h       |  3 +--
 .../hip_fmha/ck_fmha_grouped_forward.h        | 26 +++++++------------
 .../hip_fmha/ck_fmha_grouped_infer.h          | 19 ++++++--------
 5 files changed, 36 insertions(+), 55 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index f9d0dc0870..34f748aa73 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -85,6 +85,7 @@ struct batched_forward_masktype_attnbias_dispatched {
   }()
 #endif
 
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -92,8 +93,7 @@ struct batched_forward_masktype_attnbias_dispatched {
       ck::index_t kABBlockTransferSrcScalarPerVector,
       ck::index_t kB1BlockTransferSrcScalarPerVector,
       ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
           GemmOpConstantsCommon::NumDimG,
           GemmOpConstantsCommon::NumDimM,
           GemmOpConstantsCommon::NumDimN,
@@ -136,29 +136,23 @@ struct batched_forward_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedForward::NXdlPerWave,
           kGemm1NXdlPerWave,
           GemmOpConstantsBatchedForward::DropoutStep,
-          GemmOpConstantsBatchedForward::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsBatchedForward::
-              ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsBatchedForward::ABlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsBatchedForward::ABlockTransferSrcAccessOrder,
           GemmOpConstantsBatchedForward::ABlockTransferSrcVectorDim,
           kABBlockTransferSrcScalarPerVector,
           GemmOpConstantsBatchedForward::ABlockTransferDstScalarPerVector_AK1,
           GemmOpConstantsBatchedForward::ABlockLdsExtraM,
-          GemmOpConstantsBatchedForward::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedForward::
-              BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedForward::BBlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsBatchedForward::BBlockTransferSrcAccessOrder,
           GemmOpConstantsBatchedForward::BBlockTransferSrcVectorDim,
           kABBlockTransferSrcScalarPerVector,
           GemmOpConstantsBatchedForward::BBlockTransferDstScalarPerVector_BK1,
           GemmOpConstantsBatchedForward::BBlockLdsExtraN,
           kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedForward::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedForward::
-              B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsBatchedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedForward::B1BlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsBatchedForward::B1BlockTransferSrcAccessOrder,
           GemmOpConstantsBatchedForward::B1BlockTransferSrcVectorDim,
           kB1BlockTransferSrcScalarPerVector,
@@ -166,11 +160,11 @@ struct batched_forward_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedForward::B1BlockLdsExtraN,
           GemmOpConstantsBatchedForward::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsBatchedForward::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          GemmOpConstantsBatchedForward::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           GemmOpConstantsBatchedForward::Acc1BiasTransferSrcScalarPerVector,
           MaskingSpec>;
+  // clang-format on
 
   static constexpr auto I1 = ck::Number<1>{};
   static constexpr auto I2 = ck::Number<2>{};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 335a7ca3b5..b3a6bd0c4f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -70,6 +70,7 @@ struct batched_infer_masktype_attnbias_dispatched {
   }()
 #endif
 
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -77,8 +78,7 @@ struct batched_infer_masktype_attnbias_dispatched {
       ck::index_t kABBlockTransferSrcScalarPerVector,
       ck::index_t kB1BlockTransferSrcScalarPerVector,
       ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::
-      DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
           GemmOpConstantsCommon::NumDimG,
           GemmOpConstantsCommon::NumDimM,
           GemmOpConstantsCommon::NumDimN,
@@ -117,16 +117,14 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::MXdlPerWave,
           GemmOpConstantsBatchedInfer::NXdlPerWave,
           kGemm1NXdlPerWave,
-          GemmOpConstantsBatchedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1,
           GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsBatchedInfer::ABlockTransferSrcAccessOrder,
           GemmOpConstantsBatchedInfer::ABlockTransferSrcVectorDim,
           kABBlockTransferSrcScalarPerVector,
           GemmOpConstantsBatchedInfer::ABlockTransferDstScalarPerVector_AK1,
           GemmOpConstantsBatchedInfer::ABlockLdsExtraM,
-          GemmOpConstantsBatchedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1,
           GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsBatchedInfer::BBlockTransferSrcAccessOrder,
           GemmOpConstantsBatchedInfer::BBlockTransferSrcVectorDim,
@@ -134,8 +132,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::BBlockTransferDstScalarPerVector_BK1,
           GemmOpConstantsBatchedInfer::BBlockLdsExtraN,
           kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
           GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsBatchedInfer::B1BlockTransferSrcAccessOrder,
           GemmOpConstantsBatchedInfer::B1BlockTransferSrcVectorDim,
@@ -144,10 +141,10 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::B1BlockLdsExtraN,
           GemmOpConstantsBatchedInfer::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsBatchedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          GemmOpConstantsBatchedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
+  // clang-format on
 
   static constexpr auto I1 = ck::Number<1>{};
   static constexpr auto I2 = ck::Number<2>{};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 3301fc2b6b..85f97931fe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -153,8 +153,7 @@ struct grouped_backward_masktype_attnbias_dispatched {
       ck::index_t kABBlockTransferSrcScalarPerVector,
       ck::index_t kB1BlockTransferSrcScalarPerVector,
       ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp_V2 = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
+  using DeviceOpInstanceTemp_V2 = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
           GemmOpConstantsCommon::NumDimG,
           GemmOpConstantsCommon::NumDimM,
           GemmOpConstantsCommon::NumDimN,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 1ca4c32101..9f22b7e287 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -70,6 +70,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
   }()
 #endif
 
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -77,8 +78,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
       ck::index_t kABBlockTransferSrcScalarPerVector,
       ck::index_t kB1BlockTransferSrcScalarPerVector,
       ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
           GemmOpConstantsCommon::NumDimG,
           GemmOpConstantsCommon::NumDimM,
           GemmOpConstantsCommon::NumDimN,
@@ -121,29 +121,23 @@ struct grouped_forward_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedForward::NXdlPerWave,
           kGemm1NXdlPerWave,
           GemmOpConstantsGroupedForward::DropoutStep,
-          GemmOpConstantsGroupedForward::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsGroupedForward::
-              ABlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsGroupedForward::ABlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsGroupedForward::ABlockTransferSrcAccessOrder,
           GemmOpConstantsGroupedForward::ABlockTransferSrcVectorDim,
           kABBlockTransferSrcScalarPerVector,
           GemmOpConstantsGroupedForward::ABlockTransferDstScalarPerVector_AK1,
           GemmOpConstantsGroupedForward::ABlockLdsExtraM,
-          GemmOpConstantsGroupedForward::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedForward::
-              BBlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedForward::BBlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsGroupedForward::BBlockTransferSrcAccessOrder,
           GemmOpConstantsGroupedForward::BBlockTransferSrcVectorDim,
           kABBlockTransferSrcScalarPerVector,
           GemmOpConstantsGroupedForward::BBlockTransferDstScalarPerVector_BK1,
           GemmOpConstantsGroupedForward::BBlockLdsExtraN,
           kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedForward::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedForward::
-              B1BlockTransferThreadClusterArrangeOrder,
+          GemmOpConstantsGroupedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedForward::B1BlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsGroupedForward::B1BlockTransferSrcAccessOrder,
           GemmOpConstantsGroupedForward::B1BlockTransferSrcVectorDim,
           kB1BlockTransferSrcScalarPerVector,
@@ -151,11 +145,11 @@ struct grouped_forward_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedForward::B1BlockLdsExtraN,
           GemmOpConstantsGroupedForward::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsGroupedForward::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          GemmOpConstantsGroupedForward::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           GemmOpConstantsGroupedForward::Acc1BiasTransferSrcScalarPerVector,
           MaskingSpec>;
+  // clang-format on
 
   static constexpr auto I1 = ck::Number<1>{};
   static constexpr auto I2 = ck::Number<2>{};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 5552a3074a..775ff94b52 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -70,6 +70,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
   }()
 #endif
 
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -77,8 +78,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
       ck::index_t kABBlockTransferSrcScalarPerVector,
       ck::index_t kB1BlockTransferSrcScalarPerVector,
       ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::
-      DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
+  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
           GemmOpConstantsCommon::NumDimG,
           GemmOpConstantsCommon::NumDimM,
           GemmOpConstantsCommon::NumDimN,
@@ -117,16 +117,14 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::MXdlPerWave,
           GemmOpConstantsGroupedInfer::NXdlPerWave,
           kGemm1NXdlPerWave,
-          GemmOpConstantsGroupedInfer::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1,
+          GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1,
           GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsGroupedInfer::ABlockTransferSrcAccessOrder,
           GemmOpConstantsGroupedInfer::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector, // TUNABLE
+          kABBlockTransferSrcScalarPerVector, 
           GemmOpConstantsGroupedInfer::ABlockTransferDstScalarPerVector_AK1,
           GemmOpConstantsGroupedInfer::ABlockLdsExtraM,
-          GemmOpConstantsGroupedInfer::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1,
           GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsGroupedInfer::BBlockTransferSrcAccessOrder,
           GemmOpConstantsGroupedInfer::BBlockTransferSrcVectorDim,
@@ -134,8 +132,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::BBlockTransferDstScalarPerVector_BK1,
           GemmOpConstantsGroupedInfer::BBlockLdsExtraN,
           kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1,
+          GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
           GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterArrangeOrder,
           GemmOpConstantsGroupedInfer::B1BlockTransferSrcAccessOrder,
           GemmOpConstantsGroupedInfer::B1BlockTransferSrcVectorDim,
@@ -144,10 +141,10 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::B1BlockLdsExtraN,
           GemmOpConstantsGroupedInfer::CShuffleMXdlPerWavePerShuffle,
           kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsGroupedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
+          GemmOpConstantsGroupedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
+  // clang-format on
 
   static constexpr auto I1 = ck::Number<1>{};
   static constexpr auto I2 = ck::Number<2>{};

From e9c7919a13a41c2018c247a90e12d9d4b77d9221 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 28 Oct 2023 15:56:51 +0000
Subject: [PATCH 126/837] Tiny change in gemm constants for infer

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h        | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h        | 2 +-
 xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h | 2 ++
 3 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index b3a6bd0c4f..639d333c5e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -102,7 +102,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsCommon::TensorSpecB0,
           GemmOpConstantsCommon::TensorSpecB1,
           GemmOpConstantsCommon::TensorSpecC,
-          1,
+          GemmOpConstantsBatchedInfer::NumGemmKPrefetchStage,
           GemmOpConstantsBatchedInfer::BlockSize,
           GemmOpConstantsBatchedInfer::MPerBlock,
           GemmOpConstantsBatchedInfer::NPerBlock,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 775ff94b52..dba421a7be 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -102,7 +102,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsCommon::TensorSpecB0,
           GemmOpConstantsCommon::TensorSpecB1,
           GemmOpConstantsCommon::TensorSpecC,
-          1,
+          GemmOpConstantsBatchedInfer::NumGemmKPrefetchStage,
           GemmOpConstantsGroupedInfer::BlockSize,
           GemmOpConstantsGroupedInfer::MPerBlock,
           GemmOpConstantsGroupedInfer::NPerBlock,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
index ae66edc1c2..b80dc9412a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -6,6 +6,7 @@
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
 struct GemmOpConstantsBatchedInfer {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
   static constexpr ck::index_t BlockSize = 256;
   static constexpr ck::index_t MPerBlock = 128;
   static constexpr ck::index_t NPerBlock = 128;
@@ -53,6 +54,7 @@ struct GemmOpConstantsBatchedInfer {
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
 struct GemmOpConstantsGroupedInfer {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
   static constexpr ck::index_t BlockSize = 256;
   static constexpr ck::index_t MPerBlock = 128;
   static constexpr ck::index_t NPerBlock = 128;

From 33d5e39645c8a89e14a23d8d45cf0abbcbeafd4a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 29 Oct 2023 14:30:00 +0000
Subject: [PATCH 127/837] Add support for mulit-query attention and group-query
 attention

---
 third_party/composable_kernel                 |   2 +-
 .../hip_fmha/attention_backward_generic.cpp   | 112 ++++++++++++++----
 .../hip_fmha/attention_forward_generic.cpp    |  35 +++---
 .../hip_fmha/ck_fmha_batched_backward.h       |  41 ++++---
 .../hip_fmha/ck_fmha_batched_forward.h        |  13 +-
 .../hip_fmha/ck_fmha_batched_infer.h          |  13 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       |  41 ++++---
 .../hip_fmha/ck_fmha_grouped_forward.h        |  15 +--
 .../hip_fmha/ck_fmha_grouped_infer.h          |  13 +-
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  20 +++-
 10 files changed, 201 insertions(+), 104 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 4033f5df2d..339b86e968 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 4033f5df2de7a3e778fced14041304d6fc20d673
+Subproject commit 339b86e9682120d8aaa415203545a3cfadbbb142
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 1d28afd8ca..c513664f26 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -73,8 +73,8 @@ efficient_attention_backward_ck(
   TORCH_CHECK(query.size(1) == grad_out.size(1));
 
   // Num heads
-  TORCH_CHECK(query.size(2) == key.size(2));
-  TORCH_CHECK(query.size(2) == value.size(2));
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
   TORCH_CHECK(query.size(2) == grad_out.size(2));
 
   // Embedding per head
@@ -122,7 +122,8 @@ efficient_attention_backward_ck(
   int64_t B = query.size(0);
   int64_t M = query.size(1);
   int64_t N = key.size(1);
-  int64_t num_heads = query.size(2);
+  int64_t Hq = query.size(2);
+  int64_t Hkv = key.size(2);
   int64_t K = query.size(3);
   int64_t Kv = value.size(3);
 
@@ -131,6 +132,7 @@ efficient_attention_backward_ck(
   at::Tensor grad_q, grad_k, grad_v, grad_bias;
 
   if (query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
+      query.size(2) == key.size(2) &&
       query.storage().is_alias_of(key.storage()) &&
       query.storage().is_alias_of(value.storage())) {
     // Create one big contiguous chunk for grad_q, grad_k, grad_v
@@ -140,9 +142,9 @@ efficient_attention_backward_ck(
     // a `torch.cat` call in the backward pass
     at::Tensor chunk;
     if (use_fp32_qkv_grad)
-      chunk = at::empty({B, M, 3, num_heads, K}, opts.dtype(at::kFloat));
+      chunk = at::empty({B, M, 3, Hq, K}, opts.dtype(at::kFloat));
     else
-      chunk = at::empty({B, M, 3, num_heads, K}, opts);
+      chunk = at::empty({B, M, 3, Hq, K}, opts);
     grad_q = chunk.select(2, 0);
     grad_k = chunk.select(2, 1);
     grad_v = chunk.select(2, 2);
@@ -157,9 +159,9 @@ efficient_attention_backward_ck(
     // a `torch.cat` call in the backward pass
     at::Tensor chunk;
     if (use_fp32_qkv_grad)
-      chunk = at::empty({B, N, 2, num_heads, Kv}, opts.dtype(at::kFloat));
+      chunk = at::empty({B, N, 2, Hkv, Kv}, opts.dtype(at::kFloat));
     else
-      chunk = at::empty({B, N, 2, num_heads, Kv}, opts);
+      chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
     grad_k = chunk.select(2, 0);
     grad_v = chunk.select(2, 1);
 
@@ -204,18 +206,36 @@ efficient_attention_backward_ck(
     grad_bias =
         at::empty_strided(bias->sizes(), bias->strides(), bias->options());
 
+  bool is_mqa_gqa = (Hq > Hkv);
+
+  at::Tensor tmp_grad_k, tmp_grad_v;
+
+  if (is_mqa_gqa) {
+    // allocate tmp_grad_k/tmp_grad_v which will be reduce to
+    // grad_k/grad_v for returning
+    if (use_fp32_qkv_grad) {
+      tmp_grad_k = at::empty({B, N, Hq, K}, opts.dtype(at::kFloat));
+      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts.dtype(at::kFloat));
+    } else {
+      tmp_grad_k = at::empty({B, N, Hq, K}, opts);
+      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
+    }
+  }
+
   auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
     p.B = B;
     p.M = M;
     p.N = N;
-    p.num_heads = num_heads;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
     p.K = K;
     p.Kv = Kv;
 
     p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+    p.is_mqa_gqa = is_mqa_gqa;
 
     TORCH_CHECK(p.B == logsumexp.size(0));
-    TORCH_CHECK(p.num_heads == logsumexp.size(1));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
     TORCH_CHECK(p.M == logsumexp.size(2));
 
     if (scale.has_value()) {
@@ -231,8 +251,8 @@ efficient_attention_backward_ck(
     p.out_ptr = out.data_ptr();
 
     p.grad_q_ptr = grad_q.data_ptr();
-    p.grad_k_ptr = grad_k.data_ptr();
-    p.grad_v_ptr = grad_v.data_ptr();
+    p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
+    p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
 
     p.q_strides = {
         static_cast<int>(query.stride(0)),
@@ -255,6 +275,19 @@ efficient_attention_backward_ck(
         static_cast<int>(out.stride(2)),
         static_cast<int>(out.stride(3))};
 
+    if (is_mqa_gqa) {
+      p.tmp_grad_k_strides = {
+          static_cast<int>(tmp_grad_k.stride(0)),
+          static_cast<int>(tmp_grad_k.stride(1)),
+          static_cast<int>(tmp_grad_k.stride(2)),
+          static_cast<int>(tmp_grad_k.stride(3))};
+      p.tmp_grad_v_strides = {
+          static_cast<int>(tmp_grad_v.stride(0)),
+          static_cast<int>(tmp_grad_v.stride(1)),
+          static_cast<int>(tmp_grad_v.stride(2)),
+          static_cast<int>(tmp_grad_v.stride(3))};
+    }
+
     if (bias.has_value()) {
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
@@ -262,8 +295,7 @@ efficient_attention_backward_ck(
       p.has_attn_bias = true;
       p.attn_bias_ptr = bias->data_ptr();
 
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
 
       p.attn_bias_strides = {
           static_cast<int>(bias_4d_view.stride(0)),
@@ -294,16 +326,18 @@ efficient_attention_backward_ck(
     p.num_batches = seqstart_q->size(0) - 1;
     p.M = M;
     p.N = N;
-    p.num_heads = num_heads;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
     p.K = K;
     p.Kv = Kv;
 
     p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+    p.is_mqa_gqa = is_mqa_gqa;
 
     p.max_seqlen_q = *max_seqlen_q_;
 
     TORCH_CHECK(p.num_batches == logsumexp.size(0));
-    TORCH_CHECK(p.num_heads == logsumexp.size(1));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
     TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
 
     if (scale.has_value()) {
@@ -329,13 +363,23 @@ efficient_attention_backward_ck(
         static_cast<int>(out.stride(2)),
         static_cast<int>(out.stride(3))};
 
+    if (is_mqa_gqa) {
+      p.tmp_grad_k_strides = {
+          static_cast<int>(tmp_grad_k.stride(1)),
+          static_cast<int>(tmp_grad_k.stride(2)),
+          static_cast<int>(tmp_grad_k.stride(3))};
+      p.tmp_grad_v_strides = {
+          static_cast<int>(tmp_grad_v.stride(1)),
+          static_cast<int>(tmp_grad_v.stride(2)),
+          static_cast<int>(tmp_grad_v.stride(3))};
+    };
+
     if (bias.has_value()) {
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
       p.has_attn_bias = true;
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
       p.attn_bias_strides = {
           static_cast<int>(bias_4d_view.stride(0)),
           static_cast<int>(bias_4d_view.stride(1)),
@@ -388,8 +432,12 @@ efficient_attention_backward_ck(
     char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
     char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
-    char* grad_k_ptr = reinterpret_cast<char*>(grad_k.data_ptr());
-    char* grad_v_ptr = reinterpret_cast<char*>(grad_v.data_ptr());
+    char* grad_k_ptr = is_mqa_gqa
+        ? reinterpret_cast<char*>(tmp_grad_k.data_ptr())
+        : reinterpret_cast<char*>(grad_k.data_ptr());
+    char* grad_v_ptr = is_mqa_gqa
+        ? reinterpret_cast<char*>(tmp_grad_v.data_ptr())
+        : reinterpret_cast<char*>(grad_v.data_ptr());
     char* grad_bias_ptr = bias_requires_grad
         ? reinterpret_cast<char*>(grad_bias.data_ptr())
         : nullptr;
@@ -416,20 +464,33 @@ efficient_attention_backward_ck(
           static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
           out.scalar_type());
       size_t tmp_logsumexp_offset = get_size_in_bytes(
-          static_cast<size_t>(i) * p.num_heads * p.max_seqlen_q,
+          static_cast<size_t>(i) * p.Hq * p.max_seqlen_q,
           logsumexp.scalar_type());
 
+      size_t tmp_grad_k_offset = is_mqa_gqa
+          ? get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.tmp_grad_k_strides[0],
+                tmp_grad_k.scalar_type())
+          : tmp_k_offset;
+      size_t tmp_grad_v_offset = is_mqa_gqa
+          ? get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.tmp_grad_v_strides[0],
+                tmp_grad_v.scalar_type())
+          : tmp_v_offset;
+
       p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
       p.grad_q_ptrs.push_back(
           reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
 
       p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
       p.grad_k_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_k_ptr[tmp_k_offset * multiplier]));
+          reinterpret_cast<void*>(&grad_k_ptr[tmp_grad_k_offset * multiplier]));
 
       p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
       p.grad_v_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_v_ptr[tmp_v_offset * multiplier]));
+          reinterpret_cast<void*>(&grad_v_ptr[tmp_grad_v_offset * multiplier]));
 
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
       p.grad_out_ptrs.push_back(
@@ -485,6 +546,13 @@ efficient_attention_backward_ck(
       throw std::runtime_error("input data-type is not supported");
   }
 
+  if (is_mqa_gqa) {
+    auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
+    auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
+    grad_k = tmp_grad_k_view.sum(3);
+    grad_v = tmp_grad_v_view.sum(3);
+  }
+
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 #endif
 } // namespace
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index ecd50db2e2..aaafa1b3b4 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -44,10 +44,10 @@ namespace {
 */
 std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
 efficient_attention_forward_ck(
-    const at::Tensor& query, // [b, seqlen, num_heads, K]
-    const at::Tensor& key, // [b, seqlen, num_heads, K]
-    const at::Tensor& value, // [b, seqlen, num_heads, Kv]
-    const c10::optional<at::Tensor>& bias, // [b, num_heads, seqlen, seqlen]
+    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
+    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
+    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
+    const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
     const c10::optional<at::Tensor>& seqstart_q,
@@ -73,8 +73,8 @@ efficient_attention_forward_ck(
   TORCH_CHECK(key.size(1) == value.size(1));
 
   // Num heads
-  TORCH_CHECK(query.size(2) == key.size(2));
-  TORCH_CHECK(query.size(2) == value.size(2));
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
 
   // Embedding per head
   TORCH_CHECK(query.size(3) == key.size(3));
@@ -105,7 +105,8 @@ efficient_attention_forward_ck(
   int64_t B = query.size(0);
   int64_t M = query.size(1);
   int64_t N = key.size(1);
-  int64_t num_heads = query.size(-2);
+  int64_t Hq = query.size(-2);
+  int64_t Hkv = key.size(-2);
   int64_t K = query.size(-1);
   int64_t Kv = value.size(-1);
 
@@ -113,7 +114,7 @@ efficient_attention_forward_ck(
 
   at::Tensor logsumexp;
 
-  at::Tensor out = at::empty({B, M, num_heads, Kv}, opts);
+  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
 
   const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
   int64_t philox_seed;
@@ -128,7 +129,7 @@ efficient_attention_forward_ck(
     std::lock_guard<std::mutex> lock(gen->mutex_);
     // if using dropout, we produce 1 random number for each element of the
     // attention tensor
-    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
 
     const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
 
@@ -140,7 +141,8 @@ efficient_attention_forward_ck(
     p.B = B;
     p.M = M;
     p.N = N;
-    p.num_heads = num_heads;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
     p.K = K;
     p.Kv = Kv;
 
@@ -184,7 +186,7 @@ efficient_attention_forward_ck(
       p.attn_bias_ptr = bias->data_ptr();
 
       const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
+          get_bias_4d_view(*bias, B, Hq, M, N);
       p.attn_bias_strides = {
           static_cast<int>(bias_4d_view.stride(0)),
           static_cast<int>(bias_4d_view.stride(1)),
@@ -207,7 +209,7 @@ efficient_attention_forward_ck(
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
-      logsumexp = at::empty({B, num_heads, M}, opts.dtype(at::kFloat));
+      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
     } else
       p.logsumexp_ptr = nullptr;
@@ -217,7 +219,8 @@ efficient_attention_forward_ck(
     p.num_batches = seqstart_q->size(0) - 1;
     p.M = M;
     p.N = N;
-    p.num_heads = num_heads;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
     p.K = K;
     p.Kv = Kv;
 
@@ -250,7 +253,7 @@ efficient_attention_forward_ck(
 
       p.has_attn_bias = true;
       const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, num_heads, M, N);
+          get_bias_4d_view(*bias, B, Hq, M, N);
       p.attn_bias_strides = {
           static_cast<int>(bias_4d_view.stride(0)),
           static_cast<int>(bias_4d_view.stride(1)),
@@ -343,12 +346,12 @@ efficient_attention_forward_ck(
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty(
-          {p.num_batches, num_heads, p.max_seqlen_q}, opts.dtype(at::kFloat));
+          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
       char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
 
       for (int i = 0; i < p.num_batches; i++) {
         size_t tmp_logsumexp_offset = get_size_in_bytes(
-            static_cast<size_t>(i) * num_heads * p.max_seqlen_q,
+            static_cast<size_t>(i) * Hq * p.max_seqlen_q,
             logsumexp.scalar_type());
         p.logsumexp_ptrs.push_back(
             reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 9fd8e06e09..9de59b5bd9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -379,7 +379,7 @@ struct batched_backward_masktype_attnbias_dispatched {
       BatchedBackwardParams& param,
       hipStream_t stream) {
     std::vector<ck::index_t> q_gs_ms_ks_lengths{
-        param.B, param.num_heads, param.M, param.K};
+        param.B, param.Hq, param.M, param.K};
     std::vector<ck::index_t> q_gs_ms_ks_strides{
         param.q_strides[0],
         param.q_strides[2],
@@ -387,45 +387,52 @@ struct batched_backward_masktype_attnbias_dispatched {
         param.q_strides[3]};
 
     std::vector<ck::index_t> k_gs_ns_ks_lengths{
-        param.B, param.num_heads, param.N, param.K};
+        param.B, param.Hkv, param.N, param.K};
     std::vector<ck::index_t> k_gs_ns_ks_strides{
         param.k_strides[0],
         param.k_strides[2],
         param.k_strides[1],
         param.k_strides[3]};
 
-    // ToDo: support multi-query and group-query attention
-    std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = k_gs_ns_ks_lengths;
-    std::vector<ck::index_t> kgrad_gs_ns_ks_strides = k_gs_ns_ks_strides;
+    std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {
+        param.B, param.Hq, param.N, param.K};
+    std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
+        param.tmp_grad_k_strides[0],
+        param.tmp_grad_k_strides[2],
+        param.tmp_grad_k_strides[1],
+        param.tmp_grad_k_strides[3]};
 
     std::vector<ck::index_t> v_gs_os_ns_lengths{
-        param.B, param.num_heads, param.Kv, param.N};
+        param.B, param.Hkv, param.Kv, param.N};
     std::vector<ck::index_t> v_gs_os_ns_strides{
         param.v_strides[0],
         param.v_strides[2],
         param.v_strides[3],
         param.v_strides[1]};
 
-    // ToDo: support multi-query and group-query attention
-    std::vector<ck::index_t> vgrad_gs_os_ns_lengths = v_gs_os_ns_lengths;
-    std::vector<ck::index_t> vgrad_gs_os_ns_strides = v_gs_os_ns_strides;
+    std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {
+        param.B, param.Hq, param.Kv, param.N};
+    std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
+        param.tmp_grad_v_strides[0],
+        param.tmp_grad_v_strides[2],
+        param.tmp_grad_v_strides[3],
+        param.tmp_grad_v_strides[1]};
 
     std::vector<ck::index_t> y_gs_ms_os_lengths{
-        param.B, param.num_heads, param.M, param.Kv};
+        param.B, param.Hq, param.M, param.Kv};
     std::vector<ck::index_t> y_gs_ms_os_strides{
         param.out_strides[0],
         param.out_strides[2],
         param.out_strides[1],
         param.out_strides[3]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{
-        param.B, param.num_heads, param.M};
+    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;
     std::vector<ck::index_t> d_gs_ms_ns_strides;
 
     if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
       d_gs_ms_ns_strides = {
           param.attn_bias_strides[0],
           param.attn_bias_strides[1],
@@ -467,10 +474,10 @@ struct batched_backward_masktype_attnbias_dispatched {
         y_gs_ms_os_lengths, // y, dY should have same shape
         y_gs_ms_os_strides,
         lse_gs_ms_lengths,
-        kgrad_gs_ns_ks_lengths,
-        kgrad_gs_ns_ks_strides,
-        vgrad_gs_os_ns_lengths,
-        vgrad_gs_os_ns_strides,
+        param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
+        param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
+        param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
+        param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
         d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
         d_gs_ms_ns_strides,
         {}, // acc1_biases_gs_ms_os_lengths
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 34f748aa73..b73271ada8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -260,7 +260,7 @@ struct batched_forward_masktype_attnbias_dispatched {
   template <typename DeviceOpInstance>
   static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
     std::vector<ck::index_t> a_gs_ms_ks_lengths{
-        param.B, param.num_heads, param.M, param.K};
+        param.B, param.Hq, param.M, param.K};
     std::vector<ck::index_t> a_gs_ms_ks_strides{
         param.q_strides[0],
         param.q_strides[2],
@@ -268,7 +268,7 @@ struct batched_forward_masktype_attnbias_dispatched {
         param.q_strides[3]};
 
     std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-        param.B, param.num_heads, param.N, param.K};
+        param.B, param.Hkv, param.N, param.K};
     std::vector<ck::index_t> b0_gs_ns_ks_strides{
         param.k_strides[0],
         param.k_strides[2],
@@ -277,7 +277,7 @@ struct batched_forward_masktype_attnbias_dispatched {
 
     // to be changed to b1_gs_ns_os_lengths
     std::vector<ck::index_t> b1_gs_os_ns_lengths{
-        param.B, param.num_heads, param.Kv, param.N};
+        param.B, param.Hkv, param.Kv, param.N};
     std::vector<ck::index_t> b1_gs_os_ns_strides{
         param.v_strides[0],
         param.v_strides[2],
@@ -285,21 +285,20 @@ struct batched_forward_masktype_attnbias_dispatched {
         param.v_strides[1]};
 
     std::vector<ck::index_t> c_gs_ms_os_lengths{
-        param.B, param.num_heads, param.M, param.Kv};
+        param.B, param.Hq, param.M, param.Kv};
     std::vector<ck::index_t> c_gs_ms_os_strides{
         param.out_strides[0],
         param.out_strides[2],
         param.out_strides[1],
         param.out_strides[3]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{
-        param.B, param.num_heads, param.M};
+    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;
     std::vector<ck::index_t> d_gs_ms_ns_strides;
 
     if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
       d_gs_ms_ns_strides = {
           param.attn_bias_strides[0],
           param.attn_bias_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 639d333c5e..adf04e82ac 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -240,7 +240,7 @@ struct batched_infer_masktype_attnbias_dispatched {
   template <typename DeviceOpInstance>
   static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
     std::vector<ck::index_t> a_gs_ms_ks_lengths{
-        param.B, param.num_heads, param.M, param.K};
+        param.B, param.Hq, param.M, param.K};
     std::vector<ck::index_t> a_gs_ms_ks_strides{
         param.q_strides[0],
         param.q_strides[2],
@@ -248,7 +248,7 @@ struct batched_infer_masktype_attnbias_dispatched {
         param.q_strides[3]};
 
     std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-        param.B, param.num_heads, param.N, param.K};
+        param.B, param.Hkv, param.N, param.K};
     std::vector<ck::index_t> b0_gs_ns_ks_strides{
         param.k_strides[0],
         param.k_strides[2],
@@ -257,7 +257,7 @@ struct batched_infer_masktype_attnbias_dispatched {
 
     // to be changed to b1_gs_ns_os_lengths
     std::vector<ck::index_t> b1_gs_os_ns_lengths{
-        param.B, param.num_heads, param.Kv, param.N};
+        param.B, param.Hkv, param.Kv, param.N};
     std::vector<ck::index_t> b1_gs_os_ns_strides{
         param.v_strides[0],
         param.v_strides[2],
@@ -265,21 +265,20 @@ struct batched_infer_masktype_attnbias_dispatched {
         param.v_strides[1]};
 
     std::vector<ck::index_t> c_gs_ms_os_lengths{
-        param.B, param.num_heads, param.M, param.Kv};
+        param.B, param.Hq, param.M, param.Kv};
     std::vector<ck::index_t> c_gs_ms_os_strides{
         param.out_strides[0],
         param.out_strides[2],
         param.out_strides[1],
         param.out_strides[3]};
 
-    std::vector<ck::index_t> lse_gs_ms_lengths{
-        param.B, param.num_heads, param.M};
+    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
 
     std::vector<ck::index_t> d_gs_ms_ns_lengths;
     std::vector<ck::index_t> d_gs_ms_ns_strides;
 
     if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.num_heads, param.M, param.N};
+      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
       d_gs_ms_ns_strides = {
           param.attn_bias_strides[0],
           param.attn_bias_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 85f97931fe..b3d5d917f0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -381,41 +381,48 @@ struct grouped_backward_masktype_attnbias_dispatched {
           : param.host_seqlen_k[i];
       int K = param.K;
       int Kv = param.Kv;
-      int G1 = param.num_heads;
+      int G1q = param.Hq;
+      int G1kv = param.Hkv;
 
-      std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1, M, K};
+      std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1q, M, K};
       std::vector<ck::index_t> q_gs_ms_ks_strides{
           0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
 
-      std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1, N, K};
+      std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1kv, N, K};
       std::vector<ck::index_t> k_gs_ns_ks_strides{
           0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
 
-      // ToDo: support multi-query and group-query attention
-      std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = k_gs_ns_ks_lengths;
-      std::vector<ck::index_t> kgrad_gs_ns_ks_strides = k_gs_ns_ks_strides;
+      std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {1, G1q, N, K};
+      std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
+          0,
+          param.tmp_grad_k_strides[1],
+          param.tmp_grad_k_strides[0],
+          param.tmp_grad_k_strides[2]};
 
       // to be changed to v_gs_ns_os_lengths
-      std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1, Kv, N};
+      std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1kv, Kv, N};
       std::vector<ck::index_t> v_gs_os_ns_strides{
           0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
 
-      // ToDo: support multi-query and group-query attention
-      std::vector<ck::index_t> vgrad_gs_os_ns_lengths = v_gs_os_ns_lengths;
-      std::vector<ck::index_t> vgrad_gs_os_ns_strides = v_gs_os_ns_strides;
+      std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {1, G1q, Kv, N};
+      std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
+          0,
+          param.tmp_grad_v_strides[1],
+          param.tmp_grad_v_strides[2],
+          param.tmp_grad_v_strides[0]};
 
-      std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1, M, Kv};
+      std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1q, M, Kv};
       std::vector<ck::index_t> y_gs_ms_os_strides{
           0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
       std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
 
       std::vector<ck::index_t> d_gs_ms_ns_lengths;
       std::vector<ck::index_t> d_gs_ms_ns_strides;
 
       if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1, M, N};
+        d_gs_ms_ns_lengths = {1, G1q, M, N};
         d_gs_ms_ns_strides = {
             0,
             param.attn_bias_strides[0],
@@ -440,10 +447,10 @@ struct grouped_backward_masktype_attnbias_dispatched {
           y_gs_ms_os_strides,
           lse_gs_ms_lengths,
           lse_gs_ms_strides,
-          kgrad_gs_ns_ks_lengths,
-          kgrad_gs_ns_ks_strides,
-          vgrad_gs_os_ns_lengths,
-          vgrad_gs_os_ns_strides,
+          param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
+          param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
+          param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
+          param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
           d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
           d_gs_ms_ns_strides,
           {}, // acc1_biases_gs_ms_os_lengths
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 9f22b7e287..3fda4797bd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -253,33 +253,34 @@ struct grouped_forward_masktype_attnbias_dispatched {
           : param.host_seqlen_k[i];
       int K = param.K;
       int Kv = param.Kv;
-      int G1 = param.num_heads;
+      int G1q = param.Hq;
+      int G1kv = param.Hkv;
 
-      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
+      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
       std::vector<ck::index_t> a_gs_ms_ks_strides{
           0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
 
-      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1, N, K};
+      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
       std::vector<ck::index_t> b0_gs_ns_ks_strides{
           0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
 
       // to be changed to b1_gs_ns_os_lengths
-      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1, Kv, N};
+      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
       std::vector<ck::index_t> b1_gs_os_ns_strides{
           0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
 
-      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1, M, Kv};
+      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
       std::vector<ck::index_t> c_gs_ms_os_strides{
           0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1, M};
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
       std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
 
       std::vector<ck::index_t> d_gs_ms_ns_lengths;
       std::vector<ck::index_t> d_gs_ms_ns_strides;
 
       if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1, M, N};
+        d_gs_ms_ns_lengths = {1, G1q, M, N};
         d_gs_ms_ns_strides = {
             0,
             param.attn_bias_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index dba421a7be..1b907d3702 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -248,22 +248,23 @@ struct grouped_infer_masktype_attnbias_dispatched {
           : param.host_seqlen_k[i];
       int K = param.K;
       int Kv = param.Kv;
-      int G1 = param.num_heads;
+      int G1q = param.Hq;
+      int G1kv = param.Hkv;
 
-      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1, M, K};
+      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
       std::vector<ck::index_t> a_gs_ms_ks_strides{
           0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
 
-      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1, N, K};
+      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
       std::vector<ck::index_t> b0_gs_ns_ks_strides{
           0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
 
       // to be changed to b1_gs_ns_os_lengths
-      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1, Kv, N};
+      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
       std::vector<ck::index_t> b1_gs_os_ns_strides{
           0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
 
-      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1, M, Kv};
+      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
       std::vector<ck::index_t> c_gs_ms_os_strides{
           0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
 
@@ -271,7 +272,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
       std::vector<ck::index_t> d_gs_ms_ns_strides;
 
       if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1, M, N};
+        d_gs_ms_ns_lengths = {1, G1q, M, N};
         d_gs_ms_ns_strides = {
             0,
             param.attn_bias_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 2778da001b..7f86dd9046 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -7,7 +7,8 @@ struct BatchedInferParams {
   int B; // batch size
   int M; // seq_len for Query
   int N; // seq_len for Key and Value
-  int num_heads; //
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
   int K; // embed_dim for Query and Key
   int Kv; // embed_dim for Value
 
@@ -47,7 +48,8 @@ struct GroupedInferParams {
   int num_batches;
   int M; // total seq_len for all queries in the batch
   int N; // total seq_len for all keys/values in the batch
-  int num_heads; //
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
   int K; // embed_dim for Query and Key
   int Kv; // embed_dim for Value
 
@@ -97,7 +99,8 @@ struct BatchedBackwardParams {
   int B; // batch size
   int M; // seq_len for Query
   int N; // seq_len for Key and Value
-  int num_heads; //
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
   int K; // embed_dim for Query and Key
   int Kv; // embed_dim for Value
 
@@ -106,6 +109,7 @@ struct BatchedBackwardParams {
   bool bias_has_grad;
 
   bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
 
   // BMHK mode strides, last-dim contiguous
   std::array<int, 4> q_strides;
@@ -114,6 +118,9 @@ struct BatchedBackwardParams {
   std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
   std::array<int, 4> out_strides;
 
+  std::array<int, 4> tmp_grad_k_strides;
+  std::array<int, 4> tmp_grad_v_strides;
+
   const void* q_ptr;
   const void* k_ptr;
   const void* v_ptr;
@@ -140,7 +147,8 @@ struct GroupedBackwardParams {
   int num_batches;
   int M; // total seq_len for all queries in the batch
   int N; // total seq_len for all keys/values in the batch
-  int num_heads; //
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
   int K; // embed_dim for Query and Key
   int Kv; // embed_dim for Value
 
@@ -155,6 +163,7 @@ struct GroupedBackwardParams {
   bool bias_has_grad;
 
   bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
 
   // MHK mode strides, last-dim contiguous
   std::array<int, 3> q_strides;
@@ -164,6 +173,9 @@ struct GroupedBackwardParams {
   // 4d tensor view [B, H, M, N]
   std::array<int, 4> attn_bias_strides;
 
+  std::array<int, 3> tmp_grad_k_strides;
+  std::array<int, 3> tmp_grad_v_strides;
+
   std::vector<const void*> q_ptrs;
   std::vector<const void*> k_ptrs;
   std::vector<const void*> v_ptrs;

From 50b829e8c07378e2d8e56c79c2747ae4341c26e8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 29 Oct 2023 19:09:30 +0000
Subject: [PATCH 128/837] [Performance] update to the infer gemm constants

---
 .../hip_fmha/ck_fmha_infer_gemm_constants.h   | 28 ++++++++-----------
 1 file changed, 12 insertions(+), 16 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
index b80dc9412a..fbebac6f16 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -13,27 +13,27 @@ struct GemmOpConstantsBatchedInfer {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t AK1 = 4;
+  static constexpr ck::index_t BK1 = 4;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
   static constexpr ck::index_t MXdlPerWave = 1;
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
   static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
   using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
@@ -61,27 +61,27 @@ struct GemmOpConstantsGroupedInfer {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t AK1 = 4;
+  static constexpr ck::index_t BK1 = 4;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
   static constexpr ck::index_t MXdlPerWave = 1;
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector,
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
   static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
   using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
@@ -98,7 +98,3 @@ struct GemmOpConstantsGroupedInfer {
   // static constexpr ck::index_t
   // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
-
-struct GemmOpConstantsForward {};
-
-struct GemmOpConstantsBackward {};

From d12d0aaa37b01d340eecbd0f4332a82bb7428d3f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 29 Oct 2023 21:03:40 +0000
Subject: [PATCH 129/837] [Performance] update to the forward gemm constants

---
 .../hip_fmha/ck_fmha_batched_forward.h        |  2 +-
 .../hip_fmha/ck_fmha_forward_gemm_constants.h | 24 +++++++++----------
 .../hip_fmha/ck_fmha_grouped_forward.h        |  2 +-
 3 files changed, 14 insertions(+), 14 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index b73271ada8..4eb949b9ef 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -188,7 +188,7 @@ struct batched_forward_masktype_attnbias_dispatched {
         "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
 
     constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(2, thread_slice_length_ak1);
+        min(4, thread_slice_length_ak1);
 
     BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index 992a4c4b25..69e2bc5205 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -13,8 +13,8 @@ struct GemmOpConstantsBatchedForward {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t AK1 = 4;
+  static constexpr ck::index_t BK1 = 4;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
@@ -22,19 +22,19 @@ struct GemmOpConstantsBatchedForward {
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
   static constexpr ck::index_t DropoutStep = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
   static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
   using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
@@ -64,8 +64,8 @@ struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t AK1 = 4;
+  static constexpr ck::index_t BK1 = 4;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
@@ -73,19 +73,19 @@ struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
   static constexpr ck::index_t DropoutStep = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
   static constexpr bool BBlockLdsExtraN = true;
   // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
   using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 3fda4797bd..481c1a01d7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -173,7 +173,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
         "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
 
     constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(2, thread_slice_length_ak1);
+        min(4, thread_slice_length_ak1);
 
     GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /

From a36f81a0f9beb1961040e1e131b6574e4f9c87cf Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 30 Oct 2023 22:24:09 +0000
Subject: [PATCH 130/837] Update forward gemm constants and max vector-size of
 CShuffled output to reduce compiling-time

---
 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h    | 2 +-
 .../csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h  | 4 ++--
 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h    | 2 +-
 3 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 4eb949b9ef..7959bb088f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -205,7 +205,7 @@ struct batched_forward_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       if constexpr (
           kB1BlockTransferSrcScalarPerVector_max >=
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index 69e2bc5205..5a1790b5f1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -47,7 +47,7 @@ struct GemmOpConstantsBatchedForward {
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
   using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 32, 1, 8>;
+      S<1, 16, 1, 16>;
   // static constexpr ck::index_t
   // CShuffleBlockTransferScalarPerVector_NPerBlock;
   static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector =
@@ -98,7 +98,7 @@ struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
   using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 32, 1, 8>;
+      S<1, 16, 1, 16>;
   // static constexpr ck::index_t
   // CShuffleBlockTransferScalarPerVector_NPerBlock;
   static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector =
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 481c1a01d7..3e388414b2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -190,7 +190,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
+          min(1, thread_slice_length_cshuflle_n);
 
       if constexpr (
           kB1BlockTransferSrcScalarPerVector_max >=

From 027c10eb00284954e4bd93b1c9674fd46218b9b2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 30 Oct 2023 23:03:00 +0000
Subject: [PATCH 131/837] [Performance] tiny adjustment to the infer gemm
 constants

---
 .../hip_fmha/ck_fmha_infer_gemm_constants.h      | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
index fbebac6f16..8f492ff00a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -5,6 +5,7 @@
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
+// clang-format off
 struct GemmOpConstantsBatchedInfer {
   static constexpr ck::index_t NumGemmKPrefetchStage = 1;
   static constexpr ck::index_t BlockSize = 256;
@@ -45,14 +46,14 @@ struct GemmOpConstantsBatchedInfer {
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 32, 1, 8>;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 16, 1, 16>;
+  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
+//clang-format on
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
+// clang-format off
 struct GemmOpConstantsGroupedInfer {
   static constexpr ck::index_t NumGemmKPrefetchStage = 1;
   static constexpr ck::index_t BlockSize = 256;
@@ -93,8 +94,7 @@ struct GemmOpConstantsGroupedInfer {
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 32, 1, 8>;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 16, 1, 16>;
+  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
+// clang-format on

From 71e302f63f6e967f14a96e777b21b5394eed8d23 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 20 Sep 2023 14:07:41 -0400
Subject: [PATCH 132/837] update requirement for running tests

scipy.stats.binomtest needs v1.7 or newer
---
 requirements-test.txt | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/requirements-test.txt b/requirements-test.txt
index 3d4a840a99..e077f55797 100644
--- a/requirements-test.txt
+++ b/requirements-test.txt
@@ -25,7 +25,7 @@ hydra-core >= 1.1
 
 # Dependency for Mixture of Experts
 fairscale >= 0.4.5
-scipy
+scipy >= 1.7
 
 # Dependency for fused layers, optional
 cmake

From dbd6b81b584457f586c4504b6485bbe34d19de92 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 25 Sep 2023 16:32:46 -0400
Subject: [PATCH 133/837] verbose skip reason when testing decoder

---
 tests/test_mem_eff_attention_ck.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 787c9b3f2e..38ef4b389e 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1651,8 +1651,8 @@ def test_decoder(
         kv_padding=padding,
     )
     inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
-    if not op.supports(inp):
-        pytest.skip("not supported")
+    if (not_supported_reasons := op.not_supported_reasons(inp)):
+        pytest.skip(f"{not_supported_reasons=}")
 
     decoder_output = fmha.memory_efficient_attention_forward(
         q, k, v, attn_bias, op=fmha.decoder.FwOp

From 5eaa606ad91d4b3b4848b1b10f448f667d622024 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Sep 2023 13:55:00 -0400
Subject: [PATCH 134/837] make another instance of case skipping verbose about
 the reasons

---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index a44c818919..d63c798339 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -126,7 +126,8 @@ def mem_eff_attention_decoder(
     has_run = False
     for fw_op in OPS:
         inp = fmha.Inputs(q, k, v, attn_bias=bias)
-        if not fw_op.supports(inp):
+        if (skip_reasons := fw_op.not_supported_reasons(inp)):
+            print(f"Skip benchmark: {skip_reasons=}")
             continue
 
         fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)

From 88d631ba7d5defa93b23d1e05db0bc1daa9d686d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Sep 2023 14:39:59 -0400
Subject: [PATCH 135/837] add cpp boilerplate for the decoder op

---
 tests/test_mem_eff_attention_ck.py            | 19 ++--
 xformers/csrc/attention/attention.cpp         |  8 +-
 .../hip_fmha/attention_forward_generic.cpp    | 31 +++++++
 xformers/ops/fmha/__init__.py                 |  4 +-
 xformers/ops/fmha/ck_decoder.py               | 91 +++++++++++++++++++
 5 files changed, 141 insertions(+), 12 deletions(-)
 create mode 100644 xformers/ops/fmha/ck_decoder.py

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 38ef4b389e..a3c363fe0f 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1618,7 +1618,7 @@ def test_attn_bias_padded() -> None:
     )
 
 
-@pytest.mark.parametrize("op", [fmha.decoder.FwOp])
+@pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
 @pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "")
 @pytest.mark.parametrize("n_heads", [1, 16, 32])
 @pytest.mark.parametrize("padding", [32, 4096])
@@ -1627,7 +1627,7 @@ def test_attn_bias_padded() -> None:
 def test_decoder(
     op, multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str
 ) -> None:
-    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
+    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
     torch.manual_seed(1)
     d = 128
     k_shape = (1, bsz * padding, n_heads, d)
@@ -1655,17 +1655,16 @@ def test_decoder(
         pytest.skip(f"{not_supported_reasons=}")
 
     decoder_output = fmha.memory_efficient_attention_forward(
-        q, k, v, attn_bias, op=fmha.decoder.FwOp
+        q, k, v, attn_bias, op=op
     )
+    
+    ref_output = ref_attention(q, k, v, attn_bias)
 
-    ck_output = fmha.memory_efficient_attention_forward(
-        q, k, v, attn_bias, op=fmha.ck.FwOp
-    )
     assert_allclose(
-        decoder_output,
-        ck_output,
-        atol=fmha.ck.FwOp.ERROR_ATOL[dtype_] * 4,
-        rtol=fmha.ck.FwOp.ERROR_RTOL[dtype_],
+        decoder_output.float(),
+        ref_output,
+        atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
+        rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
     )
 
 
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 18ddcdcfc6..b3fdde5268 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -39,7 +39,13 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
 #endif
 #if defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_ck(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
+      "xformers::efficient_attention_forward_ck(Tensor query, "
+          "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
+          "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
+          "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
+          "Tensor key, Tensor value, Tensor seq_positions, float scale) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index aaafa1b3b4..7a58cc931f 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -408,10 +408,41 @@ efficient_attention_forward_ck(
   return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
+at::Tensor
+efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, H, D]
+    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+    const at::Tensor& seq_positions, // [B]
+    double qk_scale) {
+
+  constexpr int32_t kThreadsPerWarp = 32;
+  constexpr int32_t kWarpsPerBlock = 32;
+  constexpr int32_t D_H = 128;
+  constexpr int32_t T_MAX = 8192;
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(seq_positions.is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= T_MAX);
+  TORCH_CHECK(cache_K.size(3) == D_H);
+
+  auto O = at::randn_like(XQ);
+  return O;
+}  
+
 } // namespace
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
       TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
       TORCH_FN(efficient_attention_forward_ck));
+
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
 }
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 0e5cd131ec..9c2733f076 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -7,7 +7,7 @@
 
 import torch
 
-from . import cutlass, decoder, flash, small_k, triton, ck
+from . import cutlass, decoder, flash, small_k, triton, ck, ck_decoder
 from .attn_bias import AttentionBias, BlockDiagonalMask, LowerTriangularMask
 from .common import (
     AttentionBwOpBase,
@@ -30,6 +30,7 @@
 MemoryEfficientAttentionOp = (small_k.FwOp, small_k.BwOp)
 TritonFlashAttentionOp = (triton.FwOp, triton.BwOp)
 MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp) 
+MemoryEfficientAttentionCkDecoderOp = (ck_decoder.FwOp, ck.BwOp)
 
 class _fMHA(torch.autograd.Function):
     @staticmethod
@@ -412,6 +413,7 @@ def _memory_efficient_attention_backward(
     "TritonFlashAttentionOp",
     "memory_efficient_attention",
     "MemoryEfficientAttentionCkOp",
+    "MemoryEfficientAttentionCkDecoderOp",
     "ALL_FW_OPS",
     "ALL_BW_OPS",
 ]
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
new file mode 100644
index 0000000000..1a5eba6f39
--- /dev/null
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -0,0 +1,91 @@
+# TODO(max): add a proper copyright header
+import math
+import torch
+
+from typing import Any, Set, List, Tuple, Optional
+from .attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
+from .common import AttentionFwOpBase, Context, Inputs
+from ..common import get_xformers_operator, register_operator
+
+@register_operator
+class FwOp(AttentionFwOpBase):
+    OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_ck")
+    SUPPORTED_DEVICES: Set[str] = {"cuda"}
+    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
+    SUPPORTED_MAX_K: float = 128
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {BlockDiagonalCausalWithOffsetPaddedKeysMask}
+    SUPPORTS_DROPOUT = False
+    SUPPORTS_CUSTOM_SCALE = True
+    NAME = "ck_decoderF"
+
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(FwOp, cls).not_supported_reasons(d)
+
+        attn_bias = d.attn_bias
+        if isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
+            # If we don't get here, we've an error elsewhere
+            if d.query.ndim != 4 or d.key.ndim != 4:
+                reasons.append("Inputs must be BMHK. BMK not supported")
+
+            if d.query.shape[0] != 1:
+                reasons.append("One formal batch element expected")
+
+            if d.query.shape[-1] != 128:
+                reasons.append("Only head_dim==128 for now.")
+
+            if d.key.stride(-1) != 1:
+                reasons.append("expect keys to have last dim contiguous")
+
+            if d.value.stride(-1) != 1:
+                reasons.append("expect values to have last dim contiguous")
+
+            q_starts = attn_bias.q_seqinfo.seqstart_py
+            if attn_bias.q_seqinfo.max_seqlen != 1:
+                reasons.append("decoding expects one query")
+            elif d.query.shape[1] != len(q_starts) - 1:
+                reasons.append("empty lanes not supported yet")
+
+            if attn_bias.k_seqinfo.padding > 8192:
+                reasons.append("key padding exceeds 8192")
+
+        return reasons
+
+    @classmethod
+    def apply(
+        cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        if needs_gradient:
+            raise NotImplementedError("gradient")
+        attn_bias = inp.attn_bias
+        assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+
+        attn_bias.k_seqinfo.to(inp.query.device)
+        attn_bias.q_seqinfo.to(inp.query.device)
+
+        padding = attn_bias.k_seqinfo.padding
+        multiquery = inp.key.stride(2) == 0
+        if multiquery:
+            key = inp.key[0, :, :1].unflatten(0, (-1, padding))
+            value = inp.value[0, :, :1].unflatten(0, (-1, padding))
+        else:
+            key = inp.key[0].unflatten(0, (-1, padding))
+            value = inp.value[0].unflatten(0, (-1, padding))
+
+        seq_positions = attn_bias.k_seqinfo.seqlen
+
+        query = inp.query[0, :, None]
+
+        if inp.scale is not None:
+            qk_scale = inp.scale
+        else:
+            qk_scale = 1.0 / math.sqrt(key.shape[-1])
+
+        out = cls.OPERATOR(
+            query=query,
+            key=key,
+            value=value,
+            seq_positions=seq_positions,
+            scale=qk_scale,
+        )
+        return out, None

From 15cff16a274252b5e142e35a14d5d77b5c6aef69 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Sep 2023 18:30:34 -0400
Subject: [PATCH 136/837] add boilerplate for invoking the kernel

---
 .../hip_fmha/attention_forward_generic.cpp    | 64 ++++++++++++++++++-
 1 file changed, 61 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 7a58cc931f..e93e110100 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -408,6 +408,30 @@ efficient_attention_forward_ck(
   return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
+template<typename scalar_t>
+__global__ void
+efficient_attention_forward_decoder_ck_kernel(
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K,
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V,
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O,
+    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
+    float qk_scale
+) {
+  __syncthreads();
+}
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__) \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__) \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__) 
+  
+#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                               \
+      TYPE,                                                         \
+      NAME,                                                         \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
 at::Tensor
 efficient_attention_forward_decoder_ck(
     const at::Tensor& XQ, // [B, 1, H, D]
@@ -416,8 +440,8 @@ efficient_attention_forward_decoder_ck(
     const at::Tensor& seq_positions, // [B]
     double qk_scale) {
 
-  constexpr int32_t kThreadsPerWarp = 32;
-  constexpr int32_t kWarpsPerBlock = 32;
+  constexpr int32_t kThreadsPerWavefront = 32;
+  constexpr int32_t kWavefrontsPerBlock = 32;
   constexpr int32_t D_H = 128;
   constexpr int32_t T_MAX = 8192;
 
@@ -431,10 +455,44 @@ efficient_attention_forward_decoder_ck(
   TORCH_CHECK(cache_K.size(1) <= T_MAX);
   TORCH_CHECK(cache_K.size(3) == D_H);
 
-  auto O = at::randn_like(XQ);
+  auto O = at::empty_like(XQ);
+  auto B = XQ.size(0);
+  auto H = XQ.size(2);
+  dim3 blocks(B, H);
+  dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
+
+  int32_t smem_softmax = T_MAX * sizeof(float) + kWavefrontsPerBlock * sizeof(float);
+  int32_t smem_output = D_H * sizeof(float) * kWavefrontsPerBlock;
+  int32_t smem = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(at::ScalarType::Half, at::ScalarType::BFloat16, at::ScalarType::Float, 
+    XQ.scalar_type(), "efficient_attention_forward_decoder_ck", [&] {
+      auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
+      if (smem > 48 * 1024) {
+        C10_CUDA_CHECK(hipFuncSetAttribute(
+            reinterpret_cast<void*&>(kernel),
+            hipFuncAttributeMaxDynamicSharedMemorySize,
+            smem));
+      }
+      kernel
+          <<<blocks, threads, smem, stream>>>(
+              XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+              cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+              cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+              O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+              seq_positions
+                  .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
+              qk_scale);
+      C10_CUDA_KERNEL_LAUNCH_CHECK();
+  });
+
   return O;
 }  
 
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
 } // namespace
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {

From 0dc57854f1c672280d646e0df4bdbec1af877c21 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Sep 2023 18:48:43 -0400
Subject: [PATCH 137/837] move the decoder op backend to its own file

---
 .../hip_fmha/attention_forward_decoder.cpp    | 104 ++++++++++++++++++
 .../hip_fmha/attention_forward_generic.cpp    |  89 ---------------
 2 files changed, 104 insertions(+), 89 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
new file mode 100644
index 0000000000..e23f398a11
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -0,0 +1,104 @@
+/* 
+  TODO: license header
+*/
+
+#include <c10/cuda/CUDAStream.h>
+#include <torch/library.h>
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+
+namespace {
+
+template<typename scalar_t>
+__global__ void
+efficient_attention_forward_decoder_ck_kernel(
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K,
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V,
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O,
+    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
+    float qk_scale
+) {
+  __syncthreads();
+}
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__) \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__) \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__) 
+  
+#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                               \
+      TYPE,                                                         \
+      NAME,                                                         \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+at::Tensor
+efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, H, D]
+    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+    const at::Tensor& seq_positions, // [B]
+    double qk_scale) {
+
+  constexpr int32_t kThreadsPerWavefront = 32;
+  constexpr int32_t kWavefrontsPerBlock = 32;
+  constexpr int32_t D_H = 128;
+  constexpr int32_t T_MAX = 8192;
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(seq_positions.is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= T_MAX);
+  TORCH_CHECK(cache_K.size(3) == D_H);
+
+  auto O = at::empty_like(XQ);
+  auto B = XQ.size(0);
+  auto H = XQ.size(2);
+  dim3 blocks(B, H);
+  dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
+
+  int32_t smem_softmax = T_MAX * sizeof(float) + kWavefrontsPerBlock * sizeof(float);
+  int32_t smem_output = D_H * sizeof(float) * kWavefrontsPerBlock;
+  int32_t smem = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(at::ScalarType::Half, at::ScalarType::BFloat16, at::ScalarType::Float, 
+    XQ.scalar_type(), "efficient_attention_forward_decoder_ck", [&] {
+      auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
+      if (smem > 48 * 1024) {
+        C10_CUDA_CHECK(hipFuncSetAttribute(
+            reinterpret_cast<void*&>(kernel),
+            hipFuncAttributeMaxDynamicSharedMemorySize,
+            smem));
+      }
+      kernel
+          <<<blocks, threads, smem, stream>>>(
+              XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+              cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+              cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+              O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+              seq_positions
+                  .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
+              qk_scale);
+      C10_CUDA_KERNEL_LAUNCH_CHECK();
+  });
+
+  return O;
+}  
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
+}
\ No newline at end of file
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index e93e110100..aaafa1b3b4 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -408,99 +408,10 @@ efficient_attention_forward_ck(
   return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
-template<typename scalar_t>
-__global__ void
-efficient_attention_forward_decoder_ck_kernel(
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K,
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V,
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O,
-    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
-    float qk_scale
-) {
-  __syncthreads();
-}
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__) \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__) \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__) 
-  
-#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                               \
-      TYPE,                                                         \
-      NAME,                                                         \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-at::Tensor
-efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, H, D]
-    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_positions, // [B]
-    double qk_scale) {
-
-  constexpr int32_t kThreadsPerWavefront = 32;
-  constexpr int32_t kWavefrontsPerBlock = 32;
-  constexpr int32_t D_H = 128;
-  constexpr int32_t T_MAX = 8192;
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(seq_positions.is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= T_MAX);
-  TORCH_CHECK(cache_K.size(3) == D_H);
-
-  auto O = at::empty_like(XQ);
-  auto B = XQ.size(0);
-  auto H = XQ.size(2);
-  dim3 blocks(B, H);
-  dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
-
-  int32_t smem_softmax = T_MAX * sizeof(float) + kWavefrontsPerBlock * sizeof(float);
-  int32_t smem_output = D_H * sizeof(float) * kWavefrontsPerBlock;
-  int32_t smem = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(at::ScalarType::Half, at::ScalarType::BFloat16, at::ScalarType::Float, 
-    XQ.scalar_type(), "efficient_attention_forward_decoder_ck", [&] {
-      auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
-      if (smem > 48 * 1024) {
-        C10_CUDA_CHECK(hipFuncSetAttribute(
-            reinterpret_cast<void*&>(kernel),
-            hipFuncAttributeMaxDynamicSharedMemorySize,
-            smem));
-      }
-      kernel
-          <<<blocks, threads, smem, stream>>>(
-              XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-              cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-              cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-              O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-              seq_positions
-                  .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
-              qk_scale);
-      C10_CUDA_KERNEL_LAUNCH_CHECK();
-  });
-
-  return O;
-}  
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
 } // namespace
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
       TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
       TORCH_FN(efficient_attention_forward_ck));
-
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
 }

From 7233f7ee7f7b778fe10894d1694fade67f6250b0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 01:00:01 -0400
Subject: [PATCH 138/837] do a manual hipification pass on the decoder kernel

---
 tests/test_mem_eff_attention_ck.py            |   2 +-
 .../hip_fmha/attention_forward_decoder.cpp    | 354 +++++++++++++++++-
 xformers/ops/fmha/ck_decoder.py               |   8 +-
 3 files changed, 354 insertions(+), 10 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index a3c363fe0f..c4240d21c1 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1629,7 +1629,7 @@ def test_decoder(
 ) -> None:
     dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
     torch.manual_seed(1)
-    d = 128
+    d = 256
     k_shape = (1, bsz * padding, n_heads, d)
     # TODO: support 2 kv heads etc.
     k = torch.randn(k_shape, dtype=dtype_).cuda()
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index e23f398a11..40c7323fdc 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -2,14 +2,146 @@
   TODO: license header
 */
 
+// #include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/inner_product.hpp>
 #include <c10/cuda/CUDAStream.h>
 #include <torch/library.h>
 #include <ATen/Dispatch.h>
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
 
+namespace ck {
+template <>
+__device__ void inner_product<bhalf_t, bhalf_t, float>(const bhalf_t& a, const bhalf_t& b, float& c)
+{
+    inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, const bhalf4_t& b, float& c)
+{
+    constexpr auto I0 = Number<0>{};
+    constexpr auto I1 = Number<1>{};
+    constexpr auto I2 = Number<2>{};
+    constexpr auto I3 = Number<3>{};
+
+    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I0],
+                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I0],
+                  c);
+
+    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I1],
+                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I1],
+                  c);
+
+    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I2],
+                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I2],
+                  c);
+
+    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I3],
+                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I3],
+                  c);
+}
+} // namespace ck
+
 namespace {
 
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t D_H = 256;
+constexpr int32_t T_MAX = 8192;
+
+// read 4 elements in one instruction
+template<typename c10_t>
+struct c10_to_read_t;
+
+template<>
+struct c10_to_read_t<float> {
+  using type = uint4;
+};
+
+template<>
+struct c10_to_read_t<c10::Half> {
+  using type = uint2;
+};
+
+template<>
+struct c10_to_read_t<c10::BFloat16> {
+  using type = uint2;
+};
+
+template<typename c10_t>
+struct c10_to_data_t;
+
+template<>
+struct c10_to_data_t<float> {
+    using type = float_t;
+    using vec4 = ck::float4_t;
+};
+
+template<>
+struct c10_to_data_t<c10::Half> {
+    using type = ck::half_t;
+    using vec4 = ck::half4_t;
+};
+
+template<>
+struct c10_to_data_t<c10::BFloat16> {
+    using type = ck::bhalf_t;
+    using vec4 = ck::bhalf4_t;
+};
+
+template<typename read_t, typename data_t>
+__device__
+float4 scalar4_scale_acc(float4 acc, const read_t* ra, float b);
+
+template<>
+__device__  
+float4
+scalar4_scale_acc<uint4, float>(float4 acc, const uint4* ra, float b) {
+  const auto* a = reinterpret_cast<const float4*>(ra);
+  acc.x += a->x * b;
+  acc.y += a->y * b;
+  acc.z += a->z * b;
+  acc.w += a->w * b;
+  return acc;
+}
+
+template<>
+__device__  
+float4
+scalar4_scale_acc<uint2, ck::half_t>(float4 acc, const uint2* ra, float b) {
+  const auto* a = reinterpret_cast<const ck::half4_t*>(ra);
+  acc.x += a->x * b;
+  acc.y += a->y * b;
+  acc.z += a->z * b;
+  acc.w += a->w * b;
+  return acc;
+}
+
+template<>
+__device__  
+float4
+scalar4_scale_acc<uint2, ck::bhalf_t>(float4 acc, const uint2* ra, float b) {
+  const auto* a = reinterpret_cast<const ck::bhalf4_t*>(ra);
+  acc.x += a->x * b;
+  acc.y += a->y * b;
+  acc.z += a->z * b;
+  acc.w += a->w * b;
+  return acc;
+}
+
+template <typename F>
+float
+__device__ wavefrontReduce(float val) {
+  auto reducer = F();  
+#pragma unroll
+  for (uint mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
+    val = reducer(val, __shfl_xor(val, mask, kThreadsPerWavefront));
+  }
+  return val;
+}
+
 template<typename scalar_t>
 __global__ void
 efficient_attention_forward_decoder_ck_kernel(
@@ -20,7 +152,224 @@ efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
     float qk_scale
 ) {
+  static_assert(4 * kThreadsPerWavefront == D_H, "");
+  static_assert(kWavefrontsPerBlock <= kThreadsPerWavefront, "");
+
+  constexpr int32_t seq_positions_shift = 0;
+
+  extern __shared__ __align__(16) float smem[];
+
+  // Each block handles a single batch and head
+  int32_t b = blockIdx.x;
+  int32_t h = blockIdx.y;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  int32_t t_max = seq_positions[b] + seq_positions_shift;
+
+  int32_t wavefront_idx = threadIdx.y;
+  // need kWavefrontsPerBlock == blockDim.y;
+  // Need D_H == 128
+  const auto* q_ = &(XQ[b][0][h][0]);
+
+  bool multiquery = cache_K.size(2) == 1;
+  auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
+  auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
+
+  // Load Q into registers in all wavefronts.
+  // Each thread handles 4 D dimensions
+  using read_t = typename c10_to_read_t<scalar_t>::type;
+  using data_t = typename c10_to_data_t<scalar_t>::type;
+  using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
+  const read_t* q_thread = reinterpret_cast<const read_t*>(q_) + threadIdx.x;
+
+  // Each block computes different B value
+  float max_qk_acc = std::numeric_limits<float>::lowest();
+
+  // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+  // Split T across wavefronts in a block, unroll loads to expose more
+  // parallelism.
+
+  constexpr int32_t kTimeUnroll = 1;
+  const read_t* k_loads[kTimeUnroll];
+
+  const int32_t t_max_unroll =
+    (t_max / (kWavefrontsPerBlock * kTimeUnroll)) * (kWavefrontsPerBlock * kTimeUnroll);
+
+  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
+       tt += kWavefrontsPerBlock * kTimeUnroll) {
+#pragma unroll kTimeUnroll
+    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+      int32_t t = tt + ttt;
+      auto* k_ = cache_K_base + t * cache_K.stride(1);
+      // scalar4<scalar_t> k_thread;
+      k_loads[ttt] =
+          reinterpret_cast<const read_t*>(k_) + threadIdx.x;
+    }
+#pragma unroll kTimeUnroll
+    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+      float qk_acc = 0;
+      int32_t t = tt + ttt;
+
+      ck::inner_product<data_vec4_t, data_vec4_t, float>(*reinterpret_cast<const data_vec4_t*>(q_thread), 
+                                                         *reinterpret_cast<const data_vec4_t*>(k_loads[ttt]), 
+                                                         qk_acc);
+      qk_acc *= qk_scale;
+
+      qk_acc = wavefrontReduce<std::plus<float>>(qk_acc);
+      max_qk_acc = max(qk_acc, max_qk_acc);
+
+      // write accumulated sums to smem.
+      if (threadIdx.x == 0) {
+        smem[t] = qk_acc;
+      }
+    }
+  }
+
+  constexpr int32_t kTimeUnroll1 = 1;
+  for (auto tt = t_max_unroll + wavefront_idx; tt < t_max;
+       tt += kWavefrontsPerBlock * kTimeUnroll1) {
+#pragma unroll kTimeUnroll1
+    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+      int32_t t = tt + ttt;
+      // &(cache_K[b][t][0][0]);
+      auto* k_ = cache_K_base + t * cache_K.stride(1);
+      // scalar4<scalar_t> k_thread;
+      k_loads[ttt] =
+          reinterpret_cast<const read_t*>(k_) + threadIdx.x;
+    }
+#pragma unroll kTimeUnroll1
+    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+      float qk_acc = 0;
+      int32_t t = tt + ttt;
+      ck::inner_product<data_vec4_t, data_vec4_t, float>(*reinterpret_cast<const data_vec4_t*>(q_thread), 
+                                                         *reinterpret_cast<const data_vec4_t*>(k_loads[ttt]), 
+                                                         qk_acc);
+      qk_acc *= qk_scale;
+
+      qk_acc = wavefrontReduce<std::plus<float>>(qk_acc);
+      max_qk_acc = max(qk_acc, max_qk_acc);
+
+      // write accumulated sums to smem.
+      if (threadIdx.x == 0) {
+        smem[t] = qk_acc;
+      }
+    }
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (threadIdx.x == 0) {
+    smem[T_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (threadIdx.x < kWavefrontsPerBlock) {
+    max_qk_acc = max(max_qk_acc, smem[T_MAX + threadIdx.x]);
+  }
+  // shared across all threads in block
+  max_qk_acc = wavefrontReduce<std::greater<float>>(max_qk_acc);
+  // each wavefront computes partial sum of exp.
+  float softmax_denominator = 0.0f;
+  for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
+       t += kWavefrontsPerBlock * kThreadsPerWavefront) {
+    softmax_denominator += __expf(smem[t] - max_qk_acc);
+  }
+  softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
+
+  __syncthreads();
+  if (threadIdx.x == 0) {
+    smem[T_MAX + wavefront_idx] = softmax_denominator;
+  }
+  __syncthreads();
+  
+  // now, compute sum of exp(x - max(x)) over all intermediate results.
+  softmax_denominator = 0.0;
+  if (threadIdx.x < kWavefrontsPerBlock) {
+    softmax_denominator = smem[T_MAX + threadIdx.x];
+  }
+  softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
+
+  // now, compute the normalization across all threads.
+  for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
+       t += kWavefrontsPerBlock * kThreadsPerWavefront) {
+    smem[t] = __expf(smem[t] - max_qk_acc) / softmax_denominator;
+  }
+  __syncthreads();
+
+  // Now, we can comute the softmax and write the outputs.
+
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
+
+  float ps[kTimeUnroll];
+  float4 o_acc;
+  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
+       tt += kWavefrontsPerBlock * kTimeUnroll) {
+#pragma unroll kTimeUnroll
+    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+      int32_t t = tt + ttt;
+      // &(cache_V[b][t][0][0]);
+      auto* v_ = cache_V_base + t * cache_V.stride(1);
+      //   scalar4<scalar_t> v_thread;
+      k_loads[ttt] =
+          reinterpret_cast<const read_t*>(v_) + threadIdx.x;
+      ps[ttt] = smem[t];
+    }
+
+#pragma unroll kTimeUnroll
+    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+      o_acc = scalar4_scale_acc<read_t, data_t>(o_acc, k_loads[ttt], ps[ttt]);
+    }
+  }
+
+
+  for (auto tt = t_max_unroll + wavefront_idx; tt < t_max;
+       tt += kWavefrontsPerBlock * kTimeUnroll1) {
+#pragma unroll kTimeUnroll1
+    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+      int32_t t = tt + ttt;
+      // &(cache_V[b][t][0][0]);
+      auto* v_ = cache_V_base + t * cache_V.stride(1);
+      //   scalar4<scalar_t> v_thread;
+      k_loads[ttt] =
+          reinterpret_cast<const read_t*>(v_) + threadIdx.x;
+      ps[ttt] = smem[t];
+    }
+
+#pragma unroll kTimeUnroll1
+    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+      o_acc = scalar4_scale_acc<read_t, data_t>(o_acc, k_loads[ttt], ps[ttt]);
+    }
+  }
+  // now, each thread has partial sums. Write to smem and get accumulated
+  // results back.
+  __syncthreads();
+
+  *(reinterpret_cast<float4*>(smem) + wavefront_idx * kThreadsPerWavefront +
+    threadIdx.x) = o_acc;
   __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0) {
+    float4 r = make_float4(0, 0, 0, 0);
+    for (int32_t w = 0; w < kWavefrontsPerBlock; ++w) {
+      auto partial_r = *(
+          reinterpret_cast<float4*>(smem) + w * kThreadsPerWavefront + threadIdx.x);
+      r.x += partial_r.x;
+      r.y += partial_r.y;
+      r.z += partial_r.z;
+      r.w += partial_r.w;
+    }
+    // write output D row
+    auto* o_ = reinterpret_cast<read_t*>(&O[b][0][h][0]);
+    typename c10_to_data_t<scalar_t>::vec4 bf_r;
+    bf_r.x = r.x;
+    bf_r.y = r.y;
+    bf_r.z = r.z;
+    bf_r.w = r.w;
+    o_[threadIdx.x] =
+        *reinterpret_cast<const read_t*>(&bf_r);
+  }
 }
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
@@ -42,11 +391,6 @@ efficient_attention_forward_decoder_ck(
     const at::Tensor& seq_positions, // [B]
     double qk_scale) {
 
-  constexpr int32_t kThreadsPerWavefront = 32;
-  constexpr int32_t kWavefrontsPerBlock = 32;
-  constexpr int32_t D_H = 128;
-  constexpr int32_t T_MAX = 8192;
-
   at::OptionalDeviceGuard guard(XQ.device());
   TORCH_CHECK(XQ.is_cuda());
   TORCH_CHECK(cache_K.is_cuda());
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 1a5eba6f39..2c7d1ead8b 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -11,8 +11,8 @@
 class FwOp(AttentionFwOpBase):
     OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
-    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
-    SUPPORTED_MAX_K: float = 128
+    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16, torch.float}
+    SUPPORTED_MAX_K: float = 256
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {BlockDiagonalCausalWithOffsetPaddedKeysMask}
     SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
@@ -31,8 +31,8 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             if d.query.shape[0] != 1:
                 reasons.append("One formal batch element expected")
 
-            if d.query.shape[-1] != 128:
-                reasons.append("Only head_dim==128 for now.")
+            if d.query.shape[-1] != 256:
+                reasons.append("Only head_dim==256 for now.")
 
             if d.key.stride(-1) != 1:
                 reasons.append("expect keys to have last dim contiguous")

From 39d62705b3033c4eda7e1a9830a8fd7827af67be Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 12:36:00 -0400
Subject: [PATCH 139/837] use type_convert for float arithmetics

---
 .../hip_fmha/attention_forward_decoder.cpp    | 19 +++++++++----------
 1 file changed, 9 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 40c7323fdc..1d8e2d4c03 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -112,10 +112,10 @@ __device__
 float4
 scalar4_scale_acc<uint2, ck::half_t>(float4 acc, const uint2* ra, float b) {
   const auto* a = reinterpret_cast<const ck::half4_t*>(ra);
-  acc.x += a->x * b;
-  acc.y += a->y * b;
-  acc.z += a->z * b;
-  acc.w += a->w * b;
+  acc.x += ck::type_convert<float>(a->x) * b;
+  acc.y += ck::type_convert<float>(a->y) * b;
+  acc.z += ck::type_convert<float>(a->z) * b;
+  acc.w += ck::type_convert<float>(a->w) * b;
   return acc;
 }
 
@@ -124,10 +124,10 @@ __device__
 float4
 scalar4_scale_acc<uint2, ck::bhalf_t>(float4 acc, const uint2* ra, float b) {
   const auto* a = reinterpret_cast<const ck::bhalf4_t*>(ra);
-  acc.x += a->x * b;
-  acc.y += a->y * b;
-  acc.z += a->z * b;
-  acc.w += a->w * b;
+  acc.x += ck::type_convert<float>(a->x) * b;
+  acc.y += ck::type_convert<float>(a->y) * b;
+  acc.z += ck::type_convert<float>(a->z) * b;
+  acc.w += ck::type_convert<float>(a->w) * b;
   return acc;
 }
 
@@ -296,7 +296,7 @@ efficient_attention_forward_decoder_ck_kernel(
   }
   __syncthreads();
 
-  // Now, we can comute the softmax and write the outputs.
+  // Now, we can compute the softmax and write the outputs.
 
   // Split T across wavefronts in a block
   // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
@@ -323,7 +323,6 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
-
   for (auto tt = t_max_unroll + wavefront_idx; tt < t_max;
        tt += kWavefrontsPerBlock * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1

From d2fadf08953c0836a6c74caa1664c4156e33aaa4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 12:55:51 -0400
Subject: [PATCH 140/837] bugfix uninitialized float4

---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 1d8e2d4c03..efd0296ba9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -303,7 +303,7 @@ efficient_attention_forward_decoder_ck_kernel(
   // outputs are of size float[D]
 
   float ps[kTimeUnroll];
-  float4 o_acc;
+  float4 o_acc = make_float4(0, 0, 0, 0);
   for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
        tt += kWavefrontsPerBlock * kTimeUnroll) {
 #pragma unroll kTimeUnroll

From 78345f1a51955a517fe1e80ab3235dfee14dbe1e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 13:37:29 -0400
Subject: [PATCH 141/837] reduce the number of casts between internal types

---
 .../hip_fmha/attention_forward_decoder.cpp    | 61 +++++++++----------
 1 file changed, 29 insertions(+), 32 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index efd0296ba9..cfd8ace15d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -91,43 +91,40 @@ struct c10_to_data_t<c10::BFloat16> {
     using vec4 = ck::bhalf4_t;
 };
 
-template<typename read_t, typename data_t>
+template<typename data4_t>
 __device__
-float4 scalar4_scale_acc(float4 acc, const read_t* ra, float b);
+float4 scalar4_scale_acc(float4 acc, const data4_t& a, float b);
 
 template<>
 __device__  
 float4
-scalar4_scale_acc<uint4, float>(float4 acc, const uint4* ra, float b) {
-  const auto* a = reinterpret_cast<const float4*>(ra);
-  acc.x += a->x * b;
-  acc.y += a->y * b;
-  acc.z += a->z * b;
-  acc.w += a->w * b;
+scalar4_scale_acc<ck::float4_t>(float4 acc, const ck::float4_t& a, float b) {
+  acc.x += a.x * b;
+  acc.y += a.y * b;
+  acc.z += a.z * b;
+  acc.w += a.w * b;
   return acc;
 }
 
 template<>
 __device__  
 float4
-scalar4_scale_acc<uint2, ck::half_t>(float4 acc, const uint2* ra, float b) {
-  const auto* a = reinterpret_cast<const ck::half4_t*>(ra);
-  acc.x += ck::type_convert<float>(a->x) * b;
-  acc.y += ck::type_convert<float>(a->y) * b;
-  acc.z += ck::type_convert<float>(a->z) * b;
-  acc.w += ck::type_convert<float>(a->w) * b;
+scalar4_scale_acc<ck::half4_t>(float4 acc, const ck::half4_t& a, float b) {
+  acc.x += ck::type_convert<float>(a.x) * b;
+  acc.y += ck::type_convert<float>(a.y) * b;
+  acc.z += ck::type_convert<float>(a.z) * b;
+  acc.w += ck::type_convert<float>(a.w) * b;
   return acc;
 }
 
 template<>
 __device__  
 float4
-scalar4_scale_acc<uint2, ck::bhalf_t>(float4 acc, const uint2* ra, float b) {
-  const auto* a = reinterpret_cast<const ck::bhalf4_t*>(ra);
-  acc.x += ck::type_convert<float>(a->x) * b;
-  acc.y += ck::type_convert<float>(a->y) * b;
-  acc.z += ck::type_convert<float>(a->z) * b;
-  acc.w += ck::type_convert<float>(a->w) * b;
+scalar4_scale_acc<ck::bhalf4_t>(float4 acc, const ck::bhalf4_t& a, float b) {
+  acc.x += ck::type_convert<float>(a.x) * b;
+  acc.y += ck::type_convert<float>(a.y) * b;
+  acc.z += ck::type_convert<float>(a.z) * b;
+  acc.w += ck::type_convert<float>(a.w) * b;
   return acc;
 }
 
@@ -181,7 +178,7 @@ efficient_attention_forward_decoder_ck_kernel(
   using read_t = typename c10_to_read_t<scalar_t>::type;
   using data_t = typename c10_to_data_t<scalar_t>::type;
   using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
-  const read_t* q_thread = reinterpret_cast<const read_t*>(q_) + threadIdx.x;
+  const data_vec4_t q_thread = *(reinterpret_cast<const data_vec4_t*>(q_) + threadIdx.x);
 
   // Each block computes different B value
   float max_qk_acc = std::numeric_limits<float>::lowest();
@@ -191,7 +188,7 @@ efficient_attention_forward_decoder_ck_kernel(
   // parallelism.
 
   constexpr int32_t kTimeUnroll = 1;
-  const read_t* k_loads[kTimeUnroll];
+  data_vec4_t k_loads[kTimeUnroll];
 
   const int32_t t_max_unroll =
     (t_max / (kWavefrontsPerBlock * kTimeUnroll)) * (kWavefrontsPerBlock * kTimeUnroll);
@@ -204,15 +201,15 @@ efficient_attention_forward_decoder_ck_kernel(
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
       k_loads[ttt] =
-          reinterpret_cast<const read_t*>(k_) + threadIdx.x;
+          *(reinterpret_cast<const data_vec4_t*>(k_) + threadIdx.x);
     }
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       float qk_acc = 0;
       int32_t t = tt + ttt;
 
-      ck::inner_product<data_vec4_t, data_vec4_t, float>(*reinterpret_cast<const data_vec4_t*>(q_thread), 
-                                                         *reinterpret_cast<const data_vec4_t*>(k_loads[ttt]), 
+      ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
+                                                         k_loads[ttt], 
                                                          qk_acc);
       qk_acc *= qk_scale;
 
@@ -236,14 +233,14 @@ efficient_attention_forward_decoder_ck_kernel(
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
       k_loads[ttt] =
-          reinterpret_cast<const read_t*>(k_) + threadIdx.x;
+          *(reinterpret_cast<const data_vec4_t*>(k_) + threadIdx.x);
     }
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       float qk_acc = 0;
       int32_t t = tt + ttt;
-      ck::inner_product<data_vec4_t, data_vec4_t, float>(*reinterpret_cast<const data_vec4_t*>(q_thread), 
-                                                         *reinterpret_cast<const data_vec4_t*>(k_loads[ttt]), 
+      ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
+                                                         k_loads[ttt], 
                                                          qk_acc);
       qk_acc *= qk_scale;
 
@@ -313,13 +310,13 @@ efficient_attention_forward_decoder_ck_kernel(
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
       k_loads[ttt] =
-          reinterpret_cast<const read_t*>(v_) + threadIdx.x;
+          *(reinterpret_cast<const data_vec4_t*>(v_) + threadIdx.x);
       ps[ttt] = smem[t];
     }
 
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
-      o_acc = scalar4_scale_acc<read_t, data_t>(o_acc, k_loads[ttt], ps[ttt]);
+      o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
     }
   }
 
@@ -332,13 +329,13 @@ efficient_attention_forward_decoder_ck_kernel(
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
       k_loads[ttt] =
-          reinterpret_cast<const read_t*>(v_) + threadIdx.x;
+          *(reinterpret_cast<const data_vec4_t*>(v_) + threadIdx.x);
       ps[ttt] = smem[t];
     }
 
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
-      o_acc = scalar4_scale_acc<read_t, data_t>(o_acc, k_loads[ttt], ps[ttt]);
+      o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
     }
   }
   // now, each thread has partial sums. Write to smem and get accumulated

From d8872182a07316a7e886240c204c40aa18db5321 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 17:22:21 -0400
Subject: [PATCH 142/837] refactor loading/storing to separate functions

---
 .../hip_fmha/attention_forward_decoder.cpp    | 44 ++++++++++---------
 1 file changed, 24 insertions(+), 20 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index cfd8ace15d..2ada6ac2d7 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -130,15 +130,25 @@ scalar4_scale_acc<ck::bhalf4_t>(float4 acc, const ck::bhalf4_t& a, float b) {
 
 template <typename F>
 float
-__device__ wavefrontReduce(float val) {
+__device__ __forceinline__ wavefrontReduce(float val) {
   auto reducer = F();  
 #pragma unroll
-  for (uint mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
+  for (int32_t mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
     val = reducer(val, __shfl_xor(val, mask, kThreadsPerWavefront));
   }
   return val;
 }
 
+template <typename TDataPtr, typename TDataVec>
+__device__ TDataVec load_v(const TDataPtr data_ptr, int32_t vector_offset) {
+  return *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+}
+
+template <typename TDataPtr, typename TDataVec>
+__device__ void store_v(const TDataPtr data_ptr, int32_t vector_offset, TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+}
+
 template<typename scalar_t>
 __global__ void
 efficient_attention_forward_decoder_ck_kernel(
@@ -178,8 +188,7 @@ efficient_attention_forward_decoder_ck_kernel(
   using read_t = typename c10_to_read_t<scalar_t>::type;
   using data_t = typename c10_to_data_t<scalar_t>::type;
   using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
-  const data_vec4_t q_thread = *(reinterpret_cast<const data_vec4_t*>(q_) + threadIdx.x);
-
+  const data_vec4_t q_thread = load_v<decltype(q_), data_vec4_t>(q_, threadIdx.x);
   // Each block computes different B value
   float max_qk_acc = std::numeric_limits<float>::lowest();
 
@@ -200,8 +209,7 @@ efficient_attention_forward_decoder_ck_kernel(
       int32_t t = tt + ttt;
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
-      k_loads[ttt] =
-          *(reinterpret_cast<const data_vec4_t*>(k_) + threadIdx.x);
+      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, threadIdx.x);
     }
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
@@ -232,8 +240,7 @@ efficient_attention_forward_decoder_ck_kernel(
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
-      k_loads[ttt] =
-          *(reinterpret_cast<const data_vec4_t*>(k_) + threadIdx.x);
+      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, threadIdx.x);
     }
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
@@ -309,8 +316,8 @@ efficient_attention_forward_decoder_ck_kernel(
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
-      k_loads[ttt] =
-          *(reinterpret_cast<const data_vec4_t*>(v_) + threadIdx.x);
+      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, threadIdx.x);
+
       ps[ttt] = smem[t];
     }
 
@@ -328,8 +335,8 @@ efficient_attention_forward_decoder_ck_kernel(
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
-      k_loads[ttt] =
-          *(reinterpret_cast<const data_vec4_t*>(v_) + threadIdx.x);
+      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, threadIdx.x);
+
       ps[ttt] = smem[t];
     }
 
@@ -342,29 +349,26 @@ efficient_attention_forward_decoder_ck_kernel(
   // results back.
   __syncthreads();
 
-  *(reinterpret_cast<float4*>(smem) + wavefront_idx * kThreadsPerWavefront +
-    threadIdx.x) = o_acc;
+  store_v<float*, float4>(smem, wavefront_idx * kThreadsPerWavefront +
+    threadIdx.x, o_acc);
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
     float4 r = make_float4(0, 0, 0, 0);
     for (int32_t w = 0; w < kWavefrontsPerBlock; ++w) {
-      auto partial_r = *(
-          reinterpret_cast<float4*>(smem) + w * kThreadsPerWavefront + threadIdx.x);
+      auto partial_r = load_v<float*, float4>(smem, w * kThreadsPerWavefront + threadIdx.x);
       r.x += partial_r.x;
       r.y += partial_r.y;
       r.z += partial_r.z;
       r.w += partial_r.w;
     }
     // write output D row
-    auto* o_ = reinterpret_cast<read_t*>(&O[b][0][h][0]);
-    typename c10_to_data_t<scalar_t>::vec4 bf_r;
+    data_vec4_t bf_r;
     bf_r.x = r.x;
     bf_r.y = r.y;
     bf_r.z = r.z;
     bf_r.w = r.w;
-    o_[threadIdx.x] =
-        *reinterpret_cast<const read_t*>(&bf_r);
+    store_v<decltype(&O[b][0][h][0]), data_vec4_t>(&O[b][0][h][0], threadIdx.x, bf_r);
   }
 }
 

From 1e3b9cbd7f76a8349d8f0c4176da1cee0669404a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 19:01:03 -0400
Subject: [PATCH 143/837] remove references to read_t as we use ck vectors now
 instead of primitive vector types

---
 .../hip_fmha/attention_forward_decoder.cpp    | 28 +++----------------
 1 file changed, 4 insertions(+), 24 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 2ada6ac2d7..15dcda3f11 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -51,25 +51,6 @@ constexpr int32_t kWavefrontsPerBlock = 16;
 constexpr int32_t D_H = 256;
 constexpr int32_t T_MAX = 8192;
 
-// read 4 elements in one instruction
-template<typename c10_t>
-struct c10_to_read_t;
-
-template<>
-struct c10_to_read_t<float> {
-  using type = uint4;
-};
-
-template<>
-struct c10_to_read_t<c10::Half> {
-  using type = uint2;
-};
-
-template<>
-struct c10_to_read_t<c10::BFloat16> {
-  using type = uint2;
-};
-
 template<typename c10_t>
 struct c10_to_data_t;
 
@@ -140,12 +121,12 @@ __device__ __forceinline__ wavefrontReduce(float val) {
 }
 
 template <typename TDataPtr, typename TDataVec>
-__device__ TDataVec load_v(const TDataPtr data_ptr, int32_t vector_offset) {
+__device__ TDataVec load_v(TDataPtr data_ptr, int32_t vector_offset) {
   return *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TDataPtr, typename TDataVec>
-__device__ void store_v(const TDataPtr data_ptr, int32_t vector_offset, TDataVec value) {
+__device__ void store_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec value) {
   *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
@@ -176,16 +157,15 @@ efficient_attention_forward_decoder_ck_kernel(
 
   int32_t wavefront_idx = threadIdx.y;
   // need kWavefrontsPerBlock == blockDim.y;
-  // Need D_H == 128
+  // Need D_H == 256
   const auto* q_ = &(XQ[b][0][h][0]);
 
-  bool multiquery = cache_K.size(2) == 1;
+  const bool multiquery = cache_K.size(2) == 1;
   auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
   auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
-  using read_t = typename c10_to_read_t<scalar_t>::type;
   using data_t = typename c10_to_data_t<scalar_t>::type;
   using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
   const data_vec4_t q_thread = load_v<decltype(q_), data_vec4_t>(q_, threadIdx.x);

From 9446d2335b9ae6f730c3f750905a6859c955e1b2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 28 Sep 2023 19:02:50 -0400
Subject: [PATCH 144/837] comment about input dimension change

---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 15dcda3f11..05859ece1d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -157,7 +157,7 @@ efficient_attention_forward_decoder_ck_kernel(
 
   int32_t wavefront_idx = threadIdx.y;
   // need kWavefrontsPerBlock == blockDim.y;
-  // Need D_H == 256
+  // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
   const auto* q_ = &(XQ[b][0][h][0]);
 
   const bool multiquery = cache_K.size(2) == 1;

From 923511cc5976d909de7a1bb0dbb2eadf76541cdd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 29 Sep 2023 13:57:24 -0400
Subject: [PATCH 145/837] stick with ck vector types; add missing type
 conversions in a ccouple of places; 5->14 tests passing out of 72

---
 .../hip_fmha/attention_forward_decoder.cpp    | 40 ++++++++-----------
 1 file changed, 17 insertions(+), 23 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 05859ece1d..56fce07887 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -74,23 +74,20 @@ struct c10_to_data_t<c10::BFloat16> {
 
 template<typename data4_t>
 __device__
-float4 scalar4_scale_acc(float4 acc, const data4_t& a, float b);
+ck::float4_t scalar4_scale_acc(ck::float4_t acc, data4_t a, float b);
 
 template<>
 __device__  
-float4
-scalar4_scale_acc<ck::float4_t>(float4 acc, const ck::float4_t& a, float b) {
-  acc.x += a.x * b;
-  acc.y += a.y * b;
-  acc.z += a.z * b;
-  acc.w += a.w * b;
+ck::float4_t
+scalar4_scale_acc<ck::float4_t>(ck::float4_t acc, ck::float4_t a, float b) {
+  acc = acc + a * b;
   return acc;
 }
 
 template<>
 __device__  
-float4
-scalar4_scale_acc<ck::half4_t>(float4 acc, const ck::half4_t& a, float b) {
+ck::float4_t
+scalar4_scale_acc<ck::half4_t>(ck::float4_t acc, ck::half4_t a, float b) {
   acc.x += ck::type_convert<float>(a.x) * b;
   acc.y += ck::type_convert<float>(a.y) * b;
   acc.z += ck::type_convert<float>(a.z) * b;
@@ -100,8 +97,8 @@ scalar4_scale_acc<ck::half4_t>(float4 acc, const ck::half4_t& a, float b) {
 
 template<>
 __device__  
-float4
-scalar4_scale_acc<ck::bhalf4_t>(float4 acc, const ck::bhalf4_t& a, float b) {
+ck::float4_t
+scalar4_scale_acc<ck::bhalf4_t>(ck::float4_t acc, ck::bhalf4_t a, float b) {
   acc.x += ck::type_convert<float>(a.x) * b;
   acc.y += ck::type_convert<float>(a.y) * b;
   acc.z += ck::type_convert<float>(a.z) * b;
@@ -287,7 +284,7 @@ efficient_attention_forward_decoder_ck_kernel(
   // outputs are of size float[D]
 
   float ps[kTimeUnroll];
-  float4 o_acc = make_float4(0, 0, 0, 0);
+  ck::float4_t o_acc = 0;
   for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
        tt += kWavefrontsPerBlock * kTimeUnroll) {
 #pragma unroll kTimeUnroll
@@ -329,25 +326,22 @@ efficient_attention_forward_decoder_ck_kernel(
   // results back.
   __syncthreads();
 
-  store_v<float*, float4>(smem, wavefront_idx * kThreadsPerWavefront +
+  store_v<float*, ck::float4_t>(smem, wavefront_idx * kThreadsPerWavefront +
     threadIdx.x, o_acc);
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
-    float4 r = make_float4(0, 0, 0, 0);
+    ck::float4_t r = 0;
     for (int32_t w = 0; w < kWavefrontsPerBlock; ++w) {
-      auto partial_r = load_v<float*, float4>(smem, w * kThreadsPerWavefront + threadIdx.x);
-      r.x += partial_r.x;
-      r.y += partial_r.y;
-      r.z += partial_r.z;
-      r.w += partial_r.w;
+      auto partial_r = load_v<float*, ck::float4_t>(smem, w * kThreadsPerWavefront + threadIdx.x);
+      r += partial_r;
     }
     // write output D row
     data_vec4_t bf_r;
-    bf_r.x = r.x;
-    bf_r.y = r.y;
-    bf_r.z = r.z;
-    bf_r.w = r.w;
+    bf_r.x = ck::type_convert<data_t>(r.x);
+    bf_r.y = ck::type_convert<data_t>(r.y);
+    bf_r.z = ck::type_convert<data_t>(r.z);
+    bf_r.w = ck::type_convert<data_t>(r.w);
     store_v<decltype(&O[b][0][h][0]), data_vec4_t>(&O[b][0][h][0], threadIdx.x, bf_r);
   }
 }

From da6457e84431d886f44f72b9511c251005d094bf Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 30 Sep 2023 00:01:45 -0400
Subject: [PATCH 146/837] modify reference attn to accept
 dtype.to(dtype=dtype); make decoder test identifiers more verbose

---
 tests/test_mem_eff_attention_ck.py            | 30 ++++++++++---------
 .../hip_fmha/attention_forward_decoder.cpp    | 14 ++++-----
 2 files changed, 23 insertions(+), 21 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index c4240d21c1..528cd09532 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -208,15 +208,17 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
 )
 
 
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
     if q.ndim == 4:
         assert p == 0.0
         return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
 
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
+    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
     q = q * scale
 
     attn = q @ k.transpose(-2, -1)
@@ -226,16 +228,16 @@ def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
             attn_bias_tensor = attn_bias.materialize(
                 (q.shape[0], 1, q.shape[1], k.shape[1]),
                 device=q.device,
-                dtype=torch.float32,
+                dtype=dtype,
             )
         else:
-            attn_bias_tensor = attn_bias
+            attn_bias_tensor = attn_bias.to(dtype=dtype)
         if attn_bias_tensor.ndim == 4:
             assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
             attn_bias_tensor = attn_bias_tensor.reshape(
                 [-1, *attn_bias_tensor.shape[2:]]
             )
-        attn = attn + attn_bias_tensor.float()
+        attn = attn + attn_bias_tensor
     attn = attn.softmax(-1)
     if drop_mask is not None:
         attn = attn * (drop_mask / (1 - p))
@@ -1619,10 +1621,10 @@ def test_attn_bias_padded() -> None:
 
 
 @pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
-@pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "")
-@pytest.mark.parametrize("n_heads", [1, 16, 32])
-@pytest.mark.parametrize("padding", [32, 4096])
-@pytest.mark.parametrize("bsz", [1, 8])
+@pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "nomq")
+@pytest.mark.parametrize("n_heads", [1, 16, 32], ids=lambda x: f"nh={x}")
+@pytest.mark.parametrize("padding", [32, 4096], ids=lambda x: f"pad={x}")
+@pytest.mark.parametrize("bsz", [1, 8], ids=lambda x: f"bsz={x}")
 @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
 def test_decoder(
     op, multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str
@@ -1658,11 +1660,11 @@ def test_decoder(
         q, k, v, attn_bias, op=op
     )
     
-    ref_output = ref_attention(q, k, v, attn_bias)
+    ref_output = ref_attention(q, k, v, attn_bias, dtype=dtype_)
 
     assert_allclose(
         decoder_output.float(),
-        ref_output,
+        ref_output.float(),
         atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
         rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
     )
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 56fce07887..fd805d3715 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -135,7 +135,7 @@ efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V,
     at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O,
     at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
-    float qk_scale
+    const float qk_scale
 ) {
   static_assert(4 * kThreadsPerWavefront == D_H, "");
   static_assert(kWavefrontsPerBlock <= kThreadsPerWavefront, "");
@@ -145,15 +145,15 @@ efficient_attention_forward_decoder_ck_kernel(
   extern __shared__ __align__(16) float smem[];
 
   // Each block handles a single batch and head
-  int32_t b = blockIdx.x;
-  int32_t h = blockIdx.y;
+  const int32_t b = blockIdx.x;
+  const int32_t h = blockIdx.y;
 
   // Note: this is decoding case where we attend to current and all previous
   // tokens.
-  int32_t t_max = seq_positions[b] + seq_positions_shift;
+  const int32_t t_max = seq_positions[b] + seq_positions_shift;
 
+  // blockDim.x = kThreadsPerWavefront, blockDim.y = kWavefrontsPerBlock
   int32_t wavefront_idx = threadIdx.y;
-  // need kWavefrontsPerBlock == blockDim.y;
   // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
   const auto* q_ = &(XQ[b][0][h][0]);
 
@@ -253,7 +253,7 @@ efficient_attention_forward_decoder_ck_kernel(
   float softmax_denominator = 0.0f;
   for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
        t += kWavefrontsPerBlock * kThreadsPerWavefront) {
-    softmax_denominator += __expf(smem[t] - max_qk_acc);
+    softmax_denominator += expf(smem[t] - max_qk_acc);
   }
   softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
 
@@ -273,7 +273,7 @@ efficient_attention_forward_decoder_ck_kernel(
   // now, compute the normalization across all threads.
   for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
        t += kWavefrontsPerBlock * kThreadsPerWavefront) {
-    smem[t] = __expf(smem[t] - max_qk_acc) / softmax_denominator;
+    smem[t] = expf(smem[t] - max_qk_acc) / softmax_denominator;
   }
   __syncthreads();
 

From e8a602bb015742fd47d929a92315893a6893bdfc Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 2 Oct 2023 20:43:03 -0400
Subject: [PATCH 147/837] make tests pass by setting each block contain only 1
 wavefront; tbd: figure out how to make multiple wavefronts per block work

---
 .../hip_fmha/attention_forward_decoder.cpp    | 21 +++++++++++--------
 1 file changed, 12 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index fd805d3715..54e13a4c6f 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -47,7 +47,7 @@ __device__ void inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, cons
 namespace {
 
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t kWavefrontsPerBlock = 1;
 constexpr int32_t D_H = 256;
 constexpr int32_t T_MAX = 8192;
 
@@ -80,8 +80,7 @@ template<>
 __device__  
 ck::float4_t
 scalar4_scale_acc<ck::float4_t>(ck::float4_t acc, ck::float4_t a, float b) {
-  acc = acc + a * b;
-  return acc;
+  return acc + a * b;
 }
 
 template<>
@@ -176,14 +175,16 @@ efficient_attention_forward_decoder_ck_kernel(
   constexpr int32_t kTimeUnroll = 1;
   data_vec4_t k_loads[kTimeUnroll];
 
+  const auto dtt = kWavefrontsPerBlock * kTimeUnroll;
   const int32_t t_max_unroll =
-    (t_max / (kWavefrontsPerBlock * kTimeUnroll)) * (kWavefrontsPerBlock * kTimeUnroll);
+    (t_max / dtt) * dtt;
 
   for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
-       tt += kWavefrontsPerBlock * kTimeUnroll) {
+       tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       int32_t t = tt + ttt;
+      // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
       k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, threadIdx.x);
@@ -269,7 +270,7 @@ efficient_attention_forward_decoder_ck_kernel(
     softmax_denominator = smem[T_MAX + threadIdx.x];
   }
   softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
-
+  
   // now, compute the normalization across all threads.
   for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
        t += kWavefrontsPerBlock * kThreadsPerWavefront) {
@@ -286,7 +287,7 @@ efficient_attention_forward_decoder_ck_kernel(
   float ps[kTimeUnroll];
   ck::float4_t o_acc = 0;
   for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
-       tt += kWavefrontsPerBlock * kTimeUnroll) {
+       tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       int32_t t = tt + ttt;
@@ -326,8 +327,9 @@ efficient_attention_forward_decoder_ck_kernel(
   // results back.
   __syncthreads();
 
-  store_v<float*, ck::float4_t>(smem, wavefront_idx * kThreadsPerWavefront +
+  store_v<float*, ck::float4_t>(&smem[0], wavefront_idx * kThreadsPerWavefront +
     threadIdx.x, o_acc);
+
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
@@ -342,7 +344,8 @@ efficient_attention_forward_decoder_ck_kernel(
     bf_r.y = ck::type_convert<data_t>(r.y);
     bf_r.z = ck::type_convert<data_t>(r.z);
     bf_r.w = ck::type_convert<data_t>(r.w);
-    store_v<decltype(&O[b][0][h][0]), data_vec4_t>(&O[b][0][h][0], threadIdx.x, bf_r);
+    auto* o_ = &O[b][0][h][0];
+    store_v<decltype(o_), data_vec4_t>(o_, threadIdx.x, bf_r);
   }
 }
 

From 19a5bf768c022971a9aafffae95549c7810809d9 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 4 Oct 2023 16:16:31 -0400
Subject: [PATCH 148/837] modify test decoder to match the upstream test cases

---
 tests/test_mem_eff_attention_ck.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 528cd09532..71aed5445a 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1622,9 +1622,8 @@ def test_attn_bias_padded() -> None:
 
 @pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
 @pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "nomq")
-@pytest.mark.parametrize("n_heads", [1, 16, 32], ids=lambda x: f"nh={x}")
+@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)], ids=lambda x: f"bsz-nh={x}")
 @pytest.mark.parametrize("padding", [32, 4096], ids=lambda x: f"pad={x}")
-@pytest.mark.parametrize("bsz", [1, 8], ids=lambda x: f"bsz={x}")
 @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
 def test_decoder(
     op, multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str

From 49a305325b846e5647c665fba7ac757493305fef Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 6 Oct 2023 19:44:26 -0400
Subject: [PATCH 149/837] add a cpp helper for debugging

---
 .../hip_fmha/attention_forward_decoder.cpp    | 159 ++++++++++++++----
 1 file changed, 122 insertions(+), 37 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 54e13a4c6f..bf9457459c 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -56,7 +56,7 @@ struct c10_to_data_t;
 
 template<>
 struct c10_to_data_t<float> {
-    using type = float_t;
+    using type = float;
     using vec4 = ck::float4_t;
 };
 
@@ -151,20 +151,25 @@ efficient_attention_forward_decoder_ck_kernel(
   // tokens.
   const int32_t t_max = seq_positions[b] + seq_positions_shift;
 
-  // blockDim.x = kThreadsPerWavefront, blockDim.y = kWavefrontsPerBlock
-  int32_t wavefront_idx = threadIdx.y;
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block = threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx = lane_idx + wavefront_idx * threads_per_wavefront;
+
   // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
   const auto* q_ = &(XQ[b][0][h][0]);
 
   const bool multiquery = cache_K.size(2) == 1;
-  auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
-  auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
+  const auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
+  const auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
   using data_t = typename c10_to_data_t<scalar_t>::type;
   using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
-  const data_vec4_t q_thread = load_v<decltype(q_), data_vec4_t>(q_, threadIdx.x);
+  const data_vec4_t q_thread = load_v<decltype(q_), data_vec4_t>(q_, lane_idx);
   // Each block computes different B value
   float max_qk_acc = std::numeric_limits<float>::lowest();
 
@@ -175,19 +180,18 @@ efficient_attention_forward_decoder_ck_kernel(
   constexpr int32_t kTimeUnroll = 1;
   data_vec4_t k_loads[kTimeUnroll];
 
-  const auto dtt = kWavefrontsPerBlock * kTimeUnroll;
+  const auto dtt = wavefronts_per_block * kTimeUnroll;
   const int32_t t_max_unroll =
     (t_max / dtt) * dtt;
 
-  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
-       tt += dtt) {
+  for (auto tt = wavefront_idx; tt < t_max_unroll; tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       int32_t t = tt + ttt;
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
-      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, threadIdx.x);
+      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
     }
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
@@ -203,7 +207,7 @@ efficient_attention_forward_decoder_ck_kernel(
       max_qk_acc = max(qk_acc, max_qk_acc);
 
       // write accumulated sums to smem.
-      if (threadIdx.x == 0) {
+      if (lane_idx == 0) {
         smem[t] = qk_acc;
       }
     }
@@ -211,14 +215,14 @@ efficient_attention_forward_decoder_ck_kernel(
 
   constexpr int32_t kTimeUnroll1 = 1;
   for (auto tt = t_max_unroll + wavefront_idx; tt < t_max;
-       tt += kWavefrontsPerBlock * kTimeUnroll1) {
+       tt += wavefronts_per_block * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       int32_t t = tt + ttt;
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
-      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, threadIdx.x);
+      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
     }
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
@@ -233,7 +237,7 @@ efficient_attention_forward_decoder_ck_kernel(
       max_qk_acc = max(qk_acc, max_qk_acc);
 
       // write accumulated sums to smem.
-      if (threadIdx.x == 0) {
+      if (lane_idx == 0) {
         smem[t] = qk_acc;
       }
     }
@@ -241,39 +245,37 @@ efficient_attention_forward_decoder_ck_kernel(
 
   // Use shared reduction to compute max and compute softmax on shared memory.
   // write max acc
-  if (threadIdx.x == 0) {
+  if (lane_idx == 0) {
     smem[T_MAX + wavefront_idx] = max_qk_acc;
   }
   __syncthreads();
-  if (threadIdx.x < kWavefrontsPerBlock) {
-    max_qk_acc = max(max_qk_acc, smem[T_MAX + threadIdx.x]);
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = max(max_qk_acc, smem[T_MAX + lane_idx]);
   }
   // shared across all threads in block
   max_qk_acc = wavefrontReduce<std::greater<float>>(max_qk_acc);
   // each wavefront computes partial sum of exp.
   float softmax_denominator = 0.0f;
-  for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
-       t += kWavefrontsPerBlock * kThreadsPerWavefront) {
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     softmax_denominator += expf(smem[t] - max_qk_acc);
   }
   softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
 
   __syncthreads();
-  if (threadIdx.x == 0) {
+  if (lane_idx == 0) {
     smem[T_MAX + wavefront_idx] = softmax_denominator;
   }
   __syncthreads();
   
   // now, compute sum of exp(x - max(x)) over all intermediate results.
   softmax_denominator = 0.0;
-  if (threadIdx.x < kWavefrontsPerBlock) {
-    softmax_denominator = smem[T_MAX + threadIdx.x];
+  if (lane_idx < wavefronts_per_block) {
+    softmax_denominator = smem[T_MAX + lane_idx];
   }
   softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
   
   // now, compute the normalization across all threads.
-  for (int32_t t = threadIdx.x + wavefront_idx * kThreadsPerWavefront; t < t_max;
-       t += kWavefrontsPerBlock * kThreadsPerWavefront) {
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     smem[t] = expf(smem[t] - max_qk_acc) / softmax_denominator;
   }
   __syncthreads();
@@ -286,15 +288,14 @@ efficient_attention_forward_decoder_ck_kernel(
 
   float ps[kTimeUnroll];
   ck::float4_t o_acc = 0;
-  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll;
-       tt += dtt) {
+  for (auto tt = wavefront_idx; tt < t_max_unroll; tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       int32_t t = tt + ttt;
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
-      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, threadIdx.x);
+      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, lane_idx);
 
       ps[ttt] = smem[t];
     }
@@ -305,15 +306,14 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
-  for (auto tt = t_max_unroll + wavefront_idx; tt < t_max;
-       tt += kWavefrontsPerBlock * kTimeUnroll1) {
+  for (auto tt = t_max_unroll + wavefront_idx; tt < t_max; tt += wavefronts_per_block * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       int32_t t = tt + ttt;
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
-      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, threadIdx.x);
+      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, lane_idx);
 
       ps[ttt] = smem[t];
     }
@@ -326,16 +326,16 @@ efficient_attention_forward_decoder_ck_kernel(
   // now, each thread has partial sums. Write to smem and get accumulated
   // results back.
   __syncthreads();
-
-  store_v<float*, ck::float4_t>(&smem[0], wavefront_idx * kThreadsPerWavefront +
-    threadIdx.x, o_acc);
+  
+  // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock 
+  store_v<float*, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
 
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
     ck::float4_t r = 0;
-    for (int32_t w = 0; w < kWavefrontsPerBlock; ++w) {
-      auto partial_r = load_v<float*, ck::float4_t>(smem, w * kThreadsPerWavefront + threadIdx.x);
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      auto partial_r = load_v<float*, ck::float4_t>(smem, w * threads_per_wavefront + lane_idx);
       r += partial_r;
     }
     // write output D row
@@ -345,7 +345,7 @@ efficient_attention_forward_decoder_ck_kernel(
     bf_r.z = ck::type_convert<data_t>(r.z);
     bf_r.w = ck::type_convert<data_t>(r.w);
     auto* o_ = &O[b][0][h][0];
-    store_v<decltype(o_), data_vec4_t>(o_, threadIdx.x, bf_r);
+    store_v<decltype(o_), data_vec4_t>(o_, lane_idx, bf_r);
   }
 }
 
@@ -422,4 +422,89 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
       TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
       TORCH_FN(efficient_attention_forward_decoder_ck));
-}
\ No newline at end of file
+}
+
+#ifdef ATTN_FWD_DECODER_MAIN
+
+#include <torch/torch.h>
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+(2) compile
+ > /opt/rocm/bin/hipcc \
+-I/xformers/xformers/csrc \
+-I/xformers/xformers/csrc/attention/hip_fmha \
+-I/xformers/third_party/composable_kernel/include \
+-I/xformers/third_party/composable_kernel/include/ck \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/TH \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THC \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THH \
+-I/opt/rocm/include \
+-I/opt/conda/envs/py_3.8/include/python3.8 \
+-L/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
+-L/opt/conda/envs/py_3.8/lib \
+-L/opt/rocm/lib \
+-L/opt/rocm/hip/lib \
+-fPIC \
+-D__HIP_PLATFORM_HCC__=1 \
+-DATTN_FWD_DECODER_MAIN \
+-DUSE_ROCM=1 \
+-DCUDA_HAS_FP16=1 \
+-D__HIP_NO_HALF_OPERATORS__=1 \
+-D__HIP_NO_HALF_CONVERSIONS__=1 \
+-O3 \
+-std=c++17 \
+--offload-arch=gfx90a \
+-U__CUDA_NO_HALF_OPERATORS__ \
+-U__CUDA_NO_HALF_CONVERSIONS__ \
+-DBUILD_PYTHON_PACKAGE \
+-DTORCH_API_INCLUDE_EXTENSION_H \
+'-DPYBIND11_COMPILER_TYPE="_gcc"' \
+'-DPYBIND11_STDLIB="_libstdcpp"' \
+'-DPYBIND11_BUILD_ABI="_cxxabi1013"' \
+-DTORCH_EXTENSION_NAME=_C \
+-D_GLIBCXX_USE_CXX11_ABI=1 \
+-fno-gpu-rdc \
+/xformers/xformers/csrc/attention/hip_fmha/attention_forward_decoder.hip \
+-lc10_hip \
+-ltorch_hip \
+-lc10 \
+-ltorch \
+-ltorch_cpu \
+-ltorch_python \
+-lpython3.8 \
+-lamdhip64 \
+-o a.out
+
+(3) run
+ > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib ./a.out
+*/
+
+int main(int argc, char** argv) {
+  const int32_t D = 256;
+  const int32_t B = 4;
+  const int32_t H = 8;
+  auto options = torch::TensorOptions()
+    .dtype(torch::kFloat32)
+    .layout(torch::kStrided)
+    .device(torch::kCUDA, 1)
+    .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, H, D}, options);
+  auto K = at::randn({B, T_MAX, H, D}, options);
+  auto V = at::randn({B, T_MAX, H, D}, options);
+  auto seq = at::randint(1, 32, {B}, int_options);
+  double qk_scale = sqrt(D);
+
+  auto result = efficient_attention_forward_decoder_ck(XQ, K, V, seq, qk_scale);
+  return 0;
+}
+
+#endif // MAIN
\ No newline at end of file

From 68d93d79dc422c10fe50c005c6871cee66391259 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 13:22:47 -0400
Subject: [PATCH 150/837] add cpp repro to debug numerical mismatch

---
 .../hip_fmha/attention_forward_decoder.cpp    | 28 +++++++++++++++----
 1 file changed, 22 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index bf9457459c..3e79f0d3d1 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -360,8 +360,9 @@ efficient_attention_forward_decoder_ck_kernel(
       NAME,                                                         \
       AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
 
+template<int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor
-efficient_attention_forward_decoder_ck(
+efficient_attention_forward_decoder_ck_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
@@ -382,10 +383,10 @@ efficient_attention_forward_decoder_ck(
   auto B = XQ.size(0);
   auto H = XQ.size(2);
   dim3 blocks(B, H);
-  dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
-  int32_t smem_softmax = T_MAX * sizeof(float) + kWavefrontsPerBlock * sizeof(float);
-  int32_t smem_output = D_H * sizeof(float) * kWavefrontsPerBlock;
+  int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = D_H * sizeof(float) * threads.y;
   int32_t smem = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
@@ -416,6 +417,17 @@ efficient_attention_forward_decoder_ck(
 #undef AT_DISPATCH_CASE_3
 #undef AT_DISPATCH_SWITCH_3
 
+at::Tensor
+efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, H, D]
+    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+    const at::Tensor& seq_positions, // [B]
+    double qk_scale) {
+  return efficient_attention_forward_decoder_ck_impl<kThreadsPerWavefront, kWavefrontsPerBlock> (
+    XQ, cache_K, cache_V, seq_positions, qk_scale
+  );
+}
 } // namespace
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
@@ -501,9 +513,13 @@ int main(int argc, char** argv) {
   auto K = at::randn({B, T_MAX, H, D}, options);
   auto V = at::randn({B, T_MAX, H, D}, options);
   auto seq = at::randint(1, 32, {B}, int_options);
-  double qk_scale = sqrt(D);
+  double qk_scale = 1. / sqrt(D);
 
-  auto result = efficient_attention_forward_decoder_ck(XQ, K, V, seq, qk_scale);
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(result, gold_result, 1e-2, 1e-2, false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
   return 0;
 }
 

From 04ab7d0f254b4bfb529ca4dc061fe4a10066cb24 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 14:26:47 -0400
Subject: [PATCH 151/837] clean up kernel invocation; mark const indices const

---
 .../hip_fmha/attention_forward_decoder.cpp    | 47 ++++++++++++-------
 1 file changed, 30 insertions(+), 17 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 3e79f0d3d1..19b2f5162f 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -187,7 +187,7 @@ efficient_attention_forward_decoder_ck_kernel(
   for (auto tt = wavefront_idx; tt < t_max_unroll; tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
-      int32_t t = tt + ttt;
+      const int32_t t = tt + ttt;
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
@@ -196,7 +196,7 @@ efficient_attention_forward_decoder_ck_kernel(
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       float qk_acc = 0;
-      int32_t t = tt + ttt;
+      const int32_t t = tt + ttt;
 
       ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
                                                          k_loads[ttt], 
@@ -218,7 +218,7 @@ efficient_attention_forward_decoder_ck_kernel(
        tt += wavefronts_per_block * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
-      int32_t t = tt + ttt;
+      const int32_t t = tt + ttt;
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
@@ -227,7 +227,7 @@ efficient_attention_forward_decoder_ck_kernel(
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       float qk_acc = 0;
-      int32_t t = tt + ttt;
+      const int32_t t = tt + ttt;
       ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
                                                          k_loads[ttt], 
                                                          qk_acc);
@@ -291,7 +291,7 @@ efficient_attention_forward_decoder_ck_kernel(
   for (auto tt = wavefront_idx; tt < t_max_unroll; tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
-      int32_t t = tt + ttt;
+      const int32_t t = tt + ttt;
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
@@ -309,7 +309,7 @@ efficient_attention_forward_decoder_ck_kernel(
   for (auto tt = t_max_unroll + wavefront_idx; tt < t_max; tt += wavefronts_per_block * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
-      int32_t t = tt + ttt;
+      const int32_t t = tt + ttt;
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
@@ -349,6 +349,24 @@ efficient_attention_forward_decoder_ck_kernel(
   }
 }
 
+void update_max_dynamic_shared_memory_size_bytes(void* kernel_func, int32_t new_value) {
+  hipFuncAttributes attributes;
+  C10_CUDA_CHECK(hipFuncGetAttributes(
+      &attributes, 
+      kernel_func));
+
+  const auto default_value = attributes.maxDynamicSharedSizeBytes;
+
+  // printf("Default smem size: %d\n", default_value);
+
+  if (new_value > default_value) {
+    C10_CUDA_CHECK(hipFuncSetAttribute(
+        kernel_func,
+        hipFuncAttributeMaxDynamicSharedMemorySize,
+        new_value));
+  }
+}
+
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
   AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__) \
   AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__) \
@@ -386,21 +404,16 @@ efficient_attention_forward_decoder_ck_impl(
   dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
   int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = D_H * sizeof(float) * threads.y;
-  int32_t smem = max(smem_softmax, smem_output);
+  int32_t smem_output = D_H * sizeof(float) * threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  int32_t smem_size = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
   AT_DISPATCH_SWITCH_3(at::ScalarType::Half, at::ScalarType::BFloat16, at::ScalarType::Float, 
     XQ.scalar_type(), "efficient_attention_forward_decoder_ck", [&] {
       auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
-      if (smem > 48 * 1024) {
-        C10_CUDA_CHECK(hipFuncSetAttribute(
-            reinterpret_cast<void*&>(kernel),
-            hipFuncAttributeMaxDynamicSharedMemorySize,
-            smem));
-      }
+      update_max_dynamic_shared_memory_size_bytes(reinterpret_cast<void*&>(kernel), smem_size);
       kernel
-          <<<blocks, threads, smem, stream>>>(
+          <<<blocks, threads, smem_size, stream>>>(
               XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
               cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
               cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
@@ -510,8 +523,8 @@ int main(int argc, char** argv) {
     .requires_grad(false);
   auto int_options = options.dtype(torch::kInt);
   auto XQ = at::randn({B, 1, H, D}, options);
-  auto K = at::randn({B, T_MAX, H, D}, options);
-  auto V = at::randn({B, T_MAX, H, D}, options);
+  auto K = at::randn({B, T_MAX / 2, H, D}, options);
+  auto V = at::randn({B, T_MAX / 2, H, D}, options);
   auto seq = at::randint(1, 32, {B}, int_options);
   double qk_scale = 1. / sqrt(D);
 

From 7674da23927d1215578e2ab2d01a53a6332f029f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 15:01:22 -0400
Subject: [PATCH 152/837] fix a reduction bug

---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp  | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 19b2f5162f..46437f72b8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -111,7 +111,7 @@ __device__ __forceinline__ wavefrontReduce(float val) {
   auto reducer = F();  
 #pragma unroll
   for (int32_t mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
-    val = reducer(val, __shfl_xor(val, mask, kThreadsPerWavefront));
+    val = reducer(__shfl_xor(val, mask, kThreadsPerWavefront), val);
   }
   return val;
 }
@@ -254,6 +254,7 @@ efficient_attention_forward_decoder_ck_kernel(
   }
   // shared across all threads in block
   max_qk_acc = wavefrontReduce<std::greater<float>>(max_qk_acc);
+  
   // each wavefront computes partial sum of exp.
   float softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
@@ -517,7 +518,7 @@ int main(int argc, char** argv) {
   const int32_t B = 4;
   const int32_t H = 8;
   auto options = torch::TensorOptions()
-    .dtype(torch::kFloat32)
+    .dtype(torch::kFloat16)
     .layout(torch::kStrided)
     .device(torch::kCUDA, 1)
     .requires_grad(false);
@@ -529,7 +530,7 @@ int main(int argc, char** argv) {
   double qk_scale = 1. / sqrt(D);
 
   auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 16>(XQ, K, V, seq, qk_scale);
   auto mask = at::isclose(result, gold_result, 1e-2, 1e-2, false);
   auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
   printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());

From 5b89fa1e17010ee84c050e36f666f64241779f19 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 16:53:59 -0400
Subject: [PATCH 153/837] fix another bug in reducer; the tests are now passing

---
 .../hip_fmha/attention_forward_decoder.cpp    | 37 +++++++++----------
 1 file changed, 18 insertions(+), 19 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 46437f72b8..8cca9521aa 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -47,7 +47,7 @@ __device__ void inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, cons
 namespace {
 
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 1;
+constexpr int32_t kWavefrontsPerBlock = 8;
 constexpr int32_t D_H = 256;
 constexpr int32_t T_MAX = 8192;
 
@@ -107,11 +107,10 @@ scalar4_scale_acc<ck::bhalf4_t>(ck::float4_t acc, ck::bhalf4_t a, float b) {
 
 template <typename F>
 float
-__device__ __forceinline__ wavefrontReduce(float val) {
-  auto reducer = F();  
+__device__ __forceinline__ wavefrontReduce(float val, F f) {
 #pragma unroll
   for (int32_t mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
-    val = reducer(__shfl_xor(val, mask, kThreadsPerWavefront), val);
+    val = f(__shfl_xor(val, mask, kThreadsPerWavefront), val);
   }
   return val;
 }
@@ -203,7 +202,7 @@ efficient_attention_forward_decoder_ck_kernel(
                                                          qk_acc);
       qk_acc *= qk_scale;
 
-      qk_acc = wavefrontReduce<std::plus<float>>(qk_acc);
+      qk_acc = wavefrontReduce(qk_acc, [] (float a, float b) { return a + b; });
       max_qk_acc = max(qk_acc, max_qk_acc);
 
       // write accumulated sums to smem.
@@ -233,7 +232,7 @@ efficient_attention_forward_decoder_ck_kernel(
                                                          qk_acc);
       qk_acc *= qk_scale;
 
-      qk_acc = wavefrontReduce<std::plus<float>>(qk_acc);
+      qk_acc = wavefrontReduce(qk_acc, [] (float a, float b) { return a + b; });
       max_qk_acc = max(qk_acc, max_qk_acc);
 
       // write accumulated sums to smem.
@@ -253,14 +252,14 @@ efficient_attention_forward_decoder_ck_kernel(
     max_qk_acc = max(max_qk_acc, smem[T_MAX + lane_idx]);
   }
   // shared across all threads in block
-  max_qk_acc = wavefrontReduce<std::greater<float>>(max_qk_acc);
-  
+  max_qk_acc = wavefrontReduce(max_qk_acc, [] (float a, float b) { return a > b ? a : b; });
+
   // each wavefront computes partial sum of exp.
   float softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     softmax_denominator += expf(smem[t] - max_qk_acc);
   }
-  softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
+  softmax_denominator = wavefrontReduce(softmax_denominator, [] (float a, float b) { return a + b; });
 
   __syncthreads();
   if (lane_idx == 0) {
@@ -273,8 +272,8 @@ efficient_attention_forward_decoder_ck_kernel(
   if (lane_idx < wavefronts_per_block) {
     softmax_denominator = smem[T_MAX + lane_idx];
   }
-  softmax_denominator = wavefrontReduce<std::plus<float>>(softmax_denominator);
-  
+  softmax_denominator = wavefrontReduce(softmax_denominator, [] (float a, float b) { return a + b; });
+
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     smem[t] = expf(smem[t] - max_qk_acc) / softmax_denominator;
@@ -515,23 +514,23 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 int main(int argc, char** argv) {
   const int32_t D = 256;
-  const int32_t B = 4;
-  const int32_t H = 8;
+  const int32_t B = 1;
+  const int32_t H = 4;
   auto options = torch::TensorOptions()
-    .dtype(torch::kFloat16)
+    .dtype(torch::kFloat32)
     .layout(torch::kStrided)
     .device(torch::kCUDA, 1)
     .requires_grad(false);
   auto int_options = options.dtype(torch::kInt);
   auto XQ = at::randn({B, 1, H, D}, options);
-  auto K = at::randn({B, T_MAX / 2, H, D}, options);
-  auto V = at::randn({B, T_MAX / 2, H, D}, options);
-  auto seq = at::randint(1, 32, {B}, int_options);
+  auto K = at::randn({B, 4096, H, D}, options);
+  auto V = at::randn({B, 4096, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
   double qk_scale = 1. / sqrt(D);
 
   auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 16>(XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(result, gold_result, 1e-2, 1e-2, false);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
   auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
   printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
   return 0;

From 4db9157c339da4d7b33b4b832008c447a38973a1 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 17:16:36 -0400
Subject: [PATCH 154/837] fix loop unroll (1/2)

---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 8cca9521aa..2cd2f10bc9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -176,14 +176,14 @@ efficient_attention_forward_decoder_ck_kernel(
   // Split T across wavefronts in a block, unroll loads to expose more
   // parallelism.
 
-  constexpr int32_t kTimeUnroll = 1;
+  constexpr int32_t kTimeUnroll = 2;
   data_vec4_t k_loads[kTimeUnroll];
 
   const auto dtt = wavefronts_per_block * kTimeUnroll;
   const int32_t t_max_unroll =
     (t_max / dtt) * dtt;
 
-  for (auto tt = wavefront_idx; tt < t_max_unroll; tt += dtt) {
+  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll; tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       const int32_t t = tt + ttt;
@@ -288,7 +288,7 @@ efficient_attention_forward_decoder_ck_kernel(
 
   float ps[kTimeUnroll];
   ck::float4_t o_acc = 0;
-  for (auto tt = wavefront_idx; tt < t_max_unroll; tt += dtt) {
+  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll; tt += dtt) {
 #pragma unroll kTimeUnroll
     for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
       const int32_t t = tt + ttt;

From 7ad550f23973bbc9437d0270b887dfd425f31179 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 17:29:25 -0400
Subject: [PATCH 155/837] partial fix to unroll (2/2)

---
 .../hip_fmha/attention_forward_decoder.cpp    | 59 +++++++++++--------
 1 file changed, 34 insertions(+), 25 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 2cd2f10bc9..e805188dab 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -176,7 +176,7 @@ efficient_attention_forward_decoder_ck_kernel(
   // Split T across wavefronts in a block, unroll loads to expose more
   // parallelism.
 
-  constexpr int32_t kTimeUnroll = 2;
+  constexpr int32_t kTimeUnroll = 4;
   data_vec4_t k_loads[kTimeUnroll];
 
   const auto dtt = wavefronts_per_block * kTimeUnroll;
@@ -212,32 +212,36 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
-  constexpr int32_t kTimeUnroll1 = 1;
-  for (auto tt = t_max_unroll + wavefront_idx; tt < t_max;
+  constexpr int32_t kTimeUnroll1 = 4;
+  for (auto tt = t_max_unroll + wavefront_idx * kTimeUnroll1; tt < t_max;
        tt += wavefronts_per_block * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       const int32_t t = tt + ttt;
-      // &(cache_K[b][t][0][0]);
-      auto* k_ = cache_K_base + t * cache_K.stride(1);
-      // scalar4<scalar_t> k_thread;
-      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
+      if (t < t_max) {
+        // &(cache_K[b][t][0][0]);
+        auto* k_ = cache_K_base + t * cache_K.stride(1);
+        // scalar4<scalar_t> k_thread;
+        k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
+      }
     }
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       float qk_acc = 0;
       const int32_t t = tt + ttt;
-      ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
-                                                         k_loads[ttt], 
-                                                         qk_acc);
-      qk_acc *= qk_scale;
-
-      qk_acc = wavefrontReduce(qk_acc, [] (float a, float b) { return a + b; });
-      max_qk_acc = max(qk_acc, max_qk_acc);
-
-      // write accumulated sums to smem.
-      if (lane_idx == 0) {
-        smem[t] = qk_acc;
+      if (t < t_max) {
+        ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
+                                                          k_loads[ttt], 
+                                                          qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc = wavefrontReduce(qk_acc, [] (float a, float b) { return a + b; });
+        max_qk_acc = max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t] = qk_acc;
+        }
       }
     }
   }
@@ -306,21 +310,26 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
-  for (auto tt = t_max_unroll + wavefront_idx; tt < t_max; tt += wavefronts_per_block * kTimeUnroll1) {
+  for (auto tt = t_max_unroll + wavefront_idx * kTimeUnroll1; tt < t_max; tt += wavefronts_per_block * kTimeUnroll1) {
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
       const int32_t t = tt + ttt;
-      // &(cache_V[b][t][0][0]);
-      auto* v_ = cache_V_base + t * cache_V.stride(1);
-      //   scalar4<scalar_t> v_thread;
-      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, lane_idx);
+      if (t < t_max) {
+        // &(cache_V[b][t][0][0]);
+        auto* v_ = cache_V_base + t * cache_V.stride(1);
+        //   scalar4<scalar_t> v_thread;
+        k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, lane_idx);
 
-      ps[ttt] = smem[t];
+        ps[ttt] = smem[t];
+      }
     }
 
 #pragma unroll kTimeUnroll1
     for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
-      o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
+      }
     }
   }
   // now, each thread has partial sums. Write to smem and get accumulated

From afb61a970eb118e49c486de167caffefbe28633c Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 17:42:40 -0400
Subject: [PATCH 156/837] refactor loop unroll controls into template
 parameters

---
 .../hip_fmha/attention_forward_decoder.cpp    | 58 +++++++++----------
 1 file changed, 28 insertions(+), 30 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index e805188dab..2898eedc75 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -125,7 +125,7 @@ __device__ void store_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec value
   *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
-template<typename scalar_t>
+template<typename scalar_t, int32_t n_loop_unroll = 2, int32_t n_loop_unroll_tail = 2>
 __global__ void
 efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
@@ -135,9 +135,6 @@ efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
     const float qk_scale
 ) {
-  static_assert(4 * kThreadsPerWavefront == D_H, "");
-  static_assert(kWavefrontsPerBlock <= kThreadsPerWavefront, "");
-
   constexpr int32_t seq_positions_shift = 0;
 
   extern __shared__ __align__(16) float smem[];
@@ -176,24 +173,23 @@ efficient_attention_forward_decoder_ck_kernel(
   // Split T across wavefronts in a block, unroll loads to expose more
   // parallelism.
 
-  constexpr int32_t kTimeUnroll = 4;
-  data_vec4_t k_loads[kTimeUnroll];
+  data_vec4_t k_loads[n_loop_unroll];
 
-  const auto dtt = wavefronts_per_block * kTimeUnroll;
+  const auto dtt = wavefronts_per_block * n_loop_unroll;
   const int32_t t_max_unroll =
     (t_max / dtt) * dtt;
 
-  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll; tt += dtt) {
-#pragma unroll kTimeUnroll
-    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
       k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
     }
-#pragma unroll kTimeUnroll
-    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       float qk_acc = 0;
       const int32_t t = tt + ttt;
 
@@ -212,11 +208,10 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
-  constexpr int32_t kTimeUnroll1 = 4;
-  for (auto tt = t_max_unroll + wavefront_idx * kTimeUnroll1; tt < t_max;
-       tt += wavefronts_per_block * kTimeUnroll1) {
-#pragma unroll kTimeUnroll1
-    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+       tt += wavefronts_per_block * n_loop_unroll_tail) {
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
         // &(cache_K[b][t][0][0]);
@@ -225,8 +220,8 @@ efficient_attention_forward_decoder_ck_kernel(
         k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
       }
     }
-#pragma unroll kTimeUnroll1
-    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       float qk_acc = 0;
       const int32_t t = tt + ttt;
       if (t < t_max) {
@@ -290,11 +285,11 @@ efficient_attention_forward_decoder_ck_kernel(
   // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
   // outputs are of size float[D]
 
-  float ps[kTimeUnroll];
+  float ps[n_loop_unroll];
   ck::float4_t o_acc = 0;
-  for (auto tt = wavefront_idx * kTimeUnroll; tt < t_max_unroll; tt += dtt) {
-#pragma unroll kTimeUnroll
-    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
@@ -304,15 +299,15 @@ efficient_attention_forward_decoder_ck_kernel(
       ps[ttt] = smem[t];
     }
 
-#pragma unroll kTimeUnroll
-    for (auto ttt = 0; ttt < kTimeUnroll; ++ttt) {
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
     }
   }
 
-  for (auto tt = t_max_unroll + wavefront_idx * kTimeUnroll1; tt < t_max; tt += wavefronts_per_block * kTimeUnroll1) {
-#pragma unroll kTimeUnroll1
-    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max; tt += wavefronts_per_block * n_loop_unroll_tail) {
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
         // &(cache_V[b][t][0][0]);
@@ -324,8 +319,8 @@ efficient_attention_forward_decoder_ck_kernel(
       }
     }
 
-#pragma unroll kTimeUnroll1
-    for (auto ttt = 0; ttt < kTimeUnroll1; ++ttt) {
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
         o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
@@ -396,6 +391,9 @@ efficient_attention_forward_decoder_ck_impl(
     const at::Tensor& seq_positions, // [B]
     double qk_scale) {
 
+  static_assert(4 * ThreadsPerWavefront == D_H, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
   at::OptionalDeviceGuard guard(XQ.device());
   TORCH_CHECK(XQ.is_cuda());
   TORCH_CHECK(cache_K.is_cuda());

From 3690a3268721f828d9b2781da63b688131ef3882 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 18:18:13 -0400
Subject: [PATCH 157/837] add a comment and a static guard for unroll sizes

---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp    | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 2898eedc75..bac9c5da4b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -125,7 +125,7 @@ __device__ void store_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec value
   *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
-template<typename scalar_t, int32_t n_loop_unroll = 2, int32_t n_loop_unroll_tail = 2>
+template<typename scalar_t, int32_t n_loop_unroll = 4, int32_t n_loop_unroll_tail = 2>
 __global__ void
 efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
@@ -135,6 +135,8 @@ efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
     const float qk_scale
 ) {
+  static_assert (n_loop_unroll_tail < n_loop_unroll, "");
+
   constexpr int32_t seq_positions_shift = 0;
 
   extern __shared__ __align__(16) float smem[];
@@ -208,6 +210,7 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
+  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
   for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
        tt += wavefronts_per_block * n_loop_unroll_tail) {
 #pragma unroll n_loop_unroll_tail

From c996768d6b5667715ba10c455983268f3e45fea9 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Oct 2023 21:07:32 -0400
Subject: [PATCH 158/837] compare reference and tested attention when they are
 of same dtype as the compute dtype

---
 tests/test_mem_eff_attention_ck.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 71aed5445a..f073bb76fc 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -211,7 +211,7 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
     if q.ndim == 4:
         assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias, dtype=dtype)
     if dtype is None:
         dtype = torch.float32
     q = q.to(dtype=dtype)
@@ -244,7 +244,7 @@ def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dt
     return attn @ v
 
 
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -258,7 +258,7 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
@@ -1662,8 +1662,8 @@ def test_decoder(
     ref_output = ref_attention(q, k, v, attn_bias, dtype=dtype_)
 
     assert_allclose(
-        decoder_output.float(),
-        ref_output.float(),
+        decoder_output,
+        ref_output,
         atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
         rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
     )

From ab9ecc66c5a48ba294e270efeac5b4412d51cdd3 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 10 Oct 2023 17:41:12 -0400
Subject: [PATCH 159/837] refactor inner product for bf16_4

---
 .../hip_fmha/attention_forward_decoder.cpp    | 27 +++++--------------
 1 file changed, 7 insertions(+), 20 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index bac9c5da4b..7670896e8b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -21,26 +21,13 @@ __device__ void inner_product<bhalf_t, bhalf_t, float>(const bhalf_t& a, const b
 template <>
 __device__ void inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, const bhalf4_t& b, float& c)
 {
-    constexpr auto I0 = Number<0>{};
-    constexpr auto I1 = Number<1>{};
-    constexpr auto I2 = Number<2>{};
-    constexpr auto I3 = Number<3>{};
-
-    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I0],
-                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I0],
-                  c);
-
-    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I1],
-                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I1],
-                  c);
-
-    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I2],
-                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I2],
-                  c);
-
-    inner_product(vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I3],
-                  vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I3],
-                  c);
+    const vector_type<bhalf_t, 4> a_vector{a};
+    const vector_type<bhalf_t, 4> b_vector{b};
+    ck::static_for<0, 4, 1>{}([&] (auto i) {
+      inner_product(a_vector.AsType<bhalf_t>()[i],
+                    b_vector.AsType<bhalf_t>()[i],
+                    c);
+    });
 }
 } // namespace ck
 

From 10798569ac6e939f761861f35f7a3b6da25b863f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 10 Oct 2023 23:51:54 -0400
Subject: [PATCH 160/837] refactor load to take a pointer to written value

---
 .../hip_fmha/attention_forward_decoder.cpp    | 20 +++++++++++--------
 1 file changed, 12 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 7670896e8b..0a1363166a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -103,11 +103,13 @@ __device__ __forceinline__ wavefrontReduce(float val, F f) {
 }
 
 template <typename TDataPtr, typename TDataVec>
-__device__ TDataVec load_v(TDataPtr data_ptr, int32_t vector_offset) {
-  return *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+__forceinline__
+__device__ void load_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec* load_to) {
+   *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TDataPtr, typename TDataVec>
+__forceinline__
 __device__ void store_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec value) {
   *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
@@ -154,7 +156,8 @@ efficient_attention_forward_decoder_ck_kernel(
   // Each thread handles 4 D dimensions
   using data_t = typename c10_to_data_t<scalar_t>::type;
   using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
-  const data_vec4_t q_thread = load_v<decltype(q_), data_vec4_t>(q_, lane_idx);
+  data_vec4_t q_thread;
+  load_v<decltype(q_), data_vec4_t>(q_, lane_idx, &q_thread);
   // Each block computes different B value
   float max_qk_acc = std::numeric_limits<float>::lowest();
 
@@ -175,7 +178,7 @@ efficient_attention_forward_decoder_ck_kernel(
       // &(cache_K[b][t][0][0]);
       auto* k_ = cache_K_base + t * cache_K.stride(1);
       // scalar4<scalar_t> k_thread;
-      k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
+      load_v<decltype(k_), data_vec4_t>(k_, lane_idx, &k_loads[ttt]);
     }
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
@@ -207,7 +210,7 @@ efficient_attention_forward_decoder_ck_kernel(
         // &(cache_K[b][t][0][0]);
         auto* k_ = cache_K_base + t * cache_K.stride(1);
         // scalar4<scalar_t> k_thread;
-        k_loads[ttt] = load_v<decltype(k_), data_vec4_t>(k_, lane_idx);
+        load_v<decltype(k_), data_vec4_t>(k_, lane_idx, &k_loads[ttt]);
       }
     }
 #pragma unroll n_loop_unroll_tail
@@ -284,7 +287,7 @@ efficient_attention_forward_decoder_ck_kernel(
       // &(cache_V[b][t][0][0]);
       auto* v_ = cache_V_base + t * cache_V.stride(1);
       //   scalar4<scalar_t> v_thread;
-      k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, lane_idx);
+      load_v<decltype(v_), data_vec4_t>(v_, lane_idx, &k_loads[ttt]);
 
       ps[ttt] = smem[t];
     }
@@ -303,7 +306,7 @@ efficient_attention_forward_decoder_ck_kernel(
         // &(cache_V[b][t][0][0]);
         auto* v_ = cache_V_base + t * cache_V.stride(1);
         //   scalar4<scalar_t> v_thread;
-        k_loads[ttt] = load_v<decltype(v_), data_vec4_t>(v_, lane_idx);
+        load_v<decltype(v_), data_vec4_t>(v_, lane_idx, &k_loads[ttt]);
 
         ps[ttt] = smem[t];
       }
@@ -329,7 +332,8 @@ efficient_attention_forward_decoder_ck_kernel(
   if (wavefront_idx == 0) {
     ck::float4_t r = 0;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      auto partial_r = load_v<float*, ck::float4_t>(smem, w * threads_per_wavefront + lane_idx);
+      ck::float4_t partial_r; 
+      load_v<float*, ck::float4_t>(smem, w * threads_per_wavefront + lane_idx, &partial_r);
       r += partial_r;
     }
     // write output D row

From d901f9a107903e76371e9358449568a9147ec143 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 10 Oct 2023 23:52:13 -0400
Subject: [PATCH 161/837] modify the benchmark to compare decoder kernel
 runtimes

```
[----------------------- attention ------------------------]
                                  |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------
      3batch-1keys-8heads-mq      |    125.5  |       79.4
      3batch-1keys-8heads         |    127.8  |       70.9
      3batch-1keys-16heads-mq     |    127.6  |       77.4
      3batch-1keys-16heads        |    129.0  |       72.1
      3batch-1keys-64heads-mq     |    170.4  |       77.6
      3batch-1keys-64heads        |    173.5  |       70.1
      500batch-7keys-8heads-mq    |   2849.8  |      255.0
      500batch-7keys-8heads       |   3022.9  |      235.8
      500batch-7keys-16heads-mq   |   5422.8  |      502.0
      500batch-7keys-16heads      |   5867.3  |      465.0
      500batch-7keys-64heads-mq   |  21003.5  |     1995.6
      500batch-7keys-64heads      |  23075.1  |     1947.1
      2batch-543keys-8heads-mq    |    539.7  |       78.6
      2batch-543keys-8heads       |    558.4  |       71.7
      2batch-543keys-16heads-mq   |    545.3  |       79.2
      2batch-543keys-16heads      |    600.0  |       71.1
      2batch-543keys-64heads-mq   |    556.7  |       78.3
      2batch-543keys-64heads      |    662.9  |       94.3
      1batch-5543keys-8heads-mq   |   4807.0  |      347.2
      1batch-5543keys-8heads      |   5029.2  |      398.2
      1batch-5543keys-16heads-mq  |   4802.6  |      346.1
      1batch-5543keys-16heads     |   5111.3  |      397.8
      1batch-5543keys-64heads-mq  |   4955.1  |      348.5
      1batch-5543keys-64heads     |   5070.0  |      444.9
      32batch-103keys-8heads-mq   |    470.2  |       78.1
      32batch-103keys-8heads      |    513.0  |       70.6
      32batch-103keys-16heads-mq  |    772.3  |      252.3
      32batch-103keys-16heads     |    875.5  |      223.8
      32batch-103keys-64heads-mq  |   2419.5  |      305.6
      32batch-103keys-64heads     |   2802.3  |      465.9
      4batch-1127keys-8heads-mq   |   1314.7  |      254.0
      4batch-1127keys-8heads      |   1428.8  |      217.0
      4batch-1127keys-16heads-mq  |   1330.8  |      245.4
      4batch-1127keys-16heads     |   1426.2  |      222.5
      4batch-1127keys-64heads-mq  |   2394.7  |      270.5
      4batch-1127keys-64heads     |   2899.2  |      371.0
      1batch-7271keys-8heads-mq   |   6410.9  |      475.9
      1batch-7271keys-8heads      |   6556.4  |      517.3
      1batch-7271keys-16heads-mq  |   6397.3  |      476.0
      1batch-7271keys-16heads     |   6744.6  |      518.9
      1batch-7271keys-64heads-mq  |   6500.3  |      478.3
      1batch-7271keys-64heads     |   6800.2  |      582.4

Times are in microseconds (us).

[----------------- cuda graphed attention -----------------]
                                  |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------
      3batch-1keys-8heads-mq      |    126.2  |       11.8
      3batch-1keys-8heads         |    128.8  |       11.8
      3batch-1keys-16heads-mq     |    127.9  |       11.8
      3batch-1keys-16heads        |    129.6  |       11.8
      3batch-1keys-64heads-mq     |    169.1  |       15.6
      3batch-1keys-64heads        |    174.0  |       15.7
      500batch-7keys-8heads-mq    |   2842.7  |      259.5
      500batch-7keys-8heads       |   3015.9  |      239.6
      500batch-7keys-16heads-mq   |   5417.3  |      506.5
      500batch-7keys-16heads      |   5909.0  |      468.4
      500batch-7keys-64heads-mq   |  20944.0  |     1999.1
      500batch-7keys-64heads      |  22998.4  |     1949.0
      2batch-543keys-8heads-mq    |    542.8  |       43.7
      2batch-543keys-8heads       |    558.2  |       46.1
      2batch-543keys-16heads-mq   |    538.5  |       43.8
      2batch-543keys-16heads      |    600.9  |       51.7
      2batch-543keys-64heads-mq   |    555.5  |       79.2
      2batch-543keys-64heads      |    662.1  |       98.7
      1batch-5543keys-8heads-mq   |   4807.8  |      351.3
      1batch-5543keys-8heads      |   5026.5  |      402.8
      1batch-5543keys-16heads-mq  |   4830.3  |      351.1
      1batch-5543keys-16heads     |   5111.1  |      402.2
      1batch-5543keys-64heads-mq  |   4955.5  |      352.8
      1batch-5543keys-64heads     |   5065.7  |      448.1
      32batch-103keys-8heads-mq   |    468.5  |       53.2
      32batch-103keys-8heads      |    516.0  |       65.0
      32batch-103keys-16heads-mq  |    774.0  |       88.0
      32batch-103keys-16heads     |    868.5  |      107.6
      32batch-103keys-64heads-mq  |   2411.4  |      310.5
      32batch-103keys-64heads     |   2794.5  |      471.8
      4batch-1127keys-8heads-mq   |   1313.4  |       97.8
      4batch-1127keys-8heads      |   1409.5  |      115.3
      4batch-1127keys-16heads-mq  |   1317.5  |       97.0
      4batch-1127keys-16heads     |   1413.1  |      118.4
      4batch-1127keys-64heads-mq  |   2378.3  |      274.9
      4batch-1127keys-64heads     |   2837.8  |      374.8
      1batch-7271keys-8heads-mq   |   6370.9  |      480.2
      1batch-7271keys-8heads      |   6534.8  |      521.9
      1batch-7271keys-16heads-mq  |   6450.0  |      484.1
      1batch-7271keys-16heads     |   6792.5  |      521.5
      1batch-7271keys-64heads-mq  |   6477.8  |      482.2
      1batch-7271keys-64heads     |   6588.6  |      586.3

Times are in microseconds (us).

```
---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index d63c798339..e37db17b91 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -60,6 +60,7 @@ def T(t):
 
 OPS = [
     xformers.ops.fmha.ck.FwOp,
+    xformers.ops.fmha.ck_decoder.FwOp
 ]
 
 KV_SHAPES = [
@@ -99,7 +100,7 @@ def mem_eff_attention_decoder(
     n_keys, padding, B = kv_shape
     torch.manual_seed(42)
     k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
-    K = 128
+    K = 256
 
     q = torch.rand(1, B, n_heads, K, device=device, dtype=torch.bfloat16)
     if multiquery:

From 84170deb0d5443e3da451a974c1cc13a8965844d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Oct 2023 00:47:50 -0400
Subject: [PATCH 162/837] clang-format

---
 .../hip_fmha/attention_forward_decoder.cpp    | 287 ++++++++++--------
 1 file changed, 157 insertions(+), 130 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 0a1363166a..0e879f9ff5 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -1,33 +1,36 @@
-/* 
+/*
   TODO: license header
 */
 
 // #include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/inner_product.hpp>
-#include <c10/cuda/CUDAStream.h>
-#include <torch/library.h>
 #include <ATen/Dispatch.h>
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
+#include <c10/cuda/CUDAStream.h>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/inner_product.hpp>
+#include <torch/library.h>
 
 namespace ck {
 template <>
-__device__ void inner_product<bhalf_t, bhalf_t, float>(const bhalf_t& a, const bhalf_t& b, float& c)
-{
-    inner_product(type_convert<float>(a), type_convert<float>(b), c);
+__device__ void inner_product<bhalf_t, bhalf_t, float>(
+    const bhalf_t& a,
+    const bhalf_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
 }
 
 template <>
-__device__ void inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, const bhalf4_t& b, float& c)
-{
-    const vector_type<bhalf_t, 4> a_vector{a};
-    const vector_type<bhalf_t, 4> b_vector{b};
-    ck::static_for<0, 4, 1>{}([&] (auto i) {
-      inner_product(a_vector.AsType<bhalf_t>()[i],
-                    b_vector.AsType<bhalf_t>()[i],
-                    c);
-    });
+__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
+    const bhalf4_t& a,
+    const bhalf4_t& b,
+    float& c) {
+  const vector_type<bhalf_t, 4> a_vector{a};
+  const vector_type<bhalf_t, 4> b_vector{b};
+  ck::static_for<0, 4, 1>{}([&](auto i) {
+    inner_product(
+        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+  });
 }
 } // namespace ck
 
@@ -38,42 +41,43 @@ constexpr int32_t kWavefrontsPerBlock = 8;
 constexpr int32_t D_H = 256;
 constexpr int32_t T_MAX = 8192;
 
-template<typename c10_t>
+template <typename c10_t>
 struct c10_to_data_t;
 
-template<>
+template <>
 struct c10_to_data_t<float> {
-    using type = float;
-    using vec4 = ck::float4_t;
+  using type = float;
+  using vec4 = ck::float4_t;
 };
 
-template<>
+template <>
 struct c10_to_data_t<c10::Half> {
-    using type = ck::half_t;
-    using vec4 = ck::half4_t;
+  using type = ck::half_t;
+  using vec4 = ck::half4_t;
 };
 
-template<>
+template <>
 struct c10_to_data_t<c10::BFloat16> {
-    using type = ck::bhalf_t;
-    using vec4 = ck::bhalf4_t;
+  using type = ck::bhalf_t;
+  using vec4 = ck::bhalf4_t;
 };
 
-template<typename data4_t>
-__device__
-ck::float4_t scalar4_scale_acc(ck::float4_t acc, data4_t a, float b);
+template <typename data4_t>
+__device__ ck::float4_t scalar4_scale_acc(ck::float4_t acc, data4_t a, float b);
 
-template<>
-__device__  
-ck::float4_t
-scalar4_scale_acc<ck::float4_t>(ck::float4_t acc, ck::float4_t a, float b) {
+template <>
+__device__ ck::float4_t scalar4_scale_acc<ck::float4_t>(
+    ck::float4_t acc,
+    ck::float4_t a,
+    float b) {
   return acc + a * b;
 }
 
-template<>
-__device__  
-ck::float4_t
-scalar4_scale_acc<ck::half4_t>(ck::float4_t acc, ck::half4_t a, float b) {
+template <>
+__device__ ck::float4_t scalar4_scale_acc<ck::half4_t>(
+    ck::float4_t acc,
+    ck::half4_t a,
+    float b) {
   acc.x += ck::type_convert<float>(a.x) * b;
   acc.y += ck::type_convert<float>(a.y) * b;
   acc.z += ck::type_convert<float>(a.z) * b;
@@ -81,10 +85,11 @@ scalar4_scale_acc<ck::half4_t>(ck::float4_t acc, ck::half4_t a, float b) {
   return acc;
 }
 
-template<>
-__device__  
-ck::float4_t
-scalar4_scale_acc<ck::bhalf4_t>(ck::float4_t acc, ck::bhalf4_t a, float b) {
+template <>
+__device__ ck::float4_t scalar4_scale_acc<ck::bhalf4_t>(
+    ck::float4_t acc,
+    ck::bhalf4_t a,
+    float b) {
   acc.x += ck::type_convert<float>(a.x) * b;
   acc.y += ck::type_convert<float>(a.y) * b;
   acc.z += ck::type_convert<float>(a.z) * b;
@@ -93,8 +98,7 @@ scalar4_scale_acc<ck::bhalf4_t>(ck::float4_t acc, ck::bhalf4_t a, float b) {
 }
 
 template <typename F>
-float
-__device__ __forceinline__ wavefrontReduce(float val, F f) {
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
 #pragma unroll
   for (int32_t mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
     val = f(__shfl_xor(val, mask, kThreadsPerWavefront), val);
@@ -103,28 +107,33 @@ __device__ __forceinline__ wavefrontReduce(float val, F f) {
 }
 
 template <typename TDataPtr, typename TDataVec>
-__forceinline__
-__device__ void load_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec* load_to) {
-   *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+__forceinline__ __device__ void load_v(
+    TDataPtr data_ptr,
+    int32_t vector_offset,
+    TDataVec* load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TDataPtr, typename TDataVec>
-__forceinline__
-__device__ void store_v(TDataPtr data_ptr, int32_t vector_offset, TDataVec value) {
+__forceinline__ __device__ void store_v(
+    TDataPtr data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
   *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
-template<typename scalar_t, int32_t n_loop_unroll = 4, int32_t n_loop_unroll_tail = 2>
-__global__ void
-efficient_attention_forward_decoder_ck_kernel(
+template <
+    typename scalar_t,
+    int32_t n_loop_unroll = 4,
+    int32_t n_loop_unroll_tail = 2>
+__global__ void efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
     at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K,
     at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V,
     at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O,
     at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
-    const float qk_scale
-) {
-  static_assert (n_loop_unroll_tail < n_loop_unroll, "");
+    const float qk_scale) {
+  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
   constexpr int32_t seq_positions_shift = 0;
 
@@ -142,8 +151,10 @@ efficient_attention_forward_decoder_ck_kernel(
   const int32_t wavefront_idx = threadIdx.y;
   const int32_t threads_per_wavefront = blockDim.x;
   const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block = threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx = lane_idx + wavefront_idx * threads_per_wavefront;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
 
   // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
   const auto* q_ = &(XQ[b][0][h][0]);
@@ -168,8 +179,7 @@ efficient_attention_forward_decoder_ck_kernel(
   data_vec4_t k_loads[n_loop_unroll];
 
   const auto dtt = wavefronts_per_block * n_loop_unroll;
-  const int32_t t_max_unroll =
-    (t_max / dtt) * dtt;
+  const int32_t t_max_unroll = (t_max / dtt) * dtt;
 
   for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
 #pragma unroll n_loop_unroll
@@ -185,12 +195,11 @@ efficient_attention_forward_decoder_ck_kernel(
       float qk_acc = 0;
       const int32_t t = tt + ttt;
 
-      ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
-                                                         k_loads[ttt], 
-                                                         qk_acc);
+      ck::inner_product<data_vec4_t, data_vec4_t, float>(
+          q_thread, k_loads[ttt], qk_acc);
       qk_acc *= qk_scale;
 
-      qk_acc = wavefrontReduce(qk_acc, [] (float a, float b) { return a + b; });
+      qk_acc = wavefrontReduce(qk_acc, [](float a, float b) { return a + b; });
       max_qk_acc = max(qk_acc, max_qk_acc);
 
       // write accumulated sums to smem.
@@ -218,12 +227,12 @@ efficient_attention_forward_decoder_ck_kernel(
       float qk_acc = 0;
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        ck::inner_product<data_vec4_t, data_vec4_t, float>(q_thread, 
-                                                          k_loads[ttt], 
-                                                          qk_acc);
+        ck::inner_product<data_vec4_t, data_vec4_t, float>(
+            q_thread, k_loads[ttt], qk_acc);
         qk_acc *= qk_scale;
 
-        qk_acc = wavefrontReduce(qk_acc, [] (float a, float b) { return a + b; });
+        qk_acc =
+            wavefrontReduce(qk_acc, [](float a, float b) { return a + b; });
         max_qk_acc = max(qk_acc, max_qk_acc);
 
         // write accumulated sums to smem.
@@ -244,27 +253,30 @@ efficient_attention_forward_decoder_ck_kernel(
     max_qk_acc = max(max_qk_acc, smem[T_MAX + lane_idx]);
   }
   // shared across all threads in block
-  max_qk_acc = wavefrontReduce(max_qk_acc, [] (float a, float b) { return a > b ? a : b; });
+  max_qk_acc = wavefrontReduce(
+      max_qk_acc, [](float a, float b) { return a > b ? a : b; });
 
   // each wavefront computes partial sum of exp.
   float softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     softmax_denominator += expf(smem[t] - max_qk_acc);
   }
-  softmax_denominator = wavefrontReduce(softmax_denominator, [] (float a, float b) { return a + b; });
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](float a, float b) { return a + b; });
 
   __syncthreads();
   if (lane_idx == 0) {
     smem[T_MAX + wavefront_idx] = softmax_denominator;
   }
   __syncthreads();
-  
+
   // now, compute sum of exp(x - max(x)) over all intermediate results.
   softmax_denominator = 0.0;
   if (lane_idx < wavefronts_per_block) {
     softmax_denominator = smem[T_MAX + lane_idx];
   }
-  softmax_denominator = wavefrontReduce(softmax_denominator, [] (float a, float b) { return a + b; });
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](float a, float b) { return a + b; });
 
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
@@ -298,7 +310,8 @@ efficient_attention_forward_decoder_ck_kernel(
     }
   }
 
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max; tt += wavefronts_per_block * n_loop_unroll_tail) {
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+       tt += wavefronts_per_block * n_loop_unroll_tail) {
 #pragma unroll n_loop_unroll_tail
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
@@ -323,8 +336,8 @@ efficient_attention_forward_decoder_ck_kernel(
   // now, each thread has partial sums. Write to smem and get accumulated
   // results back.
   __syncthreads();
-  
-  // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock 
+
+  // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
   store_v<float*, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
 
   __syncthreads();
@@ -332,8 +345,9 @@ efficient_attention_forward_decoder_ck_kernel(
   if (wavefront_idx == 0) {
     ck::float4_t r = 0;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      ck::float4_t partial_r; 
-      load_v<float*, ck::float4_t>(smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      ck::float4_t partial_r;
+      load_v<float*, ck::float4_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
       r += partial_r;
     }
     // write output D row
@@ -347,11 +361,11 @@ efficient_attention_forward_decoder_ck_kernel(
   }
 }
 
-void update_max_dynamic_shared_memory_size_bytes(void* kernel_func, int32_t new_value) {
+void update_max_dynamic_shared_memory_size_bytes(
+    void* kernel_func,
+    int32_t new_value) {
   hipFuncAttributes attributes;
-  C10_CUDA_CHECK(hipFuncGetAttributes(
-      &attributes, 
-      kernel_func));
+  C10_CUDA_CHECK(hipFuncGetAttributes(&attributes, kernel_func));
 
   const auto default_value = attributes.maxDynamicSharedSizeBytes;
 
@@ -359,32 +373,29 @@ void update_max_dynamic_shared_memory_size_bytes(void* kernel_func, int32_t new_
 
   if (new_value > default_value) {
     C10_CUDA_CHECK(hipFuncSetAttribute(
-        kernel_func,
-        hipFuncAttributeMaxDynamicSharedMemorySize,
-        new_value));
+        kernel_func, hipFuncAttributeMaxDynamicSharedMemorySize, new_value));
   }
 }
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__) \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__) \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__) 
-  
-#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                               \
-      TYPE,                                                         \
-      NAME,                                                         \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
       AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
 
-template<int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor
-efficient_attention_forward_decoder_ck_impl(
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_ck_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
     const at::Tensor& seq_positions, // [B]
     double qk_scale) {
-
   static_assert(4 * ThreadsPerWavefront == D_H, "");
   static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
 
@@ -405,42 +416,47 @@ efficient_attention_forward_decoder_ck_impl(
   dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
   int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = D_H * sizeof(float) * threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  int32_t smem_output = D_H * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
   int32_t smem_size = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
-  AT_DISPATCH_SWITCH_3(at::ScalarType::Half, at::ScalarType::BFloat16, at::ScalarType::Float, 
-    XQ.scalar_type(), "efficient_attention_forward_decoder_ck", [&] {
-      auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
-      update_max_dynamic_shared_memory_size_bytes(reinterpret_cast<void*&>(kernel), smem_size);
-      kernel
-          <<<blocks, threads, smem_size, stream>>>(
-              XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-              cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-              cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-              O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-              seq_positions
-                  .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
-              qk_scale);
-      C10_CUDA_KERNEL_LAUNCH_CHECK();
-  });
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_ck",
+      [&] {
+        auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
+        update_max_dynamic_shared_memory_size_bytes(
+            reinterpret_cast<void*&>(kernel), smem_size);
+        kernel<<<blocks, threads, smem_size, stream>>>(
+            XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+            cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+            cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+            O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+            seq_positions
+                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
+            qk_scale);
+        C10_CUDA_KERNEL_LAUNCH_CHECK();
+      });
 
   return O;
-}  
+}
 
 #undef AT_DISPATCH_CASE_3
 #undef AT_DISPATCH_SWITCH_3
 
-at::Tensor
-efficient_attention_forward_decoder_ck(
+at::Tensor efficient_attention_forward_decoder_ck(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
     const at::Tensor& seq_positions, // [B]
     double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<kThreadsPerWavefront, kWavefrontsPerBlock> (
-    XQ, cache_K, cache_V, seq_positions, qk_scale
-  );
+  return efficient_attention_forward_decoder_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_positions, qk_scale);
 }
 } // namespace
 
@@ -464,11 +480,15 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 -I/xformers/xformers/csrc/attention/hip_fmha \
 -I/xformers/third_party/composable_kernel/include \
 -I/xformers/third_party/composable_kernel/include/ck \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device
+\
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl
+\
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element
+\
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include
+\
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/TH \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THC \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THH \
@@ -510,7 +530,9 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 -o a.out
 
 (3) run
- > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib ./a.out
+ >
+LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
+./a.out
 */
 
 int main(int argc, char** argv) {
@@ -518,10 +540,10 @@ int main(int argc, char** argv) {
   const int32_t B = 1;
   const int32_t H = 4;
   auto options = torch::TensorOptions()
-    .dtype(torch::kFloat32)
-    .layout(torch::kStrided)
-    .device(torch::kCUDA, 1)
-    .requires_grad(false);
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
   auto int_options = options.dtype(torch::kInt);
   auto XQ = at::randn({B, 1, H, D}, options);
   auto K = at::randn({B, 4096, H, D}, options);
@@ -529,11 +551,16 @@ int main(int argc, char** argv) {
   auto seq = at::randint(63, 128, {B}, int_options);
   double qk_scale = 1. / sqrt(D);
 
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
   auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
   return 0;
 }
 

From 5c6b572c0c5a7dec7bf99da191fb70edab876e92 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Oct 2023 13:21:53 -0400
Subject: [PATCH 163/837] refactor decoder benchmark

---
 .../benchmarks/benchmark_mem_eff_attn_decoder_ck.py   | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index e37db17b91..6d1422e65f 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -101,18 +101,19 @@ def mem_eff_attention_decoder(
     torch.manual_seed(42)
     k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
     K = 256
+    dtype = torch.float16
 
-    q = torch.rand(1, B, n_heads, K, device=device, dtype=torch.bfloat16)
+    q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
     if multiquery:
         k = torch.rand(
-            1, B * padding, 1, K, device=device, dtype=torch.bfloat16
+            1, B * padding, 1, K, device=device, dtype=dtype
         ).expand(1, B * padding, n_heads, K)
         v = torch.rand(
-            1, B * padding, 1, K, device=device, dtype=torch.bfloat16
+            1, B * padding, 1, K, device=device, dtype=dtype
         ).expand(1, B * padding, n_heads, K)
     else:
-        k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=torch.bfloat16)
-        v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=torch.bfloat16)
+        k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
+        v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
 
     bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
         q_seqlen=[1] * B,

From f2013d0a6c52532a5921726dd88e7cd4ae62552d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Oct 2023 14:51:02 -0400
Subject: [PATCH 164/837] rebase on ck-flashattn


From bd6ee76ffafe573b13a20ffb1a66f366fc0ac88d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Oct 2023 16:13:20 -0400
Subject: [PATCH 165/837] add a doc for the xformer op

---
 xformers/ops/fmha/ck_decoder.py | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 2c7d1ead8b..28db52eaa3 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -1,5 +1,4 @@
 # TODO(max): add a proper copyright header
-import math
 import torch
 
 from typing import Any, Set, List, Tuple, Optional
@@ -9,10 +8,14 @@
 
 @register_operator
 class FwOp(AttentionFwOpBase):
+    """
+    An operator optimized for K=256 (so the contiguous dim fits into registers).
+    Tested to work on MI250x.
+    """
     OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16, torch.float}
-    SUPPORTED_MAX_K: float = 256
+    SUPPORTED_MAX_K: int = 256
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {BlockDiagonalCausalWithOffsetPaddedKeysMask}
     SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
@@ -31,8 +34,8 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             if d.query.shape[0] != 1:
                 reasons.append("One formal batch element expected")
 
-            if d.query.shape[-1] != 256:
-                reasons.append("Only head_dim==256 for now.")
+            if d.query.shape[-1] != cls.SUPPORTED_MAX_K:
+                reasons.append(f"Got head_dim={d.query.shape[-1]}; only head_dim=={cls.SUPPORTED_MAX_K} is supported for now.")
 
             if d.key.stride(-1) != 1:
                 reasons.append("expect keys to have last dim contiguous")
@@ -79,7 +82,7 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = 1.0 / math.sqrt(key.shape[-1])
+            qk_scale = torch.rsqrt(torch.tensor(key.shape[-1], dtype=torch.float32))
 
         out = cls.OPERATOR(
             query=query,

From a1552f8ddf742017c19b54726b585f3ef968cbb0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Oct 2023 17:01:12 -0400
Subject: [PATCH 166/837] simplify K/V loads

---
 .../hip_fmha/attention_forward_decoder.cpp    | 31 ++++++++-----------
 1 file changed, 13 insertions(+), 18 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 0e879f9ff5..60e07e1874 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -185,10 +185,9 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
-      // &(cache_K[b][t][0][0]);
-      auto* k_ = cache_K_base + t * cache_K.stride(1);
-      // scalar4<scalar_t> k_thread;
-      load_v<decltype(k_), data_vec4_t>(k_, lane_idx, &k_loads[ttt]);
+      // load the K[b][t][h|0][:] row into registers
+      load_v<decltype(cache_K_base), data_vec4_t>(
+          cache_K_base + t * cache_K.stride(1), lane_idx, &k_loads[ttt]);
     }
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
@@ -216,10 +215,9 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        // &(cache_K[b][t][0][0]);
-        auto* k_ = cache_K_base + t * cache_K.stride(1);
-        // scalar4<scalar_t> k_thread;
-        load_v<decltype(k_), data_vec4_t>(k_, lane_idx, &k_loads[ttt]);
+        // load the K[b][t][h|0][:] row into registers
+        load_v<decltype(cache_K_base), data_vec4_t>(
+            cache_K_base + t * cache_K.stride(1), lane_idx, &k_loads[ttt]);
       }
     }
 #pragma unroll n_loop_unroll_tail
@@ -296,11 +294,9 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
-      // &(cache_V[b][t][0][0]);
-      auto* v_ = cache_V_base + t * cache_V.stride(1);
-      //   scalar4<scalar_t> v_thread;
-      load_v<decltype(v_), data_vec4_t>(v_, lane_idx, &k_loads[ttt]);
-
+      // load the V[b][t][h|0][:] row into registers, reusing K register storage
+      load_v<decltype(cache_V_base), data_vec4_t>(
+          cache_V_base + t * cache_V.stride(1), lane_idx, &k_loads[ttt]);
       ps[ttt] = smem[t];
     }
 
@@ -316,11 +312,10 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        // &(cache_V[b][t][0][0]);
-        auto* v_ = cache_V_base + t * cache_V.stride(1);
-        //   scalar4<scalar_t> v_thread;
-        load_v<decltype(v_), data_vec4_t>(v_, lane_idx, &k_loads[ttt]);
-
+        // load the V[b][t][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<decltype(cache_V_base), data_vec4_t>(
+            cache_V_base + t * cache_V.stride(1), lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
     }

From 185e12b6491552cafa6ec2328a0a6faa27085804 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 16 Oct 2023 19:00:05 -0400
Subject: [PATCH 167/837] reset the cache before running each iteration

when introspecting the hardware counters for the benchmarked kernels,
I noticed there is no global memory traffic when the input shape is small.

Meaning, *probably* the inputs are fetched from cache.

To make benchmarking more authentic, I added a gpu memory slab fill for each iteration.

I also benchmarked it separately, so we can mentally adjust the op iteration time by the slab-fill iteration time

See also: https://stackoverflow.com/a/34461372

Results (note how for large input shapes the new reported results adjusted by slab fill time are about same as previous,
while for small input shapes the new times are larger, due to cache reset):
```
Times are in microseconds (us).

[-------- reset cache ---------]
                      |  elapsed
1 threads: ---------------------
      mem_slab.fill_  |   158.0

Times are in microseconds (us).

[----------------------- attention ------------------------]
                                  |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------
      3batch-1keys-8heads-mq      |    245.8  |      462.3
      3batch-1keys-8heads         |    248.7  |      467.0
      3batch-1keys-16heads-mq     |    247.5  |      464.2
      3batch-1keys-16heads        |    248.8  |      479.4
      3batch-1keys-64heads-mq     |    325.2  |      462.8
      3batch-1keys-64heads        |    335.1  |      473.3
      500batch-7keys-8heads-mq    |   3197.7  |      491.7
      500batch-7keys-8heads       |   3265.6  |      468.3
      500batch-7keys-16heads-mq   |   5731.2  |      742.2
      500batch-7keys-16heads      |   6021.8  |      688.4
      500batch-7keys-64heads-mq   |  21145.3  |     2193.9
      500batch-7keys-64heads      |  22591.7  |     2141.0
      2batch-543keys-8heads-mq    |    496.0  |      511.7
      2batch-543keys-8heads       |    501.1  |      506.8
      2batch-543keys-16heads-mq   |    492.4  |      492.7
      2batch-543keys-16heads      |    505.9  |      514.5
      2batch-543keys-64heads-mq   |    573.2  |      479.8
      2batch-543keys-64heads      |    635.8  |      459.3
      1batch-5543keys-8heads-mq   |   2927.1  |      630.6
      1batch-5543keys-8heads      |   2922.0  |      619.0
      1batch-5543keys-16heads-mq  |   2924.4  |      629.8
      1batch-5543keys-16heads     |   2962.2  |      620.5
      1batch-5543keys-64heads-mq  |   3516.0  |      633.2
      1batch-5543keys-64heads     |   4156.4  |      662.9
      32batch-103keys-8heads-mq   |    583.4  |      528.1
      32batch-103keys-8heads      |    613.2  |      453.7
      32batch-103keys-16heads-mq  |    853.7  |      470.3
      32batch-103keys-16heads     |    904.1  |      406.7
      32batch-103keys-64heads-mq  |   2523.5  |      548.2
      32batch-103keys-64heads     |   2826.9  |      703.5
      4batch-1127keys-8heads-mq   |    908.7  |      442.7
      4batch-1127keys-8heads      |    941.9  |      358.0
      4batch-1127keys-16heads-mq  |    983.6  |      415.8
      4batch-1127keys-16heads     |   1125.7  |      403.0
      4batch-1127keys-64heads-mq  |   2407.6  |      519.4
      4batch-1127keys-64heads     |   2760.2  |      600.4
      1batch-7271keys-8heads-mq   |   3742.3  |      751.4
      1batch-7271keys-8heads      |   3735.1  |      736.2
      1batch-7271keys-16heads-mq  |   3738.9  |      749.4
      1batch-7271keys-16heads     |   3786.2  |      739.9
      1batch-7271keys-64heads-mq  |   4510.4  |      755.3
      1batch-7271keys-64heads     |   5336.9  |      801.0

Times are in microseconds (us).

[----------------- cuda graphed attention -----------------]
                                  |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------
      3batch-1keys-8heads-mq      |    250.3  |      266.0
      3batch-1keys-8heads         |    248.5  |      271.5
      3batch-1keys-16heads-mq     |    249.1  |      289.6
      3batch-1keys-16heads        |    249.2  |      292.1
      3batch-1keys-64heads-mq     |    325.8  |      295.4
      3batch-1keys-64heads        |    329.9  |      276.3
      500batch-7keys-8heads-mq    |   3192.3  |      501.5
      500batch-7keys-8heads       |   3296.0  |      481.7
      500batch-7keys-16heads-mq   |   5722.4  |      745.7
      500batch-7keys-16heads      |   6008.1  |      698.7
      500batch-7keys-64heads-mq   |  21090.6  |     2202.3
      500batch-7keys-64heads      |  22540.3  |     2185.5
      2batch-543keys-8heads-mq    |    493.0  |      292.8
      2batch-543keys-8heads       |    502.2  |      301.1
      2batch-543keys-16heads-mq   |    491.9  |      299.8
      2batch-543keys-16heads      |    505.5  |      301.6
      2batch-543keys-64heads-mq   |    573.9  |      328.2
      2batch-543keys-64heads      |    635.6  |      337.4
      1batch-5543keys-8heads-mq   |   2929.3  |      641.1
      1batch-5543keys-8heads      |   2926.9  |      629.2
      1batch-5543keys-16heads-mq  |   2927.8  |      647.6
      1batch-5543keys-16heads     |   2964.9  |      629.7
      1batch-5543keys-64heads-mq  |   3519.0  |      643.6
      1batch-5543keys-64heads     |   4159.2  |      677.6
      32batch-103keys-8heads-mq   |    582.8  |      306.5
      32batch-103keys-8heads      |    612.1  |      305.6
      32batch-103keys-16heads-mq  |    844.8  |      331.3
      32batch-103keys-16heads     |    900.9  |      351.3
      32batch-103keys-64heads-mq  |   2522.5  |      553.4
      32batch-103keys-64heads     |   2827.7  |      711.1
      4batch-1127keys-8heads-mq   |    908.4  |      353.5
      4batch-1127keys-8heads      |    941.3  |      352.2
      4batch-1127keys-16heads-mq  |    984.4  |      351.6
      4batch-1127keys-16heads     |   1126.7  |      359.0
      4batch-1127keys-64heads-mq  |   2407.5  |      529.3
      4batch-1127keys-64heads     |   2759.1  |      618.0
      1batch-7271keys-8heads-mq   |   3742.9  |      767.3
      1batch-7271keys-8heads      |   3738.6  |      743.1
      1batch-7271keys-16heads-mq  |   3746.6  |      758.8
      1batch-7271keys-16heads     |   3793.3  |      748.5
      1batch-7271keys-64heads-mq  |   4510.7  |      764.6
      1batch-7271keys-64heads     |   5347.4  |      812.6

Times are in microseconds (us).
```
---
 .../benchmark_mem_eff_attn_decoder_ck.py       | 18 +++++++++++++++++-
 1 file changed, 17 insertions(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index 6d1422e65f..5870319ba7 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -125,7 +125,21 @@ def mem_eff_attention_decoder(
     if multiquery:
         sub_label += "-mq"
 
+    cache_size = 128 * 2 ** 20
+    mem_slab = torch.zeros(cache_size, device=device, dtype=torch.uint8)
+    cache_reset_str = "mem_slab.fill_(42)"
+
     has_run = False
+
+    yield benchmark.Timer(
+        stmt=cache_reset_str,
+        globals={"mem_slab": mem_slab},
+        label="reset cache",
+        sub_label="mem_slab.fill_",
+        num_threads=num_threads,
+        description="elapsed",
+    )
+
     for fw_op in OPS:
         inp = fmha.Inputs(q, k, v, attn_bias=bias)
         if (skip_reasons := fw_op.not_supported_reasons(inp)):
@@ -135,13 +149,14 @@ def mem_eff_attention_decoder(
         fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
 
         yield benchmark.Timer(
-            stmt="fn(q, k, v, attn_bias)",
+            stmt=f"{cache_reset_str};fn(q, k, v, attn_bias)",
             globals={
                 "q": q,
                 "k": k,
                 "v": v,
                 "attn_bias": bias,
                 "fn": fn,
+                "mem_slab": mem_slab,
             },
             label="attention",
             description=fw_op.NAME,
@@ -151,6 +166,7 @@ def mem_eff_attention_decoder(
 
         graph = torch.cuda.CUDAGraph()
         with torch.cuda.graph(graph):
+            exec(cache_reset_str, {"mem_slab": mem_slab})
             fn(q, k, v, bias)
         yield benchmark.Timer(
             stmt="graph.replay()",

From 1745b0c05183888d206bcde7d7c7c7850bdcfff4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 16 Oct 2023 19:19:33 -0400
Subject: [PATCH 168/837] clean up a hardcoded constant

---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 60e07e1874..f6635bb98e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -38,7 +38,7 @@ namespace {
 
 constexpr int32_t kThreadsPerWavefront = 64;
 constexpr int32_t kWavefrontsPerBlock = 8;
-constexpr int32_t D_H = 256;
+constexpr int32_t D_H = 4 * kThreadsPerWavefront;
 constexpr int32_t T_MAX = 8192;
 
 template <typename c10_t>

From 9324ac64050372598a1299d619469ad4f99beaee Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 16 Oct 2023 19:36:02 -0400
Subject: [PATCH 169/837] refactor the cache reset

---
 .../benchmark_mem_eff_attn_decoder_ck.py          | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index 5870319ba7..df197ec0f5 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -127,15 +127,16 @@ def mem_eff_attention_decoder(
 
     cache_size = 128 * 2 ** 20
     mem_slab = torch.zeros(cache_size, device=device, dtype=torch.uint8)
-    cache_reset_str = "mem_slab.fill_(42)"
+    def reset_cache():
+        mem_slab.fill_(42)
 
     has_run = False
 
     yield benchmark.Timer(
-        stmt=cache_reset_str,
-        globals={"mem_slab": mem_slab},
+        stmt="reset_cache()",
+        globals={"reset_cache": reset_cache},
         label="reset cache",
-        sub_label="mem_slab.fill_",
+        sub_label=f"fill {cache_size=}",
         num_threads=num_threads,
         description="elapsed",
     )
@@ -149,14 +150,14 @@ def mem_eff_attention_decoder(
         fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
 
         yield benchmark.Timer(
-            stmt=f"{cache_reset_str};fn(q, k, v, attn_bias)",
+            stmt=f"reset_cache();fn(q, k, v, attn_bias)",
             globals={
                 "q": q,
                 "k": k,
                 "v": v,
                 "attn_bias": bias,
                 "fn": fn,
-                "mem_slab": mem_slab,
+                "reset_cache": reset_cache,
             },
             label="attention",
             description=fw_op.NAME,
@@ -166,7 +167,7 @@ def mem_eff_attention_decoder(
 
         graph = torch.cuda.CUDAGraph()
         with torch.cuda.graph(graph):
-            exec(cache_reset_str, {"mem_slab": mem_slab})
+            reset_cache()
             fn(q, k, v, bias)
         yield benchmark.Timer(
             stmt="graph.replay()",

From f643c634ea79f99c60c7f86b50b864a52fe5b89e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 16 Oct 2023 23:56:00 -0400
Subject: [PATCH 170/837] add read and write sizes to benchmark labels

---
 .../benchmark_mem_eff_attn_decoder_ck.py           | 14 +++++++++++---
 1 file changed, 11 insertions(+), 3 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index df197ec0f5..0cb9ab3add 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -13,6 +13,7 @@
 
 import xformers.ops
 import xformers.ops.fmha as fmha
+import xformers.profiler.slow_ops_profiler
 
 torch.backends.cuda.matmul.allow_tf32 = False
 
@@ -125,7 +126,7 @@ def mem_eff_attention_decoder(
     if multiquery:
         sub_label += "-mq"
 
-    cache_size = 128 * 2 ** 20
+    cache_size = 512 * 2 ** 20
     mem_slab = torch.zeros(cache_size, device=device, dtype=torch.uint8)
     def reset_cache():
         mem_slab.fill_(42)
@@ -149,6 +150,13 @@ def reset_cache():
 
         fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
 
+        out = fn(q, k, v, attn_bias=bias, op=fw_op)
+        
+        inputs_size = xformers.profiler.slow_ops_profiler.get_size([q, k, v, bias])
+        outputs_size = xformers.profiler.slow_ops_profiler.get_size([out])
+
+        sizes_label = f"read-{inputs_size//1024}k-write-{outputs_size//1024}k"
+
         yield benchmark.Timer(
             stmt=f"reset_cache();fn(q, k, v, attn_bias)",
             globals={
@@ -161,7 +169,7 @@ def reset_cache():
             },
             label="attention",
             description=fw_op.NAME,
-            sub_label=sub_label,
+            sub_label=f"{sub_label}_{sizes_label}",
             num_threads=num_threads,
         )
 
@@ -176,7 +184,7 @@ def reset_cache():
             },
             label="cuda graphed attention",
             description=fw_op.NAME,
-            sub_label=sub_label,
+            sub_label=f"{sub_label}_{sizes_label}",
             num_threads=num_threads,
         )
 

From 0bb296f602327c977de6f97da956e2c665ce8a4b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 01:38:17 -0400
Subject: [PATCH 171/837] be more conservative about the slab size; otherwise,
 the memory fill run time starts dominating the benchmark and the significant
 digits are lost

---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index 0cb9ab3add..4f52c2b3ee 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -126,7 +126,7 @@ def mem_eff_attention_decoder(
     if multiquery:
         sub_label += "-mq"
 
-    cache_size = 512 * 2 ** 20
+    cache_size = 80 * 2 ** 20
     mem_slab = torch.zeros(cache_size, device=device, dtype=torch.uint8)
     def reset_cache():
         mem_slab.fill_(42)

From 5b97f186ec4ac4308466f4f3a60b131c5676f66b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 12:08:01 -0400
Subject: [PATCH 172/837] revert the cache reset in python benchmark

---
 .../benchmark_mem_eff_attn_decoder_ck.py       | 18 +-----------------
 1 file changed, 1 insertion(+), 17 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index 4f52c2b3ee..c28ce006de 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -126,22 +126,8 @@ def mem_eff_attention_decoder(
     if multiquery:
         sub_label += "-mq"
 
-    cache_size = 80 * 2 ** 20
-    mem_slab = torch.zeros(cache_size, device=device, dtype=torch.uint8)
-    def reset_cache():
-        mem_slab.fill_(42)
-
     has_run = False
 
-    yield benchmark.Timer(
-        stmt="reset_cache()",
-        globals={"reset_cache": reset_cache},
-        label="reset cache",
-        sub_label=f"fill {cache_size=}",
-        num_threads=num_threads,
-        description="elapsed",
-    )
-
     for fw_op in OPS:
         inp = fmha.Inputs(q, k, v, attn_bias=bias)
         if (skip_reasons := fw_op.not_supported_reasons(inp)):
@@ -158,14 +144,13 @@ def reset_cache():
         sizes_label = f"read-{inputs_size//1024}k-write-{outputs_size//1024}k"
 
         yield benchmark.Timer(
-            stmt=f"reset_cache();fn(q, k, v, attn_bias)",
+            stmt=f"fn(q, k, v, attn_bias)",
             globals={
                 "q": q,
                 "k": k,
                 "v": v,
                 "attn_bias": bias,
                 "fn": fn,
-                "reset_cache": reset_cache,
             },
             label="attention",
             description=fw_op.NAME,
@@ -175,7 +160,6 @@ def reset_cache():
 
         graph = torch.cuda.CUDAGraph()
         with torch.cuda.graph(graph):
-            reset_cache()
             fn(q, k, v, bias)
         yield benchmark.Timer(
             stmt="graph.replay()",

From ed5a8208c2515e50045ad4c72b6b8828650166fd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 14:19:38 -0400
Subject: [PATCH 173/837] add memory traffic to the label

---
 .../benchmark_mem_eff_attn_decoder_ck.py      | 29 +++++++++++++------
 1 file changed, 20 insertions(+), 9 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index c28ce006de..460279c7fe 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -94,6 +94,23 @@ def product_dict(**kwargs):
     )
 )
 
+def get_memory_traffic(op, q, k, v, bias):
+    # mem_size = ( batch_size * seq_len * 1 * dim_per_head * 2 (K/V) + 
+    #              batch_size * 1 * num_heads * dim_per_head (Q) + 
+    #              batch_size * seq_len * num_heads * dim_per_head (attn_output) ) * bytes_per_element
+    out = xformers.ops.memory_efficient_attention_forward(q, k, v, bias, op=op)
+    dtype = q.dtype
+    multiquery = k.stride(2) == 0
+    n_heads = q.shape[-2]
+    dim_per_head = q.shape[-1]
+    kv_seqlen = bias.k_seqinfo.seqlen_py
+    bytes_per_element = 4 if dtype is torch.float32 else 2 if dtype in (torch.float16, torch.bfloat16) else None
+    mem_size = 0
+    mem_size += q.numel() * bytes_per_element # Q
+    for s in kv_seqlen: # len(kv_seqlen) == batch_size
+        mem_size += s * (1 if multiquery else n_heads) * dim_per_head * bytes_per_element * 2 # K, V
+    mem_size += out.numel() * bytes_per_element # attn_output
+    return mem_size
 
 def mem_eff_attention_decoder(
     kv_shape, n_heads: int, num_threads: int, multiquery: bool
@@ -103,7 +120,6 @@ def mem_eff_attention_decoder(
     k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
     K = 256
     dtype = torch.float16
-
     q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
     if multiquery:
         k = torch.rand(
@@ -136,12 +152,7 @@ def mem_eff_attention_decoder(
 
         fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
 
-        out = fn(q, k, v, attn_bias=bias, op=fw_op)
-        
-        inputs_size = xformers.profiler.slow_ops_profiler.get_size([q, k, v, bias])
-        outputs_size = xformers.profiler.slow_ops_profiler.get_size([out])
-
-        sizes_label = f"read-{inputs_size//1024}k-write-{outputs_size//1024}k"
+        mem_size = get_memory_traffic(fw_op, q, k, v, bias)
 
         yield benchmark.Timer(
             stmt=f"fn(q, k, v, attn_bias)",
@@ -154,7 +165,7 @@ def mem_eff_attention_decoder(
             },
             label="attention",
             description=fw_op.NAME,
-            sub_label=f"{sub_label}_{sizes_label}",
+            sub_label=f"{sub_label}_{mem_size//1024}k",
             num_threads=num_threads,
         )
 
@@ -168,7 +179,7 @@ def mem_eff_attention_decoder(
             },
             label="cuda graphed attention",
             description=fw_op.NAME,
-            sub_label=f"{sub_label}_{sizes_label}",
+            sub_label=f"{sub_label}_{mem_size//1024}k",
             num_threads=num_threads,
         )
 

From c5470e4872945c047a9aa5dddd9183d8396f7461 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 16:07:14 -0400
Subject: [PATCH 174/837] modify standalone launch mode to accept input options

---
 .../hip_fmha/attention_forward_decoder.cpp    | 110 +++++++++++++++---
 1 file changed, 93 insertions(+), 17 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index f6635bb98e..a98fbe8047 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -385,12 +385,13 @@ void update_max_dynamic_shared_memory_size_bytes(
       AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
+at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
     const at::Tensor& seq_positions, // [B]
-    double qk_scale) {
+    double qk_scale,
+    at::Tensor& O) {
   static_assert(4 * ThreadsPerWavefront == D_H, "");
   static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
 
@@ -404,7 +405,6 @@ at::Tensor efficient_attention_forward_decoder_ck_impl(
   TORCH_CHECK(cache_K.size(1) <= T_MAX);
   TORCH_CHECK(cache_K.size(3) == D_H);
 
-  auto O = at::empty_like(XQ);
   auto B = XQ.size(0);
   auto H = XQ.size(2);
   dim3 blocks(B, H);
@@ -443,6 +443,20 @@ at::Tensor efficient_attention_forward_decoder_ck_impl(
 #undef AT_DISPATCH_CASE_3
 #undef AT_DISPATCH_SWITCH_3
 
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_ck_impl(
+    const at::Tensor& XQ, // [B, 1, H, D]
+    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+    const at::Tensor& seq_positions, // [B]
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  efficient_attention_forward_decoder_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
+    XQ, cache_K, cache_V, seq_positions, qk_scale, O
+  );
+  return O;
+}
+
 at::Tensor efficient_attention_forward_decoder_ck(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
@@ -475,15 +489,11 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 -I/xformers/xformers/csrc/attention/hip_fmha \
 -I/xformers/third_party/composable_kernel/include \
 -I/xformers/third_party/composable_kernel/include/ck \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device
-\
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl
-\
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element
-\
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include
-\
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/TH \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THC \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THH \
@@ -524,14 +534,17 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 -lamdhip64 \
 -o a.out
 
-(3) run
- >
-LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
-./a.out
+(3a) run correctness check
+ > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
+ ./a.out
+
+(3b) run specific input shape
+ > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
+ ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
 */
 
-int main(int argc, char** argv) {
-  const int32_t D = 256;
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
   const int32_t B = 1;
   const int32_t H = 4;
   auto options = torch::TensorOptions()
@@ -556,6 +569,69 @@ int main(int argc, char** argv) {
   printf(
       "Mismatched elements percentage: %.2f\n",
       1. - percent_match.item<float>());
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block" << std::endl;
+      return 0;
+    }
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32 : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+    
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                     .dtype(dtype)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);  
+    const auto Q = at::rand({1, batch_size, n_heads, dim_per_head}, options);
+    const auto K = multiquery 
+      ? at::rand({1, batch_size * padding, 1, dim_per_head}, options).expand({1, batch_size * padding, n_heads, dim_per_head})
+      : at::rand({1, batch_size * padding, 1, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::rand_like(Q);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, kWavefrontsPerBlock>) {};
+    
+    #define SWITCH_CASE_SET_CALLPTR(n) \
+    case (n): \
+      call_ptr = &efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, (n)>; \
+      break; 
+
+    switch(n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+    #undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block=" << n_wavefronts_per_block << std::endl;
+    }
+  }
   return 0;
 }
 

From aab1bb85876856eba813b0b30b00ec4c516b2cc3 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 16:43:16 -0400
Subject: [PATCH 175/837] set wavefronts per block to 16 as this seems to be
 strictly better than anything less

wpb=32 doesn't work because mi200 hardware doesn't support more than 1024 threads per block

```
Times are in microseconds (us).

[-------------------------- attention ---------------------------]
                                        |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------------
      3batch-1keys-8heads-mq_28k        |     96.4  |      109.4
      3batch-1keys-8heads_56k           |    109.4  |      103.2
      3batch-1keys-16heads-mq_52k       |    109.7  |      112.9
      3batch-1keys-16heads_112k         |    111.3  |      103.0
      3batch-1keys-64heads-mq_196k      |    166.6  |      114.1
      3batch-1keys-64heads_448k         |    169.5  |      103.5
      500batch-7keys-8heads-mq_12412k   |   2997.9  |      238.7
      500batch-7keys-8heads_71296k      |   3248.9  |      224.1
      500batch-7keys-16heads-mq_16412k  |   5496.0  |      472.3
      500batch-7keys-16heads_142592k    |   6113.5  |      441.1
      500batch-7keys-64heads-mq_40412k  |  21284.6  |     1889.1
      500batch-7keys-64heads_570368k    |  22773.1  |     1815.3
      2batch-543keys-8heads-mq_627k     |    332.3  |      110.2
      2batch-543keys-8heads_4904k       |    342.9  |      102.4
      2batch-543keys-16heads-mq_643k    |    333.3  |      109.5
      2batch-543keys-16heads_9808k      |    341.2  |      102.9
      2batch-543keys-64heads-mq_739k    |    413.6  |      110.2
      2batch-543keys-64heads_39232k     |    474.9  |      105.8
      1batch-5543keys-8heads-mq_5551k   |   2770.3  |      218.6
      1batch-5543keys-8heads_44352k     |   2772.2  |      246.4
      1batch-5543keys-16heads-mq_5559k  |   2768.3  |      217.7
      1batch-5543keys-16heads_88704k    |   2811.3  |      249.2
      1batch-5543keys-64heads-mq_5607k  |   3361.0  |      217.9
      1batch-5543keys-64heads_354816k   |   3997.4  |      313.5
      32batch-103keys-8heads-mq_4666k   |    421.7  |      111.1
      32batch-103keys-8heads_35536k     |    451.4  |      101.2
      32batch-103keys-16heads-mq_4922k  |    682.9  |      109.3
      32batch-103keys-16heads_71072k    |    741.5  |      103.9
      32batch-103keys-64heads-mq_6458k  |   2366.3  |      242.8
      32batch-103keys-64heads_284288k   |   2673.1  |      467.5
      4batch-1127keys-8heads-mq_4775k   |    755.2  |      111.4
      4batch-1127keys-8heads_37976k     |    780.0  |      104.9
      4batch-1127keys-16heads-mq_4807k  |    825.1  |      109.2
      4batch-1127keys-16heads_75952k    |    965.7  |      103.4
      4batch-1127keys-64heads-mq_4999k  |   2248.4  |      185.6
      4batch-1127keys-64heads_303808k   |   2607.5  |      319.4
      1batch-7271keys-8heads-mq_7279k   |   3585.6  |      291.2
      1batch-7271keys-8heads_58176k     |   3575.9  |      320.7
      1batch-7271keys-16heads-mq_7287k  |   3584.6  |      290.9
      1batch-7271keys-16heads_116352k   |   3628.6  |      322.3
      1batch-7271keys-64heads-mq_7335k  |   4353.3  |      288.0
      1batch-7271keys-64heads_465408k   |   5175.1  |      412.4

Times are in microseconds (us).

[-------------------- cuda graphed attention --------------------]
                                        |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------------
      3batch-1keys-8heads-mq_28k        |     87.2  |       13.6
      3batch-1keys-8heads_56k           |     85.8  |       13.4
      3batch-1keys-16heads-mq_52k       |     86.6  |       13.2
      3batch-1keys-16heads_112k         |     85.7  |       13.6
      3batch-1keys-64heads-mq_196k      |    165.3  |       17.8
      3batch-1keys-64heads_448k         |    169.0  |       17.7
      500batch-7keys-8heads-mq_12412k   |   3145.6  |      242.8
      500batch-7keys-8heads_71296k      |   3183.4  |      228.9
      500batch-7keys-16heads-mq_16412k  |   5516.5  |      480.3
      500batch-7keys-16heads_142592k    |   6015.4  |      445.5
      500batch-7keys-64heads-mq_40412k  |  21194.5  |     1888.4
      500batch-7keys-64heads_570368k    |  22632.4  |     1815.8
      2batch-543keys-8heads-mq_627k     |    330.9  |       34.2
      2batch-543keys-8heads_4904k       |    340.1  |       35.0
      2batch-543keys-16heads-mq_643k    |    331.3  |       34.2
      2batch-543keys-16heads_9808k      |    341.8  |       36.8
      2batch-543keys-64heads-mq_739k    |    413.5  |       59.9
      2batch-543keys-64heads_39232k     |    474.7  |       69.1
      1batch-5543keys-8heads-mq_5551k   |   2766.0  |      222.7
      1batch-5543keys-8heads_44352k     |   2769.9  |      250.1
      1batch-5543keys-16heads-mq_5559k  |   2765.5  |      222.3
      1batch-5543keys-16heads_88704k    |   2812.5  |      253.3
      1batch-5543keys-64heads-mq_5607k  |   3360.6  |      222.4
      1batch-5543keys-64heads_354816k   |   3996.1  |      314.2
      32batch-103keys-8heads-mq_4666k   |    421.4  |       44.7
      32batch-103keys-8heads_35536k     |    452.7  |       53.5
      32batch-103keys-16heads-mq_4922k  |    681.8  |       72.0
      32batch-103keys-16heads_71072k    |    743.4  |       88.6
      32batch-103keys-64heads-mq_6458k  |   2367.6  |      247.2
      32batch-103keys-64heads_284288k   |   2666.3  |      476.3
      4batch-1127keys-8heads-mq_4775k   |    755.6  |       68.7
      4batch-1127keys-8heads_37976k     |    788.4  |       73.9
      4batch-1127keys-16heads-mq_4807k  |    825.4  |       69.4
      4batch-1127keys-16heads_75952k    |    964.9  |       79.0
      4batch-1127keys-64heads-mq_4999k  |   2246.2  |      190.2
      4batch-1127keys-64heads_303808k   |   2600.2  |      324.3
      1batch-7271keys-8heads-mq_7279k   |   3583.5  |      296.4
      1batch-7271keys-8heads_58176k     |   3573.8  |      325.0
      1batch-7271keys-16heads-mq_7287k  |   3578.7  |      292.8
      1batch-7271keys-16heads_116352k   |   3627.5  |      331.0
      1batch-7271keys-64heads-mq_7335k  |   4353.3  |      293.2
      1batch-7271keys-64heads_465408k   |   5177.3  |      414.8

Times are in microseconds (us).
```
---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp    | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index a98fbe8047..cee82dde50 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -37,7 +37,7 @@ __device__ void inner_product<bhalf4_t, bhalf4_t, float>(
 namespace {
 
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 8;
+constexpr int32_t kWavefrontsPerBlock = 16;
 constexpr int32_t D_H = 4 * kThreadsPerWavefront;
 constexpr int32_t T_MAX = 8192;
 
@@ -276,9 +276,10 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](float a, float b) { return a + b; });
 
+  const double softmax_scale_factor = 1. / softmax_denominator;
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = expf(smem[t] - max_qk_acc) / softmax_denominator;
+    smem[t] = expf(smem[t] - max_qk_acc) * softmax_scale_factor;
   }
   __syncthreads();
 

From 21c569d780b25d07a94558070181d038ac073e8b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 17:37:08 -0400
Subject: [PATCH 176/837] set loop unroll = 16 for loading k and v by 4-element
 chunks

```
Times are in microseconds (us).

[-------------------------- attention ---------------------------]
                                        |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------------
      3batch-1keys-8heads-mq_28k        |     84.2  |       90.0
      3batch-1keys-8heads_56k           |     88.5  |       82.6
      3batch-1keys-16heads-mq_52k       |     89.5  |       89.3
      3batch-1keys-16heads_112k         |     89.5  |       83.7
      3batch-1keys-64heads-mq_196k      |    163.8  |       91.2
      3batch-1keys-64heads_448k         |    168.8  |       87.1
      500batch-7keys-8heads-mq_12412k   |   3004.0  |      239.3
      500batch-7keys-8heads_71296k      |   3100.3  |      225.5
      500batch-7keys-16heads-mq_16412k  |   5573.5  |      474.1
      500batch-7keys-16heads_142592k    |   5854.0  |      443.9
      500batch-7keys-64heads-mq_40412k  |  20998.9  |     1892.5
      500batch-7keys-64heads_570368k    |  22455.8  |     1820.7
      2batch-543keys-8heads-mq_627k     |    331.9  |       89.7
      2batch-543keys-8heads_4904k       |    343.8  |       85.7
      2batch-543keys-16heads-mq_643k    |    329.5  |       94.2
      2batch-543keys-16heads_9808k      |    342.6  |       84.4
      2batch-543keys-64heads-mq_739k    |    416.0  |       88.7
      2batch-543keys-64heads_39232k     |    472.5  |       83.6
      1batch-5543keys-8heads-mq_5551k   |   2756.4  |      206.7
      1batch-5543keys-8heads_44352k     |   2769.7  |      229.5
      1batch-5543keys-16heads-mq_5559k  |   2758.3  |      205.8
      1batch-5543keys-16heads_88704k    |   2812.1  |      231.5
      1batch-5543keys-64heads-mq_5607k  |   3361.0  |      205.7
      1batch-5543keys-64heads_354816k   |   3997.1  |      309.1
      32batch-103keys-8heads-mq_4666k   |    417.4  |       91.0
      32batch-103keys-8heads_35536k     |    452.1  |       84.3
      32batch-103keys-16heads-mq_4922k  |    681.0  |       90.5
      32batch-103keys-16heads_71072k    |    739.7  |       92.8
      32batch-103keys-64heads-mq_6458k  |   2361.1  |      266.8
      32batch-103keys-64heads_284288k   |   2665.7  |      458.7
      4batch-1127keys-8heads-mq_4775k   |    744.7  |       91.0
      4batch-1127keys-8heads_37976k     |    775.4  |       85.9
      4batch-1127keys-16heads-mq_4807k  |    823.8  |       90.5
      4batch-1127keys-16heads_75952k    |    963.7  |       86.3
      4batch-1127keys-64heads-mq_4999k  |   2245.7  |      180.7
      4batch-1127keys-64heads_303808k   |   2598.2  |      331.0
      1batch-7271keys-8heads-mq_7279k   |   3561.0  |      271.6
      1batch-7271keys-8heads_58176k     |   3575.8  |      292.2
      1batch-7271keys-16heads-mq_7287k  |   3581.9  |      269.7
      1batch-7271keys-16heads_116352k   |   3636.7  |      295.5
      1batch-7271keys-64heads-mq_7335k  |   4351.9  |      269.3
      1batch-7271keys-64heads_465408k   |   5177.1  |      384.2

Times are in microseconds (us).

[-------------------- cuda graphed attention --------------------]
                                        |    ckF    |  ck_decoderF
1 threads: -------------------------------------------------------
      3batch-1keys-8heads-mq_28k        |     86.9  |       13.3
      3batch-1keys-8heads_56k           |     86.9  |       13.3
      3batch-1keys-16heads-mq_52k       |     86.5  |       13.3
      3batch-1keys-16heads_112k         |     88.4  |       13.3
      3batch-1keys-64heads-mq_196k      |    164.7  |       17.7
      3batch-1keys-64heads_448k         |    168.9  |       17.9
      500batch-7keys-8heads-mq_12412k   |   2999.4  |      244.2
      500batch-7keys-8heads_71296k      |   3102.8  |      230.6
      500batch-7keys-16heads-mq_16412k  |   5563.8  |      478.8
      500batch-7keys-16heads_142592k    |   5849.0  |      448.5
      500batch-7keys-64heads-mq_40412k  |  20937.4  |     1896.1
      500batch-7keys-64heads_570368k    |  22384.2  |     1825.3
      2batch-543keys-8heads-mq_627k     |    329.2  |       34.1
      2batch-543keys-8heads_4904k       |    341.2  |       35.1
      2batch-543keys-16heads-mq_643k    |    330.1  |       34.1
      2batch-543keys-16heads_9808k      |    343.5  |       36.8
      2batch-543keys-64heads-mq_739k    |    412.7  |       60.0
      2batch-543keys-64heads_39232k     |    473.5  |       69.6
      1batch-5543keys-8heads-mq_5551k   |   2759.0  |      211.4
      1batch-5543keys-8heads_44352k     |   2769.7  |      232.8
      1batch-5543keys-16heads-mq_5559k  |   2796.2  |      211.0
      1batch-5543keys-16heads_88704k    |   2812.2  |      234.9
      1batch-5543keys-64heads-mq_5607k  |   3358.5  |      211.0
      1batch-5543keys-64heads_354816k   |   3998.3  |      310.8
      32batch-103keys-8heads-mq_4666k   |    418.8  |       48.2
      32batch-103keys-8heads_35536k     |    450.3  |       59.4
      32batch-103keys-16heads-mq_4922k  |    683.6  |       78.2
      32batch-103keys-16heads_71072k    |    740.4  |       98.0
      32batch-103keys-64heads-mq_6458k  |   2363.7  |      271.4
      32batch-103keys-64heads_284288k   |   2665.3  |      460.0
      4batch-1127keys-8heads-mq_4775k   |    745.7  |       67.6
      4batch-1127keys-8heads_37976k     |    776.8  |       74.8
      4batch-1127keys-16heads-mq_4807k  |    824.2  |       67.7
      4batch-1127keys-16heads_75952k    |    963.0  |       89.5
      4batch-1127keys-64heads-mq_4999k  |   2246.0  |      185.3
      4batch-1127keys-64heads_303808k   |   2598.0  |      336.3
      1batch-7271keys-8heads-mq_7279k   |   3573.1  |      276.6
      1batch-7271keys-8heads_58176k     |   3577.0  |      296.0
      1batch-7271keys-16heads-mq_7287k  |   3572.6  |      278.4
      1batch-7271keys-16heads_116352k   |   3634.4  |      299.3
      1batch-7271keys-64heads-mq_7335k  |   4353.4  |      274.2
      1batch-7271keys-64heads_465408k   |   5172.3  |      384.6

Times are in microseconds (us).
```
---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index cee82dde50..a3d657354e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -124,7 +124,7 @@ __forceinline__ __device__ void store_v(
 
 template <
     typename scalar_t,
-    int32_t n_loop_unroll = 4,
+    int32_t n_loop_unroll = 16,
     int32_t n_loop_unroll_tail = 2>
 __global__ void efficient_attention_forward_decoder_ck_kernel(
     at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,

From f8dba5a540df808975f02d4767d213f53a0dffa8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 17:53:26 -0400
Subject: [PATCH 177/837] add comment about how to get assembly

---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index a3d657354e..237516ab5a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -535,6 +535,8 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 -lamdhip64 \
 -o a.out
 
+For assembly debugging, add `--save-temps -g`.
+
 (3a) run correctness check
  > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
  ./a.out

From c5406c231477452592bde1242dd652deaa2b7dbd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 18:37:17 -0400
Subject: [PATCH 178/837] vectorize register->smem storing of qk inner products

---
 .../hip_fmha/attention_forward_decoder.cpp    | 22 ++++++++++---------
 1 file changed, 12 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 237516ab5a..8cc79ad7c9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -178,7 +178,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   data_vec4_t k_loads[n_loop_unroll];
 
-  const auto dtt = wavefronts_per_block * n_loop_unroll;
+  constexpr auto dtt = kWavefrontsPerBlock * n_loop_unroll;
   const int32_t t_max_unroll = (t_max / dtt) * dtt;
 
   for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
@@ -189,21 +189,23 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       load_v<decltype(cache_K_base), data_vec4_t>(
           cache_K_base + t * cache_K.stride(1), lane_idx, &k_loads[ttt]);
     }
+    float qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      float qk_acc = 0;
       const int32_t t = tt + ttt;
 
       ck::inner_product<data_vec4_t, data_vec4_t, float>(
-          q_thread, k_loads[ttt], qk_acc);
-      qk_acc *= qk_scale;
-
-      qk_acc = wavefrontReduce(qk_acc, [](float a, float b) { return a + b; });
-      max_qk_acc = max(qk_acc, max_qk_acc);
+          q_thread, k_loads[ttt], qk_accs[ttt]);
+      qk_accs[ttt] *= qk_scale;
 
-      // write accumulated sums to smem.
-      if (lane_idx == 0) {
-        smem[t] = qk_acc;
+      qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](float a, float b) { return a + b; });
+      max_qk_acc = max(qk_accs[ttt], max_qk_acc);
+    }
+    if (lane_idx == 0) {
+      auto* smem_base = smem + tt;
+ #pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        smem_base[ttt] = qk_accs[ttt];
       }
     }
   }

From cb86fa7e13721a19286dac4cb6ebfabe1a66bbfb Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 17 Oct 2023 18:51:26 -0400
Subject: [PATCH 179/837] remove unused index

---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 2 --
 1 file changed, 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 8cc79ad7c9..a6f12f402b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -192,8 +192,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     float qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      const int32_t t = tt + ttt;
-
       ck::inner_product<data_vec4_t, data_vec4_t, float>(
           q_thread, k_loads[ttt], qk_accs[ttt]);
       qk_accs[ttt] *= qk_scale;

From 9337801c44471a01b84041cd077e4e0635907c94 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Oct 2023 00:00:57 -0400
Subject: [PATCH 180/837] remove internal double, replace expf with intrinsic

---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index a6f12f402b..cd18348310 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -257,7 +257,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // each wavefront computes partial sum of exp.
   float softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += expf(smem[t] - max_qk_acc);
+    softmax_denominator += __expf(smem[t] - max_qk_acc);
   }
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](float a, float b) { return a + b; });
@@ -276,10 +276,10 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](float a, float b) { return a + b; });
 
-  const double softmax_scale_factor = 1. / softmax_denominator;
+  const float softmax_scale_factor = 1. / softmax_denominator;
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = expf(smem[t] - max_qk_acc) * softmax_scale_factor;
+    smem[t] = __expf(smem[t] - max_qk_acc) * softmax_scale_factor;
   }
   __syncthreads();
 

From ae47ed3d8d85fb3d912a22fadbb80f033ffd1e3b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Oct 2023 14:11:14 -0400
Subject: [PATCH 181/837] fix standalone shapes

---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index cd18348310..ca05f694ae 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -600,10 +600,10 @@ int main(int argc, char** argv) {
                      .requires_grad(false);
 
     const auto int_options = options.dtype(torch::kInt);  
-    const auto Q = at::rand({1, batch_size, n_heads, dim_per_head}, options);
+    const auto Q = at::rand({batch_size, 1, n_heads, dim_per_head}, options);
     const auto K = multiquery 
-      ? at::rand({1, batch_size * padding, 1, dim_per_head}, options).expand({1, batch_size * padding, n_heads, dim_per_head})
-      : at::rand({1, batch_size * padding, 1, dim_per_head}, options);
+      ? at::rand({batch_size, padding, 1, dim_per_head}, options).expand({batch_size, padding, n_heads, dim_per_head})
+      : at::rand({batch_size, padding, n_heads, dim_per_head}, options);
     const auto V = at::rand_like(K);
     auto O = at::rand_like(Q);
 

From 0ff6b03d83dcdd28e06b1fc17676b1ba8aedee0f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 25 Oct 2023 16:39:16 -0400
Subject: [PATCH 182/837] update instruction

---
 xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index ca05f694ae..29d5c157d8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -484,6 +484,9 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 (1) hipify
  > pip install -e /xformers
+
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ 
 (2) compile
  > /opt/rocm/bin/hipcc \
 -I/xformers/xformers/csrc \

From b84dbec57cd1b34b591887f5a453db71819283e0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 2 Nov 2023 15:27:00 -0400
Subject: [PATCH 183/837] refactor tensor accessor out of the kernel arguments
 (currently it breaks one of benchmark cases for some reason; tests are good)

---
 .../hip_fmha/attention_forward_decoder.cpp    | 61 +++++++++++++------
 1 file changed, 41 insertions(+), 20 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 29d5c157d8..6dbd1f4161 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -127,11 +127,17 @@ template <
     int32_t n_loop_unroll = 16,
     int32_t n_loop_unroll_tail = 2>
 __global__ void efficient_attention_forward_decoder_ck_kernel(
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ,
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K,
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V,
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O,
-    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions,
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O,
+    const int32_t* __restrict__ seq_positions,
+    const int32_t XQ_stride_0,
+    const int32_t XQ_stride_2,
+    const int32_t K_stride_0,
+    const int32_t K_stride_1,
+    const int32_t K_stride_2,
+    const bool multiquery,
     const float qk_scale) {
   static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
@@ -157,11 +163,14 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       lane_idx + wavefront_idx * threads_per_wavefront;
 
   // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
-  const auto* q_ = &(XQ[b][0][h][0]);
+  // const auto* q_ = &(XQ[b][0][h][0]);
+  const auto* q_ = XQ + b * XQ_stride_0 + h * XQ_stride_2;
 
-  const bool multiquery = cache_K.size(2) == 1;
-  const auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
-  const auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
+  // const bool multiquery = cache_K.size(2) == 1;
+  // const auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
+  const auto* cache_K_base = cache_K + b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+  // const auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
+  const auto* cache_V_base = cache_V + b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
@@ -187,7 +196,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       const int32_t t = tt + ttt;
       // load the K[b][t][h|0][:] row into registers
       load_v<decltype(cache_K_base), data_vec4_t>(
-          cache_K_base + t * cache_K.stride(1), lane_idx, &k_loads[ttt]);
+          cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
     }
     float qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
@@ -217,7 +226,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       if (t < t_max) {
         // load the K[b][t][h|0][:] row into registers
         load_v<decltype(cache_K_base), data_vec4_t>(
-            cache_K_base + t * cache_K.stride(1), lane_idx, &k_loads[ttt]);
+            cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       }
     }
 #pragma unroll n_loop_unroll_tail
@@ -297,7 +306,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       const int32_t t = tt + ttt;
       // load the V[b][t][h|0][:] row into registers, reusing K register storage
       load_v<decltype(cache_V_base), data_vec4_t>(
-          cache_V_base + t * cache_V.stride(1), lane_idx, &k_loads[ttt]);
+          cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       ps[ttt] = smem[t];
     }
 
@@ -316,7 +325,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
         // load the V[b][t][h|0][:] row into registers, reusing K register
         // storage
         load_v<decltype(cache_V_base), data_vec4_t>(
-            cache_V_base + t * cache_V.stride(1), lane_idx, &k_loads[ttt]);
+            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
     }
@@ -352,7 +361,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     bf_r.y = ck::type_convert<data_t>(r.y);
     bf_r.z = ck::type_convert<data_t>(r.z);
     bf_r.w = ck::type_convert<data_t>(r.w);
-    auto* o_ = &O[b][0][h][0];
+    // auto* o_ = &O[b][0][h][0];
+    auto* o_ = O + b * XQ_stride_0 + h * XQ_stride_2;
     store_v<decltype(o_), data_vec4_t>(o_, lane_idx, bf_r);
   }
 }
@@ -427,13 +437,24 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
         auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
         update_max_dynamic_shared_memory_size_bytes(
             reinterpret_cast<void*&>(kernel), smem_size);
+        auto XQ_acc = XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
+        auto K_acc = cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+        auto V_acc = cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+        auto O_acc = O.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+        auto seq_acc = seq_positions
+                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
         kernel<<<blocks, threads, smem_size, stream>>>(
-            XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-            cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-            cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-            O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-            seq_positions
-                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
+            XQ_acc.data(),
+            K_acc.data(),
+            V_acc.data(),
+            O_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(2),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.size(2) == 1,
             qk_scale);
         C10_CUDA_KERNEL_LAUNCH_CHECK();
       });

From 4478c25cff13562ed42cee2ad3fac4596419df8b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 2 Nov 2023 21:57:39 -0400
Subject: [PATCH 184/837] roll back kernel signature change; something
 currently unexplainable prevents from offset calculation on V tensor

---
 .../hip_fmha/attention_forward_decoder.cpp    | 69 +++++++++----------
 1 file changed, 34 insertions(+), 35 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 6dbd1f4161..81666ae2e0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -127,20 +127,29 @@ template <
     int32_t n_loop_unroll = 16,
     int32_t n_loop_unroll_tail = 2>
 __global__ void efficient_attention_forward_decoder_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O,
-    const int32_t* __restrict__ seq_positions,
-    const int32_t XQ_stride_0,
-    const int32_t XQ_stride_2,
-    const int32_t K_stride_0,
-    const int32_t K_stride_1,
-    const int32_t K_stride_2,
-    const bool multiquery,
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ_acc,
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K_acc,
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V_acc,
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O_acc,
+    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions_acc,
     const float qk_scale) {
   static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
+  const scalar_t* __restrict__ XQ = XQ_acc.data();
+  const scalar_t* __restrict__ cache_K = cache_K_acc.data();
+  const scalar_t* __restrict__ cache_V = cache_V_acc.data();
+  scalar_t* __restrict__ O = O_acc.data();
+  const int32_t* __restrict__ seq_positions = seq_positions_acc.data();
+  const int32_t XQ_stride_0 = XQ_acc.stride(0);
+  const int32_t XQ_stride_2 = XQ_acc.stride(2);
+  const int32_t K_stride_0 = cache_K_acc.stride(0);
+  const int32_t K_stride_1 = cache_K_acc.stride(1);
+  const int32_t K_stride_2 = cache_K_acc.stride(2);
+  const int32_t V_stride_0 = cache_V_acc.stride(0); // cache_V strides should be the same as cache_K strides
+  const int32_t V_stride_1 = cache_V_acc.stride(1);
+  const int32_t V_stride_2 = cache_V_acc.stride(2);
+  const bool multiquery = cache_K_acc.size(2) == 1;
+
   constexpr int32_t seq_positions_shift = 0;
 
   extern __shared__ __align__(16) float smem[];
@@ -163,14 +172,15 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       lane_idx + wavefront_idx * threads_per_wavefront;
 
   // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
-  // const auto* q_ = &(XQ[b][0][h][0]);
+  // const auto* q_ = &(XQ_acc[b][0][h][0]);
   const auto* q_ = XQ + b * XQ_stride_0 + h * XQ_stride_2;
 
   // const bool multiquery = cache_K.size(2) == 1;
-  // const auto* cache_K_base = &cache_K[b][0][multiquery ? 0 : h][0];
-  const auto* cache_K_base = cache_K + b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
-  // const auto* cache_V_base = &cache_V[b][0][multiquery ? 0 : h][0];
-  const auto* cache_V_base = cache_V + b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+  // const auto* cache_K_base = &cache_K_acc[b][0][multiquery ? 0 : h][0];
+  const auto cache_KV_base_offset = b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+  const auto* cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* cache_V_base = &cache_V_acc[b][0][multiquery ? 0 : h][0];
+  // const auto* cache_V_base = cache_V + cache_KV_base_offset; // invalid memory access error
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
@@ -306,7 +316,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       const int32_t t = tt + ttt;
       // load the V[b][t][h|0][:] row into registers, reusing K register storage
       load_v<decltype(cache_V_base), data_vec4_t>(
-          cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+          cache_V_base + t * V_stride_1, lane_idx, &k_loads[ttt]);
       ps[ttt] = smem[t];
     }
 
@@ -325,7 +335,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
         // load the V[b][t][h|0][:] row into registers, reusing K register
         // storage
         load_v<decltype(cache_V_base), data_vec4_t>(
-            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+            cache_V_base + t * V_stride_1, lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
     }
@@ -437,24 +447,13 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
         auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
         update_max_dynamic_shared_memory_size_bytes(
             reinterpret_cast<void*&>(kernel), smem_size);
-        auto XQ_acc = XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
-        auto K_acc = cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-        auto V_acc = cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-        auto O_acc = O.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-        auto seq_acc = seq_positions
-                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
         kernel<<<blocks, threads, smem_size, stream>>>(
-            XQ_acc.data(),
-            K_acc.data(),
-            V_acc.data(),
-            O_acc.data(),
-            seq_acc.data(),
-            XQ_acc.stride(0),
-            XQ_acc.stride(2),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.size(2) == 1,
+            XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+            cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+            cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
+            O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+            seq_positions
+                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
             qk_scale);
         C10_CUDA_KERNEL_LAUNCH_CHECK();
       });

From 182273c57e3b3bae76daf09e3968650c72c6745c Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 2 Nov 2023 17:55:21 -0400
Subject: [PATCH 185/837] wrap kernel call into DeviceOp api

---
 .../hip_fmha/attention_forward_decoder.cpp    | 191 +++++++++++++-----
 1 file changed, 136 insertions(+), 55 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 81666ae2e0..664c681391 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -7,6 +7,9 @@
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
 #include <c10/cuda/CUDAStream.h>
+#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/stream_config.hpp>
+#include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/inner_product.hpp>
 #include <torch/library.h>
@@ -215,12 +218,13 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
           q_thread, k_loads[ttt], qk_accs[ttt]);
       qk_accs[ttt] *= qk_scale;
 
-      qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](float a, float b) { return a + b; });
+      qk_accs[ttt] =
+          wavefrontReduce(qk_accs[ttt], [](float a, float b) { return a + b; });
       max_qk_acc = max(qk_accs[ttt], max_qk_acc);
     }
     if (lane_idx == 0) {
       auto* smem_base = smem + tt;
- #pragma unroll n_loop_unroll
+#pragma unroll n_loop_unroll
       for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
         smem_base[ttt] = qk_accs[ttt];
       }
@@ -377,21 +381,73 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   }
 }
 
-void update_max_dynamic_shared_memory_size_bytes(
-    void* kernel_func,
-    int32_t new_value) {
-  hipFuncAttributes attributes;
-  C10_CUDA_CHECK(hipFuncGetAttributes(&attributes, kernel_func));
-
-  const auto default_value = attributes.maxDynamicSharedSizeBytes;
+} // namespace
 
-  // printf("Default smem size: %d\n", default_value);
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <typename scalar_t>
+struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+  struct Argument : public BaseArgument {
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ_acc;
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K_acc;
+    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V_acc;
+    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O_acc;
+    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions_acc;
+    const float qk_scale;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ_acc,
+        at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K_acc,
+        at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V_acc,
+        at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O_acc,
+        at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions_acc,
+        const float qk_scale,
+
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ_acc(XQ_acc),
+          cache_K_acc(cache_K_acc),
+          cache_V_acc(cache_V_acc),
+          O_acc(O_acc),
+          seq_positions_acc(seq_positions_acc),
+          qk_scale(qk_scale),
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
+      return launch_and_time_kernel(
+          stream_config,
+          kernel,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ_acc,
+          arg.cache_K_acc,
+          arg.cache_V_acc,
+          arg.O_acc,
+          arg.seq_positions_acc,
+          arg.qk_scale);
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
 
-  if (new_value > default_value) {
-    C10_CUDA_CHECK(hipFuncSetAttribute(
-        kernel_func, hipFuncAttributeMaxDynamicSharedMemorySize, new_value));
-  }
-}
+namespace {
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
   AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
@@ -434,7 +490,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
   int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
   int32_t smem_output = D_H * sizeof(float) *
       threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  int32_t smem_size = max(smem_softmax, smem_output);
+  const size_t lds_bytes = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
   AT_DISPATCH_SWITCH_3(
@@ -444,18 +500,23 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
       XQ.scalar_type(),
       "efficient_attention_forward_decoder_ck",
       [&] {
-        auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
-        update_max_dynamic_shared_memory_size_bytes(
-            reinterpret_cast<void*&>(kernel), smem_size);
-        kernel<<<blocks, threads, smem_size, stream>>>(
+        using device_op_t = ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<
+            scalar_t>;
+        auto op = device_op_t{};
+        auto arg = device_op_t::Argument(
             XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
             cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
             cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
             O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
             seq_positions
                 .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
-            qk_scale);
-        C10_CUDA_KERNEL_LAUNCH_CHECK();
+            qk_scale,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
       });
 
   return O;
@@ -472,9 +533,9 @@ at::Tensor efficient_attention_forward_decoder_ck_impl(
     const at::Tensor& seq_positions, // [B]
     double qk_scale) {
   auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
-    XQ, cache_K, cache_V, seq_positions, qk_scale, O
-  );
+  efficient_attention_forward_decoder_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_positions, qk_scale, O);
   return O;
 }
 
@@ -505,19 +566,24 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 (1) hipify
  > pip install -e /xformers
 
- For obtaining all the library paths needed for compilation below, add `--verbose`.
- 
+ For obtaining all the library paths needed for compilation below, add
+`--verbose`.
+
 (2) compile
  > /opt/rocm/bin/hipcc \
 -I/xformers/xformers/csrc \
 -I/xformers/xformers/csrc/attention/hip_fmha \
 -I/xformers/third_party/composable_kernel/include \
 -I/xformers/third_party/composable_kernel/include/ck \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device
+\
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl
+\
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element
+\
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include \
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include
+\
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/TH \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THC \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THH \
@@ -561,12 +627,17 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 For assembly debugging, add `--save-temps -g`.
 
 (3a) run correctness check
- > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
+ >
+LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
+\
  ./a.out
 
 (3b) run specific input shape
- > LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
- ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+ >
+LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
+\
+ ./a.out n_keys padding batch_size n_heads is_multiquery dtype
+n_wavefronts_per_block
 */
 
 static void do_correctness_check() {
@@ -603,7 +674,9 @@ int main(int argc, char** argv) {
   } else {
     const auto args = std::vector<std::string>(argv + 1, argv + argc);
     if (args.size() != 7) {
-      std::cout << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block" << std::endl;
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block"
+          << std::endl;
       return 0;
     }
     const int32_t n_keys = std::stoi(args[0]);
@@ -611,35 +684,42 @@ int main(int argc, char** argv) {
     const int32_t batch_size = std::stoi(args[2]);
     const int32_t n_heads = std::stoi(args[3]);
     const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32 : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-    
+
     const int32_t dim_per_head = 4 * kThreadsPerWavefront;
 
     const auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
 
-    const auto int_options = options.dtype(torch::kInt);  
+    const auto int_options = options.dtype(torch::kInt);
     const auto Q = at::rand({batch_size, 1, n_heads, dim_per_head}, options);
-    const auto K = multiquery 
-      ? at::rand({batch_size, padding, 1, dim_per_head}, options).expand({batch_size, padding, n_heads, dim_per_head})
-      : at::rand({batch_size, padding, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_heads, dim_per_head})
+        : at::rand({batch_size, padding, n_heads, dim_per_head}, options);
     const auto V = at::rand_like(K);
     auto O = at::rand_like(Q);
 
     const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
     const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, kWavefrontsPerBlock>) {};
-    
-    #define SWITCH_CASE_SET_CALLPTR(n) \
-    case (n): \
-      call_ptr = &efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, (n)>; \
-      break; 
-
-    switch(n_wavefronts_per_block) {
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
       SWITCH_CASE_SET_CALLPTR(1);
       SWITCH_CASE_SET_CALLPTR(2);
       SWITCH_CASE_SET_CALLPTR(4);
@@ -650,12 +730,13 @@ int main(int argc, char** argv) {
         call_ptr = nullptr;
         break;
     }
-    #undef SWITCH_CASE_SET_CALLPTR
+#undef SWITCH_CASE_SET_CALLPTR
 
     if (call_ptr) {
       call_ptr(Q, K, V, seq, qk_scale, O);
     } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block=" << n_wavefronts_per_block << std::endl;
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
     }
   }
   return 0;

From 60a9872370f4a53f963d5b032db47d82cc155a09 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 2 Nov 2023 22:58:18 -0400
Subject: [PATCH 186/837] fix; offsets into a tensor need to use ptrdiff_t to
 avoid overflow

---
 .../hip_fmha/attention_forward_decoder.cpp    | 28 ++++++++-----------
 1 file changed, 11 insertions(+), 17 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 664c681391..d8bf51ca3a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -143,14 +143,11 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const scalar_t* __restrict__ cache_V = cache_V_acc.data();
   scalar_t* __restrict__ O = O_acc.data();
   const int32_t* __restrict__ seq_positions = seq_positions_acc.data();
-  const int32_t XQ_stride_0 = XQ_acc.stride(0);
-  const int32_t XQ_stride_2 = XQ_acc.stride(2);
-  const int32_t K_stride_0 = cache_K_acc.stride(0);
-  const int32_t K_stride_1 = cache_K_acc.stride(1);
-  const int32_t K_stride_2 = cache_K_acc.stride(2);
-  const int32_t V_stride_0 = cache_V_acc.stride(0); // cache_V strides should be the same as cache_K strides
-  const int32_t V_stride_1 = cache_V_acc.stride(1);
-  const int32_t V_stride_2 = cache_V_acc.stride(2);
+  const ptrdiff_t XQ_stride_0 = XQ_acc.stride(0);
+  const ptrdiff_t XQ_stride_2 = XQ_acc.stride(2);
+  const ptrdiff_t K_stride_0 = cache_K_acc.stride(0);
+  const ptrdiff_t K_stride_1 = cache_K_acc.stride(1);
+  const ptrdiff_t K_stride_2 = cache_K_acc.stride(2);
   const bool multiquery = cache_K_acc.size(2) == 1;
 
   constexpr int32_t seq_positions_shift = 0;
@@ -176,14 +173,12 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
   // const auto* q_ = &(XQ_acc[b][0][h][0]);
-  const auto* q_ = XQ + b * XQ_stride_0 + h * XQ_stride_2;
+  const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
+  const auto* q_ = XQ + XQO_base_offset;
 
-  // const bool multiquery = cache_K.size(2) == 1;
-  // const auto* cache_K_base = &cache_K_acc[b][0][multiquery ? 0 : h][0];
   const auto cache_KV_base_offset = b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
   const auto* cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* cache_V_base = &cache_V_acc[b][0][multiquery ? 0 : h][0];
-  // const auto* cache_V_base = cache_V + cache_KV_base_offset; // invalid memory access error
+  const auto* cache_V_base = cache_V + cache_KV_base_offset;
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
@@ -320,7 +315,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       const int32_t t = tt + ttt;
       // load the V[b][t][h|0][:] row into registers, reusing K register storage
       load_v<decltype(cache_V_base), data_vec4_t>(
-          cache_V_base + t * V_stride_1, lane_idx, &k_loads[ttt]);
+          cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       ps[ttt] = smem[t];
     }
 
@@ -339,7 +334,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
         // load the V[b][t][h|0][:] row into registers, reusing K register
         // storage
         load_v<decltype(cache_V_base), data_vec4_t>(
-            cache_V_base + t * V_stride_1, lane_idx, &k_loads[ttt]);
+            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
     }
@@ -375,8 +370,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     bf_r.y = ck::type_convert<data_t>(r.y);
     bf_r.z = ck::type_convert<data_t>(r.z);
     bf_r.w = ck::type_convert<data_t>(r.w);
-    // auto* o_ = &O[b][0][h][0];
-    auto* o_ = O + b * XQ_stride_0 + h * XQ_stride_2;
+    auto* o_ = O + XQO_base_offset;
     store_v<decltype(o_), data_vec4_t>(o_, lane_idx, bf_r);
   }
 }

From fa0e993760b08d362b9753cd7b078592ddafe971 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 2 Nov 2023 23:30:04 -0400
Subject: [PATCH 187/837] refactor the kernel to use raw pointers and strides
 instead of accessors

---
 .../hip_fmha/attention_forward_decoder.cpp    | 160 +++++++++++-------
 1 file changed, 95 insertions(+), 65 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index d8bf51ca3a..98031081ba 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -130,26 +130,20 @@ template <
     int32_t n_loop_unroll = 16,
     int32_t n_loop_unroll_tail = 2>
 __global__ void efficient_attention_forward_decoder_ck_kernel(
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ_acc,
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K_acc,
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V_acc,
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O_acc,
-    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions_acc,
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O,
+    const int32_t* __restrict__ seq_positions,
+    const ptrdiff_t XQ_stride_0,
+    const ptrdiff_t XQ_stride_2,
+    const ptrdiff_t K_stride_0,
+    const ptrdiff_t K_stride_1,
+    const ptrdiff_t K_stride_2,
+    const bool multiquery,
     const float qk_scale) {
   static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
-  const scalar_t* __restrict__ XQ = XQ_acc.data();
-  const scalar_t* __restrict__ cache_K = cache_K_acc.data();
-  const scalar_t* __restrict__ cache_V = cache_V_acc.data();
-  scalar_t* __restrict__ O = O_acc.data();
-  const int32_t* __restrict__ seq_positions = seq_positions_acc.data();
-  const ptrdiff_t XQ_stride_0 = XQ_acc.stride(0);
-  const ptrdiff_t XQ_stride_2 = XQ_acc.stride(2);
-  const ptrdiff_t K_stride_0 = cache_K_acc.stride(0);
-  const ptrdiff_t K_stride_1 = cache_K_acc.stride(1);
-  const ptrdiff_t K_stride_2 = cache_K_acc.stride(2);
-  const bool multiquery = cache_K_acc.size(2) == 1;
-
   constexpr int32_t seq_positions_shift = 0;
 
   extern __shared__ __align__(16) float smem[];
@@ -176,7 +170,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
   const auto* q_ = XQ + XQO_base_offset;
 
-  const auto cache_KV_base_offset = b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+  const auto cache_KV_base_offset =
+      b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
   const auto* cache_K_base = cache_K + cache_KV_base_offset;
   const auto* cache_V_base = cache_V + cache_KV_base_offset;
 
@@ -384,11 +379,17 @@ template <typename scalar_t>
 struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
   using DeviceOp = FMHADecoderSeqlen1DeviceOp;
   struct Argument : public BaseArgument {
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ_acc;
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K_acc;
-    at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V_acc;
-    at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O_acc;
-    at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions_acc;
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    const int32_t* __restrict__ seq_positions;
+    const ptrdiff_t XQ_stride_0;
+    const ptrdiff_t XQ_stride_2;
+    const ptrdiff_t K_stride_0;
+    const ptrdiff_t K_stride_1;
+    const ptrdiff_t K_stride_2;
+    const bool multiquery;
     const float qk_scale;
 
     const dim3 grid_dim;
@@ -396,21 +397,32 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     const size_t lds_bytes;
 
     Argument(
-        at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> XQ_acc,
-        at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_K_acc,
-        at::PackedTensorAccessor64<scalar_t, 4, at::RestrictPtrTraits> cache_V_acc,
-        at::PackedTensorAccessor32<scalar_t, 4, at::RestrictPtrTraits> O_acc,
-        at::PackedTensorAccessor32<int32_t, 1, at::RestrictPtrTraits> seq_positions_acc,
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        const int32_t* __restrict__ seq_positions,
+        const ptrdiff_t XQ_stride_0,
+        const ptrdiff_t XQ_stride_2,
+        const ptrdiff_t K_stride_0,
+        const ptrdiff_t K_stride_1,
+        const ptrdiff_t K_stride_2,
+        const bool multiquery,
         const float qk_scale,
-
         const dim3 grid_dim,
         const dim3 block_dim,
         const size_t lds_bytes)
-        : XQ_acc(XQ_acc),
-          cache_K_acc(cache_K_acc),
-          cache_V_acc(cache_V_acc),
-          O_acc(O_acc),
-          seq_positions_acc(seq_positions_acc),
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          seq_positions(seq_positions),
+          XQ_stride_0(XQ_stride_0),
+          XQ_stride_2(XQ_stride_2),
+          K_stride_0(K_stride_0),
+          K_stride_1(K_stride_1),
+          K_stride_2(K_stride_2),
+          multiquery(multiquery),
           qk_scale(qk_scale),
           grid_dim(grid_dim),
           block_dim(block_dim),
@@ -421,18 +433,23 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     float Run(
         const Argument& arg,
         const StreamConfig& stream_config = StreamConfig{}) {
-      auto* kernel = &efficient_attention_forward_decoder_ck_kernel<scalar_t>;
       return launch_and_time_kernel(
           stream_config,
-          kernel,
+          efficient_attention_forward_decoder_ck_kernel<scalar_t>,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
-          arg.XQ_acc,
-          arg.cache_K_acc,
-          arg.cache_V_acc,
-          arg.O_acc,
-          arg.seq_positions_acc,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.O,
+          arg.seq_positions,
+          arg.XQ_stride_0,
+          arg.XQ_stride_2,
+          arg.K_stride_0,
+          arg.K_stride_1,
+          arg.K_stride_2,
+          arg.multiquery,
           arg.qk_scale);
     }
   };
@@ -494,16 +511,32 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
       XQ.scalar_type(),
       "efficient_attention_forward_decoder_ck",
       [&] {
-        using device_op_t = ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<
-            scalar_t>;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<scalar_t>;
         auto op = device_op_t{};
-        auto arg = device_op_t::Argument(
-            XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
-            cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-            cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>(),
-            O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>(),
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+        auto O_acc = O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
+        auto seq_acc =
             seq_positions
-                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>(),
+                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            XQ_acc.data(),
+            K_acc.data(),
+            V_acc.data(),
+            O_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(2),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.size(2) == 1,
             qk_scale,
             blocks,
             threads,
@@ -555,13 +588,15 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 #include <torch/torch.h>
 
+// clang-format off
+
 /*
 
 (1) hipify
  > pip install -e /xformers
 
- For obtaining all the library paths needed for compilation below, add
-`--verbose`.
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
 
 (2) compile
  > /opt/rocm/bin/hipcc \
@@ -569,15 +604,11 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 -I/xformers/xformers/csrc/attention/hip_fmha \
 -I/xformers/third_party/composable_kernel/include \
 -I/xformers/third_party/composable_kernel/include/ck \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device
-\
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl
-\
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element
-\
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl \
+-I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include
-\
+-I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/TH \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THC \
 -I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THH \
@@ -622,18 +653,17 @@ For assembly debugging, add `--save-temps -g`.
 
 (3a) run correctness check
  >
-LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
-\
+LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
  ./a.out
 
 (3b) run specific input shape
  >
-LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
-\
- ./a.out n_keys padding batch_size n_heads is_multiquery dtype
-n_wavefronts_per_block
+LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
+ ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
 */
 
+// clang-format on
+
 static void do_correctness_check() {
   const int32_t D = 4 * kThreadsPerWavefront;
   const int32_t B = 1;

From 32f7cd567ee2ef501908a935cf76675a0f74057f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 3 Nov 2023 14:53:12 -0400
Subject: [PATCH 188/837] separate the ck op and pytorch op backend

---
 .../hip_fmha/attention_forward_decoder.cpp    | 446 +-----------------
 .../hip_fmha/ck_attention_forward_decoder.h   | 427 +++++++++++++++++
 2 files changed, 441 insertions(+), 432 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 98031081ba..8b5b88f035 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -7,457 +7,36 @@
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
 #include <c10/cuda/CUDAStream.h>
-#include <ck/host_utility/kernel_launch_hip.hpp>
-#include <ck/stream_config.hpp>
-#include <ck/tensor_operation/gpu/device/device_base.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/inner_product.hpp>
 #include <torch/library.h>
 
-namespace ck {
-template <>
-__device__ void inner_product<bhalf_t, bhalf_t, float>(
-    const bhalf_t& a,
-    const bhalf_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
+#include "ck_attention_forward_decoder.h"
 
-template <>
-__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
-    const bhalf4_t& a,
-    const bhalf4_t& b,
-    float& c) {
-  const vector_type<bhalf_t, 4> a_vector{a};
-  const vector_type<bhalf_t, 4> b_vector{b};
-  ck::static_for<0, 4, 1>{}([&](auto i) {
-    inner_product(
-        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-  });
+namespace {
+  constexpr int32_t kThreadsPerWavefront = 64;
+  constexpr int32_t kWavefrontsPerBlock = 16;
+  constexpr int32_t D_H = 4 * kThreadsPerWavefront;
 }
-} // namespace ck
 
 namespace {
 
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t D_H = 4 * kThreadsPerWavefront;
-constexpr int32_t T_MAX = 8192;
-
 template <typename c10_t>
 struct c10_to_data_t;
-
 template <>
 struct c10_to_data_t<float> {
   using type = float;
-  using vec4 = ck::float4_t;
 };
 
 template <>
 struct c10_to_data_t<c10::Half> {
   using type = ck::half_t;
-  using vec4 = ck::half4_t;
 };
 
 template <>
 struct c10_to_data_t<c10::BFloat16> {
   using type = ck::bhalf_t;
-  using vec4 = ck::bhalf4_t;
 };
-
-template <typename data4_t>
-__device__ ck::float4_t scalar4_scale_acc(ck::float4_t acc, data4_t a, float b);
-
-template <>
-__device__ ck::float4_t scalar4_scale_acc<ck::float4_t>(
-    ck::float4_t acc,
-    ck::float4_t a,
-    float b) {
-  return acc + a * b;
-}
-
-template <>
-__device__ ck::float4_t scalar4_scale_acc<ck::half4_t>(
-    ck::float4_t acc,
-    ck::half4_t a,
-    float b) {
-  acc.x += ck::type_convert<float>(a.x) * b;
-  acc.y += ck::type_convert<float>(a.y) * b;
-  acc.z += ck::type_convert<float>(a.z) * b;
-  acc.w += ck::type_convert<float>(a.w) * b;
-  return acc;
-}
-
-template <>
-__device__ ck::float4_t scalar4_scale_acc<ck::bhalf4_t>(
-    ck::float4_t acc,
-    ck::bhalf4_t a,
-    float b) {
-  acc.x += ck::type_convert<float>(a.x) * b;
-  acc.y += ck::type_convert<float>(a.y) * b;
-  acc.z += ck::type_convert<float>(a.z) * b;
-  acc.w += ck::type_convert<float>(a.w) * b;
-  return acc;
 }
 
-template <typename F>
-float __device__ __forceinline__ wavefrontReduce(float val, F f) {
-#pragma unroll
-  for (int32_t mask = kThreadsPerWavefront >> 1; mask > 0; mask >>= 1) {
-    val = f(__shfl_xor(val, mask, kThreadsPerWavefront), val);
-  }
-  return val;
-}
-
-template <typename TDataPtr, typename TDataVec>
-__forceinline__ __device__ void load_v(
-    TDataPtr data_ptr,
-    int32_t vector_offset,
-    TDataVec* load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
-}
-
-template <typename TDataPtr, typename TDataVec>
-__forceinline__ __device__ void store_v(
-    TDataPtr data_ptr,
-    int32_t vector_offset,
-    TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
-}
-
-template <
-    typename scalar_t,
-    int32_t n_loop_unroll = 16,
-    int32_t n_loop_unroll_tail = 2>
-__global__ void efficient_attention_forward_decoder_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O,
-    const int32_t* __restrict__ seq_positions,
-    const ptrdiff_t XQ_stride_0,
-    const ptrdiff_t XQ_stride_2,
-    const ptrdiff_t K_stride_0,
-    const ptrdiff_t K_stride_1,
-    const ptrdiff_t K_stride_2,
-    const bool multiquery,
-    const float qk_scale) {
-  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
-
-  constexpr int32_t seq_positions_shift = 0;
-
-  extern __shared__ __align__(16) float smem[];
-
-  // Each block handles a single batch and head
-  const int32_t b = blockIdx.x;
-  const int32_t h = blockIdx.y;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_positions[b] + seq_positions_shift;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-
-  // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
-  // const auto* q_ = &(XQ_acc[b][0][h][0]);
-  const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
-  const auto* q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset =
-      b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
-  const auto* cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* cache_V_base = cache_V + cache_KV_base_offset;
-
-  // Load Q into registers in all wavefronts.
-  // Each thread handles 4 D dimensions
-  using data_t = typename c10_to_data_t<scalar_t>::type;
-  using data_vec4_t = typename c10_to_data_t<scalar_t>::vec4;
-  data_vec4_t q_thread;
-  load_v<decltype(q_), data_vec4_t>(q_, lane_idx, &q_thread);
-  // Each block computes different B value
-  float max_qk_acc = std::numeric_limits<float>::lowest();
-
-  // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-  // Split T across wavefronts in a block, unroll loads to expose more
-  // parallelism.
-
-  data_vec4_t k_loads[n_loop_unroll];
-
-  constexpr auto dtt = kWavefrontsPerBlock * n_loop_unroll;
-  const int32_t t_max_unroll = (t_max / dtt) * dtt;
-
-  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      const int32_t t = tt + ttt;
-      // load the K[b][t][h|0][:] row into registers
-      load_v<decltype(cache_K_base), data_vec4_t>(
-          cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-    }
-    float qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      ck::inner_product<data_vec4_t, data_vec4_t, float>(
-          q_thread, k_loads[ttt], qk_accs[ttt]);
-      qk_accs[ttt] *= qk_scale;
-
-      qk_accs[ttt] =
-          wavefrontReduce(qk_accs[ttt], [](float a, float b) { return a + b; });
-      max_qk_acc = max(qk_accs[ttt], max_qk_acc);
-    }
-    if (lane_idx == 0) {
-      auto* smem_base = smem + tt;
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        smem_base[ttt] = qk_accs[ttt];
-      }
-    }
-  }
-
-  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-       tt += wavefronts_per_block * n_loop_unroll_tail) {
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        // load the K[b][t][h|0][:] row into registers
-        load_v<decltype(cache_K_base), data_vec4_t>(
-            cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      }
-    }
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      float qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        ck::inner_product<data_vec4_t, data_vec4_t, float>(
-            q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
-
-        qk_acc =
-            wavefrontReduce(qk_acc, [](float a, float b) { return a + b; });
-        max_qk_acc = max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
-        if (lane_idx == 0) {
-          smem[t] = qk_acc;
-        }
-      }
-    }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[T_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = max(max_qk_acc, smem[T_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc = wavefrontReduce(
-      max_qk_acc, [](float a, float b) { return a > b ? a : b; });
-
-  // each wavefront computes partial sum of exp.
-  float softmax_denominator = 0.0f;
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += __expf(smem[t] - max_qk_acc);
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](float a, float b) { return a + b; });
-
-  __syncthreads();
-  if (lane_idx == 0) {
-    smem[T_MAX + wavefront_idx] = softmax_denominator;
-  }
-  __syncthreads();
-
-  // now, compute sum of exp(x - max(x)) over all intermediate results.
-  softmax_denominator = 0.0;
-  if (lane_idx < wavefronts_per_block) {
-    softmax_denominator = smem[T_MAX + lane_idx];
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](float a, float b) { return a + b; });
-
-  const float softmax_scale_factor = 1. / softmax_denominator;
-  // now, compute the normalization across all threads.
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = __expf(smem[t] - max_qk_acc) * softmax_scale_factor;
-  }
-  __syncthreads();
-
-  // Now, we can compute the softmax and write the outputs.
-
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
-
-  float ps[n_loop_unroll];
-  ck::float4_t o_acc = 0;
-  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      const int32_t t = tt + ttt;
-      // load the V[b][t][h|0][:] row into registers, reusing K register storage
-      load_v<decltype(cache_V_base), data_vec4_t>(
-          cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      ps[ttt] = smem[t];
-    }
-
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
-    }
-  }
-
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-       tt += wavefronts_per_block * n_loop_unroll_tail) {
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        // load the V[b][t][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<decltype(cache_V_base), data_vec4_t>(
-            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t];
-      }
-    }
-
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
-      }
-    }
-  }
-  // now, each thread has partial sums. Write to smem and get accumulated
-  // results back.
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
-  store_v<float*, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
-
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0) {
-    ck::float4_t r = 0;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      ck::float4_t partial_r;
-      load_v<float*, ck::float4_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r += partial_r;
-    }
-    // write output D row
-    data_vec4_t bf_r;
-    bf_r.x = ck::type_convert<data_t>(r.x);
-    bf_r.y = ck::type_convert<data_t>(r.y);
-    bf_r.z = ck::type_convert<data_t>(r.z);
-    bf_r.w = ck::type_convert<data_t>(r.w);
-    auto* o_ = O + XQO_base_offset;
-    store_v<decltype(o_), data_vec4_t>(o_, lane_idx, bf_r);
-  }
-}
-
-} // namespace
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-template <typename scalar_t>
-struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    const int32_t* __restrict__ seq_positions;
-    const ptrdiff_t XQ_stride_0;
-    const ptrdiff_t XQ_stride_2;
-    const ptrdiff_t K_stride_0;
-    const ptrdiff_t K_stride_1;
-    const ptrdiff_t K_stride_2;
-    const bool multiquery;
-    const float qk_scale;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        const int32_t* __restrict__ seq_positions,
-        const ptrdiff_t XQ_stride_0,
-        const ptrdiff_t XQ_stride_2,
-        const ptrdiff_t K_stride_0,
-        const ptrdiff_t K_stride_1,
-        const ptrdiff_t K_stride_2,
-        const bool multiquery,
-        const float qk_scale,
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          seq_positions(seq_positions),
-          XQ_stride_0(XQ_stride_0),
-          XQ_stride_2(XQ_stride_2),
-          K_stride_0(K_stride_0),
-          K_stride_1(K_stride_1),
-          K_stride_2(K_stride_2),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-  };
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      return launch_and_time_kernel(
-          stream_config,
-          efficient_attention_forward_decoder_ck_kernel<scalar_t>,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.O,
-          arg.seq_positions,
-          arg.XQ_stride_0,
-          arg.XQ_stride_2,
-          arg.K_stride_0,
-          arg.K_stride_1,
-          arg.K_stride_2,
-          arg.multiquery,
-          arg.qk_scale);
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
 namespace {
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
@@ -472,7 +51,9 @@ namespace {
       NAME,                                                 \
       AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
 
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock,
+          int32_t T_MAX = 8192,
+          int32_t D_H = 256>
 at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
@@ -511,8 +92,9 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
       XQ.scalar_type(),
       "efficient_attention_forward_decoder_ck",
       [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
         using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<scalar_t>;
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
         auto op = device_op_t{};
 
         auto XQ_acc =
@@ -526,10 +108,10 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
             seq_positions
                 .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
         auto arg = device_op_t::Argument(
-            XQ_acc.data(),
-            K_acc.data(),
-            V_acc.data(),
-            O_acc.data(),
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
             seq_acc.data(),
             XQ_acc.stride(0),
             XQ_acc.stride(2),
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
new file mode 100644
index 0000000000..be4cc790e3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -0,0 +1,427 @@
+#pragma once 
+
+#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/stream_config.hpp>
+#include <ck/tensor_operation/gpu/device/device_base.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/inner_product.hpp>
+
+namespace ck {
+template <>
+__device__ void inner_product<bhalf_t, bhalf_t, float>(
+    const bhalf_t& a,
+    const bhalf_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
+    const bhalf4_t& a,
+    const bhalf4_t& b,
+    float& c) {
+  const vector_type<bhalf_t, 4> a_vector{a};
+  const vector_type<bhalf_t, 4> b_vector{b};
+  ck::static_for<0, 4, 1>{}([&](auto i) {
+    inner_product(
+        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+  });
+}
+} // namespace ck
+
+namespace {
+
+template <typename data4_t>
+__device__ ck::float4_t scalar4_scale_acc(ck::float4_t acc, data4_t a, float b);
+
+template <>
+__device__ ck::float4_t scalar4_scale_acc<ck::float4_t>(
+    ck::float4_t acc,
+    ck::float4_t a,
+    float b) {
+  return acc + a * b;
+}
+
+template <>
+__device__ ck::float4_t scalar4_scale_acc<ck::half4_t>(
+    ck::float4_t acc,
+    ck::half4_t a,
+    float b) {
+  acc.x += ck::type_convert<float>(a.x) * b;
+  acc.y += ck::type_convert<float>(a.y) * b;
+  acc.z += ck::type_convert<float>(a.z) * b;
+  acc.w += ck::type_convert<float>(a.w) * b;
+  return acc;
+}
+
+template <>
+__device__ ck::float4_t scalar4_scale_acc<ck::bhalf4_t>(
+    ck::float4_t acc,
+    ck::bhalf4_t a,
+    float b) {
+  acc.x += ck::type_convert<float>(a.x) * b;
+  acc.y += ck::type_convert<float>(a.y) * b;
+  acc.z += ck::type_convert<float>(a.z) * b;
+  acc.w += ck::type_convert<float>(a.w) * b;
+  return acc;
+}
+
+template <typename F, int32_t n_threads_per_wavefront = 64>
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
+#pragma unroll
+  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
+    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+  }
+  return val;
+}
+
+template <typename TDataPtr, typename TDataVec>
+__forceinline__ __device__ void load_v(
+    TDataPtr data_ptr,
+    int32_t vector_offset,
+    TDataVec* load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+}
+
+template <typename TDataPtr, typename TDataVec>
+__forceinline__ __device__ void store_v(
+    TDataPtr data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+}
+
+template <
+    typename scalar_t,
+    int32_t n_loop_unroll = 16,
+    int32_t n_loop_unroll_tail = 2,
+    int32_t T_MAX = 8192,
+    int32_t n_wavefronts_per_block = 16>
+__global__ void efficient_attention_forward_decoder_ck_kernel(
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O,
+    const int32_t* __restrict__ seq_positions,
+    const ptrdiff_t XQ_stride_0,
+    const ptrdiff_t XQ_stride_2,
+    const ptrdiff_t K_stride_0,
+    const ptrdiff_t K_stride_1,
+    const ptrdiff_t K_stride_2,
+    const bool multiquery,
+    const float qk_scale) {
+  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
+
+  constexpr int32_t seq_positions_shift = 0;
+
+  extern __shared__ __align__(16) float smem[];
+
+  // Each block handles a single batch and head
+  const int32_t b = blockIdx.x;
+  const int32_t h = blockIdx.y;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  const int32_t t_max = seq_positions[b] + seq_positions_shift;
+
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
+
+  // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
+  // const auto* q_ = &(XQ_acc[b][0][h][0]);
+  const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
+  const auto* q_ = XQ + XQO_base_offset;
+
+  const auto cache_KV_base_offset =
+      b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+  const auto* cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* cache_V_base = cache_V + cache_KV_base_offset;
+
+  // Load Q into registers in all wavefronts.
+  // Each thread handles 4 D dimensions
+  using data_t = scalar_t;
+  using data_vec4_t = typename ck::vector_type<data_t, 4>::type;
+  data_vec4_t q_thread;
+  load_v<decltype(q_), data_vec4_t>(q_, lane_idx, &q_thread);
+  // Each block computes different B value
+  float max_qk_acc = std::numeric_limits<float>::lowest();
+
+  // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+  // Split T across wavefronts in a block, unroll loads to expose more
+  // parallelism.
+
+  data_vec4_t k_loads[n_loop_unroll];
+
+  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
+  const int32_t t_max_unroll = (t_max / dtt) * dtt;
+
+  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      const int32_t t = tt + ttt;
+      // load the K[b][t][h|0][:] row into registers
+      load_v<decltype(cache_K_base), data_vec4_t>(
+          cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+    }
+    float qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      ck::inner_product<data_vec4_t, data_vec4_t, float>(
+          q_thread, k_loads[ttt], qk_accs[ttt]);
+      qk_accs[ttt] *= qk_scale;
+
+      qk_accs[ttt] =
+          wavefrontReduce(qk_accs[ttt], [](float a, float b) { return a + b; });
+      max_qk_acc = max(qk_accs[ttt], max_qk_acc);
+    }
+    if (lane_idx == 0) {
+      auto* smem_base = smem + tt;
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        smem_base[ttt] = qk_accs[ttt];
+      }
+    }
+  }
+
+  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+       tt += wavefronts_per_block * n_loop_unroll_tail) {
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        // load the K[b][t][h|0][:] row into registers
+        load_v<decltype(cache_K_base), data_vec4_t>(
+            cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+      }
+    }
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      float qk_acc = 0;
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        ck::inner_product<data_vec4_t, data_vec4_t, float>(
+            q_thread, k_loads[ttt], qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc =
+            wavefrontReduce(qk_acc, [](float a, float b) { return a + b; });
+        max_qk_acc = max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t] = qk_acc;
+        }
+      }
+    }
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (lane_idx == 0) {
+    smem[T_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = max(max_qk_acc, smem[T_MAX + lane_idx]);
+  }
+  // shared across all threads in block
+  max_qk_acc = wavefrontReduce(
+      max_qk_acc, [](float a, float b) { return a > b ? a : b; });
+
+  // each wavefront computes partial sum of exp.
+  float softmax_denominator = 0.0f;
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    softmax_denominator += __expf(smem[t] - max_qk_acc);
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](float a, float b) { return a + b; });
+
+  __syncthreads();
+  if (lane_idx == 0) {
+    smem[T_MAX + wavefront_idx] = softmax_denominator;
+  }
+  __syncthreads();
+
+  // now, compute sum of exp(x - max(x)) over all intermediate results.
+  softmax_denominator = 0.0;
+  if (lane_idx < wavefronts_per_block) {
+    softmax_denominator = smem[T_MAX + lane_idx];
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](float a, float b) { return a + b; });
+
+  const float softmax_scale_factor = 1. / softmax_denominator;
+  // now, compute the normalization across all threads.
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    smem[t] = __expf(smem[t] - max_qk_acc) * softmax_scale_factor;
+  }
+  __syncthreads();
+
+  // Now, we can compute the softmax and write the outputs.
+
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
+
+  float ps[n_loop_unroll];
+  ck::float4_t o_acc = 0;
+  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      const int32_t t = tt + ttt;
+      // load the V[b][t][h|0][:] row into registers, reusing K register storage
+      load_v<decltype(cache_V_base), data_vec4_t>(
+          cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+      ps[ttt] = smem[t];
+    }
+
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
+    }
+  }
+
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+       tt += wavefronts_per_block * n_loop_unroll_tail) {
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        // load the V[b][t][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<decltype(cache_V_base), data_vec4_t>(
+            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+        ps[ttt] = smem[t];
+      }
+    }
+
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
+      }
+    }
+  }
+  // now, each thread has partial sums. Write to smem and get accumulated
+  // results back.
+  __syncthreads();
+
+  // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
+  store_v<float*, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
+
+  __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0) {
+    ck::float4_t r = 0;
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      ck::float4_t partial_r;
+      load_v<float*, ck::float4_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      r += partial_r;
+    }
+    // write output D row
+    data_vec4_t bf_r;
+    bf_r.x = ck::type_convert<data_t>(r.x);
+    bf_r.y = ck::type_convert<data_t>(r.y);
+    bf_r.z = ck::type_convert<data_t>(r.z);
+    bf_r.w = ck::type_convert<data_t>(r.w);
+    auto* o_ = O + XQO_base_offset;
+    store_v<decltype(o_), data_vec4_t>(o_, lane_idx, bf_r);
+  }
+}
+
+} // namespace
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <typename scalar_t>
+struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    const int32_t* __restrict__ seq_positions;
+    const ptrdiff_t XQ_stride_0;
+    const ptrdiff_t XQ_stride_2;
+    const ptrdiff_t K_stride_0;
+    const ptrdiff_t K_stride_1;
+    const ptrdiff_t K_stride_2;
+    const bool multiquery;
+    const float qk_scale;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        const int32_t* __restrict__ seq_positions,
+        const ptrdiff_t XQ_stride_0,
+        const ptrdiff_t XQ_stride_2,
+        const ptrdiff_t K_stride_0,
+        const ptrdiff_t K_stride_1,
+        const ptrdiff_t K_stride_2,
+        const bool multiquery,
+        const float qk_scale,
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          seq_positions(seq_positions),
+          XQ_stride_0(XQ_stride_0),
+          XQ_stride_2(XQ_stride_2),
+          K_stride_0(K_stride_0),
+          K_stride_1(K_stride_1),
+          K_stride_2(K_stride_2),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      return launch_and_time_kernel(
+          stream_config,
+          efficient_attention_forward_decoder_ck_kernel<scalar_t>,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.O,
+          arg.seq_positions,
+          arg.XQ_stride_0,
+          arg.XQ_stride_2,
+          arg.K_stride_0,
+          arg.K_stride_1,
+          arg.K_stride_2,
+          arg.multiquery,
+          arg.qk_scale);
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
\ No newline at end of file

From a4687e13b41db5e509b3eb68588c1d802ea8bba8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 7 Nov 2023 16:14:51 +0000
Subject: [PATCH 189/837] Tiny removing useless declaration

---
 .../csrc/attention/hip_fmha/ck_fmha_batched_forward.h    | 9 ---------
 1 file changed, 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 7959bb088f..80d440fa6f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -52,15 +52,6 @@ struct batched_forward_masktype_attnbias_dispatched {
       static_cast<ck::tensor_operation::device::MaskingSpecialization>(
           custom_mask_type);
 
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
   static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_FORWARD_HEADDIM_SWITCH

From 41a9502526de1a5318133a9a11abb1d5affecd4c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 8 Nov 2023 10:03:45 +0000
Subject: [PATCH 190/837] Use function wrapper instantiation to replace class
 instantiation to avoid inline compiling

---
 .../hip_fmha/ck_fmha_batched_backward.h       | 15 +++++
 .../ck_fmha_batched_backward_bp16.cpp         | 62 +++++++++----------
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |  8 +--
 ...backward_bp16_masktype_0_with_attnbias.cpp |  8 +--
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |  8 +--
 ...backward_bp16_masktype_1_with_attnbias.cpp |  8 +--
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |  8 +--
 ...backward_bp16_masktype_2_with_attnbias.cpp |  8 +--
 .../ck_fmha_batched_backward_fp16.cpp         | 62 +++++++++----------
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |  8 +--
 ...backward_fp16_masktype_0_with_attnbias.cpp |  8 +--
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |  8 +--
 ...backward_fp16_masktype_1_with_attnbias.cpp |  8 +--
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |  8 +--
 ...backward_fp16_masktype_2_with_attnbias.cpp |  8 +--
 .../hip_fmha/ck_fmha_batched_forward.h        |  9 +++
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp | 38 ++++++------
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |  4 +-
 ..._forward_bp16_masktype_0_with_attnbias.cpp |  4 +-
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |  4 +-
 ..._forward_bp16_masktype_1_with_attnbias.cpp |  4 +-
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |  4 +-
 ..._forward_bp16_masktype_2_with_attnbias.cpp |  4 +-
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp | 38 ++++++------
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |  4 +-
 ..._forward_fp16_masktype_0_with_attnbias.cpp |  4 +-
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |  4 +-
 ..._forward_fp16_masktype_1_with_attnbias.cpp |  4 +-
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |  4 +-
 ..._forward_fp16_masktype_2_with_attnbias.cpp |  4 +-
 .../hip_fmha/ck_fmha_batched_infer.h          | 10 +++
 .../hip_fmha/ck_fmha_batched_infer_bp16.cpp   | 38 ++++++------
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |  5 +-
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |  5 +-
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |  5 +-
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |  5 +-
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |  5 +-
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |  5 +-
 .../hip_fmha/ck_fmha_batched_infer_fp16.cpp   | 44 +++++++------
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |  5 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |  6 +-
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |  5 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |  6 +-
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |  5 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |  6 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       | 15 +++++
 .../ck_fmha_grouped_backward_bp16.cpp         | 62 +++++++++----------
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |  8 +--
 ...backward_bp16_masktype_0_with_attnbias.cpp |  8 +--
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |  8 +--
 ...backward_bp16_masktype_1_with_attnbias.cpp |  8 +--
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |  8 +--
 ...backward_bp16_masktype_2_with_attnbias.cpp |  8 +--
 .../ck_fmha_grouped_backward_fp16.cpp         | 62 +++++++++----------
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |  8 +--
 ...backward_fp16_masktype_0_with_attnbias.cpp |  8 +--
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |  8 +--
 ...backward_fp16_masktype_1_with_attnbias.cpp |  8 +--
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |  8 +--
 ...backward_fp16_masktype_2_with_attnbias.cpp |  8 +--
 .../hip_fmha/ck_fmha_grouped_forward.h        | 10 +++
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp | 38 ++++++------
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |  4 +-
 ..._forward_bp16_masktype_0_with_attnbias.cpp |  4 +-
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |  4 +-
 ..._forward_bp16_masktype_1_with_attnbias.cpp |  4 +-
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |  4 +-
 ..._forward_bp16_masktype_2_with_attnbias.cpp |  4 +-
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp | 38 ++++++------
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |  4 +-
 ..._forward_fp16_masktype_0_with_attnbias.cpp |  4 +-
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |  4 +-
 ..._forward_fp16_masktype_1_with_attnbias.cpp |  4 +-
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |  4 +-
 ..._forward_fp16_masktype_2_with_attnbias.cpp |  4 +-
 .../hip_fmha/ck_fmha_grouped_infer.h          | 10 +++
 .../hip_fmha/ck_fmha_grouped_infer_bp16.cpp   | 38 ++++++------
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |  5 +-
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |  5 +-
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |  5 +-
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |  5 +-
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |  5 +-
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |  5 +-
 .../hip_fmha/ck_fmha_grouped_infer_fp16.cpp   | 44 +++++++------
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |  5 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |  6 +-
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |  5 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |  6 +-
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |  5 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |  6 +-
 90 files changed, 561 insertions(+), 486 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 9de59b5bd9..1663e9c528 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -500,3 +500,18 @@ struct batched_backward_masktype_attnbias_dispatched {
     (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
 };
+
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
+void run_batched_backward_masktype_attnbias_dispatched(
+    BatchedBackwardParams& param,
+    hipStream_t stream) {
+  batched_backward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias,
+      use_fp32_qkv_grad>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 81615faf96..441a4f9cf0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -1,80 +1,80 @@
 #include <ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_batched_backward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_batched_backward.h"
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
@@ -84,23 +84,23 @@ void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
       USE_FP32_QKV_GRAD,
       [&] {
         if (param.custom_mask_type == 0)
-          batched_backward_masktype_attnbias_dispatched<
+          run_batched_backward_masktype_attnbias_dispatched<
               ck::bhalf_t,
               0,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         else if (param.custom_mask_type == 1)
-          batched_backward_masktype_attnbias_dispatched<
+          run_batched_backward_masktype_attnbias_dispatched<
               ck::bhalf_t,
               1,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         else if (param.custom_mask_type == 2)
-          batched_backward_masktype_attnbias_dispatched<
+          run_batched_backward_masktype_attnbias_dispatched<
               ck::bhalf_t,
               2,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         else
           throw std::runtime_error("Invalid custom_mask_type value");
       });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
index 52541f3801..2bf962a9f1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
index 7bf0a59596..b3c5bbf70a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
index 6420ddf15e..4a96b4a3d4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
index b10c2895cc..37ec0f03ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
index aca4acbf27..c80a479523 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
index c8ef030504..c1dc61c5a1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index 3527beba7e..1868a59570 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -1,80 +1,80 @@
 #include <ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_batched_backward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_batched_backward.h"
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template struct batched_backward_masktype_attnbias_dispatched<
+extern template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
@@ -84,23 +84,23 @@ void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
       USE_FP32_QKV_GRAD,
       [&] {
         if (param.custom_mask_type == 0)
-          batched_backward_masktype_attnbias_dispatched<
+          run_batched_backward_masktype_attnbias_dispatched<
               ck::half_t,
               0,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         else if (param.custom_mask_type == 1)
-          batched_backward_masktype_attnbias_dispatched<
+          run_batched_backward_masktype_attnbias_dispatched<
               ck::half_t,
               1,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         else if (param.custom_mask_type == 2)
-          batched_backward_masktype_attnbias_dispatched<
+          run_batched_backward_masktype_attnbias_dispatched<
               ck::half_t,
               2,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         else
           throw std::runtime_error("Invalid custom_mask_type value");
       });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
index 6421a77b33..46caaa20dd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
index 7e7bc9ad4b..c328beb8d2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
index cbfa45b676..2897cba5d0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
index dc2df739a9..62b82e22a1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
@@ -3,14 +3,14 @@
 
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
index 1f77acb1ce..1ea6309d6b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
index 5743fb768e..24f2ce4b2c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    true>;
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-template struct batched_backward_masktype_attnbias_dispatched<
+template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    false>;
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 80d440fa6f..7b51932567 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -360,3 +360,12 @@ struct batched_forward_masktype_attnbias_dispatched {
     invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
 };
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void run_batched_forward_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
+{
+  batched_forward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 865c2de586..91d73009db 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -1,56 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_batched_forward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_batched_forward.h"
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      batched_forward_masktype_attnbias_dispatched<
+      run_batched_forward_masktype_attnbias_dispatched<
           ck::bhalf_t,
           0,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      batched_forward_masktype_attnbias_dispatched<
+      run_batched_forward_masktype_attnbias_dispatched<
           ck::bhalf_t,
           1,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      batched_forward_masktype_attnbias_dispatched<
+      run_batched_forward_masktype_attnbias_dispatched<
           ck::bhalf_t,
           2,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
index be1d4f58d2..140cffce0c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
index 54091ff9b5..bb32b63ef1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
index 8f2778fd60..6ba23b3a2a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
index da35f17b9a..400df0b3dc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
index f775af0d67..a994861489 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
index ad9950d936..23305b07a6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index fe8371bb47..557f6fb8a7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -1,56 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_batched_forward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_batched_forward.h"
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_forward_masktype_attnbias_dispatched<
+extern template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      batched_forward_masktype_attnbias_dispatched<
+      run_batched_forward_masktype_attnbias_dispatched<
           ck::half_t,
           0,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      batched_forward_masktype_attnbias_dispatched<
+      run_batched_forward_masktype_attnbias_dispatched<
           ck::half_t,
           1,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      batched_forward_masktype_attnbias_dispatched<
+      run_batched_forward_masktype_attnbias_dispatched<
           ck::half_t,
           2,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
index 8af5e20f81..a9dd771ded 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
index 22568941d5..f653451ab7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
index 466dcc9a3b..5ca4b7ddaf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
index 7346ec8043..f9af4528dd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
index c7f68924b5..44e98d9a32 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
index d7a5106f8a..8dfc288f8d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template struct batched_forward_masktype_attnbias_dispatched<
+template void run_batched_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index adf04e82ac..c76a30b73d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -340,3 +340,13 @@ struct batched_infer_masktype_attnbias_dispatched {
     invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
 };
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void run_batched_infer_masktype_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  batched_infer_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
index 095487f92c..628f7ec84c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
@@ -1,56 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_batched_infer.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_batched_infer.h"
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      batched_infer_masktype_attnbias_dispatched<
+      run_batched_infer_masktype_attnbias_dispatched<
           ck::bhalf_t,
           0,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      batched_infer_masktype_attnbias_dispatched<
+      run_batched_infer_masktype_attnbias_dispatched<
           ck::bhalf_t,
           1,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      batched_infer_masktype_attnbias_dispatched<
+      run_batched_infer_masktype_attnbias_dispatched<
           ck::bhalf_t,
           2,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
index 9e1947e670..9748955e14 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
index e6c5c49fee..418f925c2a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
index 9227f70635..a7cdb48b83 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
index fab0289011..578855b9b4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
index 0d7a88e0e0..35e9bca9c0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
index 57af33adb1..e27e3b5ff9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
index 8e5b01fa00..5e4c861c22 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
@@ -1,50 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_batched_infer.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_batched_infer.h"
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    true>;
+    true>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template struct batched_infer_masktype_attnbias_dispatched<
+extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>::
-          Run(param, stream);
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>::
-          Run(param, stream);
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>::
-          Run(param, stream);
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
index 838baed946..5c83b0abd6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
index 0d5f091c2a..11c76b35f3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,6 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
index 21324abb57..b13f5a4c9b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
index 0e8a8c384b..12f5991c4b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,6 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
index 19b4aa0f7e..8d45859e52 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<
+template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
index e471b0550c..9f03be2b5c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,6 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_batched_infer.h"
 
-template struct batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index b3d5d917f0..71674bda74 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -501,3 +501,18 @@ struct grouped_backward_masktype_attnbias_dispatched {
     (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
 };
+
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
+void run_grouped_backward_masktype_attnbias_dispatched(
+    GroupedBackwardParams& param,
+    hipStream_t stream) {
+  grouped_backward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias,
+      use_fp32_qkv_grad>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index 709a4328f2..89a73b3d19 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -1,80 +1,80 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_grouped_backward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_grouped_backward.h"
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
 void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
@@ -84,23 +84,23 @@ void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
       USE_FP32_QKV_GRAD,
       [&] {
         if (param.custom_mask_type == 0) {
-          grouped_backward_masktype_attnbias_dispatched<
+          run_grouped_backward_masktype_attnbias_dispatched<
               ck::bhalf_t,
               0,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         } else if (param.custom_mask_type == 1) {
-          grouped_backward_masktype_attnbias_dispatched<
+          run_grouped_backward_masktype_attnbias_dispatched<
               ck::bhalf_t,
               1,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         } else if (param.custom_mask_type == 2) {
-          grouped_backward_masktype_attnbias_dispatched<
+          run_grouped_backward_masktype_attnbias_dispatched<
               ck::bhalf_t,
               2,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         } else
           throw std::runtime_error("Invalid custom_mask_type value");
       });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
index 558cd3d68c..1b261e938c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
index 52e36a445a..8cb42c808e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
index 47e5e97e5a..ebefe8baba 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
index 542226d72c..1d7de293ea 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
index 833c49504d..524fb30e59 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
index 6772bbac77..58f2f8b1a9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index 2885df9b5d..c0e35f63db 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -1,80 +1,80 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_grouped_backward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_grouped_backward.h"
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template struct grouped_backward_masktype_attnbias_dispatched<
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
@@ -84,23 +84,23 @@ void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
       USE_FP32_QKV_GRAD,
       [&] {
         if (param.custom_mask_type == 0) {
-          grouped_backward_masktype_attnbias_dispatched<
+          run_grouped_backward_masktype_attnbias_dispatched<
               ck::half_t,
               0,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         } else if (param.custom_mask_type == 1) {
-          grouped_backward_masktype_attnbias_dispatched<
+          run_grouped_backward_masktype_attnbias_dispatched<
               ck::half_t,
               1,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         } else if (param.custom_mask_type == 2) {
-          grouped_backward_masktype_attnbias_dispatched<
+          run_grouped_backward_masktype_attnbias_dispatched<
               ck::half_t,
               2,
               HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>::Run(param, stream);
+              USE_FP32_QKV_GRAD>(param, stream);
         } else
           throw std::runtime_error("Invalid custom_mask_type value");
       });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
index 85d0fbfd7a..1098e69beb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
index 69a3839e7e..60583a8592 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
index 7e826ab00a..b8aabeb862 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
index 1235af9a6a..8629a947ad 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
index 1cec428a6c..00b0f5c32c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     false,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
index c01bea26ba..8b6112aba9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
@@ -1,14 +1,14 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    true>;
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-template struct grouped_backward_masktype_attnbias_dispatched<
+template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
     true,
-    false>;
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 3e388414b2..9eebcfa14b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -357,3 +357,13 @@ struct grouped_forward_masktype_attnbias_dispatched {
     (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
 };
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void run_grouped_forward_masktype_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_forward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index b4b10a60ad..0301588091 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -1,56 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_grouped_forward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_grouped_forward.h"
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      grouped_forward_masktype_attnbias_dispatched<
+      run_grouped_forward_masktype_attnbias_dispatched<
           ck::bhalf_t,
           0,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      grouped_forward_masktype_attnbias_dispatched<
+      run_grouped_forward_masktype_attnbias_dispatched<
           ck::bhalf_t,
           1,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      grouped_forward_masktype_attnbias_dispatched<
+      run_grouped_forward_masktype_attnbias_dispatched<
           ck::bhalf_t,
           2,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
index 8083cb25ce..bfde13c7df 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
index a0d3681f15..85e853c36b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
index f877be39f9..d86afa1aa2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
index aca8091ab0..dd58b5b287 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
index f9ade6d612..085245c08e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
index 0014a5e69b..8c3ea29a45 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index 7c7ef74add..5338eab35c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -1,56 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_grouped_forward.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_grouped_forward.h"
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_forward_masktype_attnbias_dispatched<
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      grouped_forward_masktype_attnbias_dispatched<
+      run_grouped_forward_masktype_attnbias_dispatched<
           ck::half_t,
           0,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      grouped_forward_masktype_attnbias_dispatched<
+      run_grouped_forward_masktype_attnbias_dispatched<
           ck::half_t,
           1,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      grouped_forward_masktype_attnbias_dispatched<
+      run_grouped_forward_masktype_attnbias_dispatched<
           ck::half_t,
           2,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
index 3d62db8509..19adc39718 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
index 1b80b483c9..6da5508d3c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
index 26d5bccd16..f97de6fb3d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
index 3eae0ae71b..5bd33901b4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
index 9bba3eecae..155c9eb6c6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
index 2d5152e873..29f3ed1a36 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template struct grouped_forward_masktype_attnbias_dispatched<
+template void run_grouped_forward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 1b907d3702..31a90d2003 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -341,3 +341,13 @@ struct grouped_infer_masktype_attnbias_dispatched {
     (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
   };
 };
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void run_grouped_infer_masktype_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_infer_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
index 4310d4f396..56c974264c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
@@ -1,56 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_grouped_infer.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_grouped_infer.h"
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      grouped_infer_masktype_attnbias_dispatched<
+      run_grouped_infer_masktype_attnbias_dispatched<
           ck::bhalf_t,
           0,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      grouped_infer_masktype_attnbias_dispatched<
+      run_grouped_infer_masktype_attnbias_dispatched<
           ck::bhalf_t,
           1,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      grouped_infer_masktype_attnbias_dispatched<
+      run_grouped_infer_masktype_attnbias_dispatched<
           ck::bhalf_t,
           2,
-          HAS_ATTN_BIAS>::Run(param, stream);
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
index 67b1dae7c4..973213413a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
index 343ba049d6..96e0ba425d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
index c42bacba31..332724e736 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
index fc9563043f..cb1120f5b0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
index 2599755a02..51ed70cabb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
index bf9183e863..c157e89c1e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
index 9a015601f8..0ca1c3eba6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
@@ -1,50 +1,56 @@
 #include <ck/ck.hpp>
 #include <stdexcept>
 
-#include "ck_fmha_grouped_infer.h"
 #include "ck_bool_switch.h"
+#include "ck_fmha_grouped_infer.h"
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    true>;
+    true>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template struct grouped_infer_masktype_attnbias_dispatched<
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
     if (param.custom_mask_type == 0)
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>::
-          Run(param, stream);
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 1)
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>::
-          Run(param, stream);
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
     else if (param.custom_mask_type == 2)
-      grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>::
-          Run(param, stream);
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
     else
       throw std::runtime_error("Invalid custom_mask_type value");
   });
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
index 39b4a9adf9..bbcd3ab0e9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     0,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
index 7bda05420f..e320f5de69 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,6 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>;
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
index 34c2c97c05..e763dde6ae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     1,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
index 66c2d5724d..3ec2d41da3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,6 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>;
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
index ab0d8176d7..dee7a0845b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,9 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<
+template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
     2,
-    false>;
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
index 8bcb37f74f..b5515e9a08 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,6 +1,8 @@
 #include <ck/ck.hpp>
-#include <stdexcept>
 
 #include "ck_fmha_grouped_infer.h"
 
-template struct grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>;
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);

From efab61e55775a3a8610f50c4f84add839cf29adb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 8 Nov 2023 14:43:56 +0000
Subject: [PATCH 191/837] Move instances cpp to instances sub-directory

---
 setup.py                                        |  4 ++--
 ...hed_backward_bp16_masktype_0_no_attnbias.cpp |  0
 ...ched_backward_bp16_masktype_0_no_attnbias.cu | 14 ++++++++++++++
 ...hed_backward_bp16_masktype_0_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_bp16_masktype_0_with_attnbias.cpp |  0
 ...ed_backward_bp16_masktype_0_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_bp16_masktype_0_with_attnbias.hip | 15 +++++++++++++++
 ...hed_backward_bp16_masktype_1_no_attnbias.cpp |  0
 ...ched_backward_bp16_masktype_1_no_attnbias.cu | 14 ++++++++++++++
 ...hed_backward_bp16_masktype_1_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_bp16_masktype_1_with_attnbias.cpp |  0
 ...ed_backward_bp16_masktype_1_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_bp16_masktype_1_with_attnbias.hip | 15 +++++++++++++++
 ...hed_backward_bp16_masktype_2_no_attnbias.cpp |  0
 ...ched_backward_bp16_masktype_2_no_attnbias.cu | 14 ++++++++++++++
 ...hed_backward_bp16_masktype_2_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_bp16_masktype_2_with_attnbias.cpp |  0
 ...ed_backward_bp16_masktype_2_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_bp16_masktype_2_with_attnbias.hip | 15 +++++++++++++++
 ...hed_backward_fp16_masktype_0_no_attnbias.cpp |  0
 ...ched_backward_fp16_masktype_0_no_attnbias.cu | 14 ++++++++++++++
 ...hed_backward_fp16_masktype_0_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_fp16_masktype_0_with_attnbias.cpp |  0
 ...ed_backward_fp16_masktype_0_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_fp16_masktype_0_with_attnbias.hip | 15 +++++++++++++++
 ...hed_backward_fp16_masktype_1_no_attnbias.cpp |  0
 ...ched_backward_fp16_masktype_1_no_attnbias.cu | 14 ++++++++++++++
 ...hed_backward_fp16_masktype_1_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_fp16_masktype_1_with_attnbias.cpp |  0
 ...ed_backward_fp16_masktype_1_with_attnbias.cu | 16 ++++++++++++++++
 ...d_backward_fp16_masktype_1_with_attnbias.hip | 17 +++++++++++++++++
 ...hed_backward_fp16_masktype_2_no_attnbias.cpp |  0
 ...ched_backward_fp16_masktype_2_no_attnbias.cu | 14 ++++++++++++++
 ...hed_backward_fp16_masktype_2_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_fp16_masktype_2_with_attnbias.cpp |  0
 ...ed_backward_fp16_masktype_2_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_fp16_masktype_2_with_attnbias.hip | 15 +++++++++++++++
 ...ched_forward_bp16_masktype_0_no_attnbias.cpp |  0
 ...tched_forward_bp16_masktype_0_no_attnbias.cu |  7 +++++++
 ...ched_forward_bp16_masktype_0_no_attnbias.hip |  8 ++++++++
 ...ed_forward_bp16_masktype_0_with_attnbias.cpp |  0
 ...hed_forward_bp16_masktype_0_with_attnbias.cu |  7 +++++++
 ...ed_forward_bp16_masktype_0_with_attnbias.hip |  8 ++++++++
 ...ched_forward_bp16_masktype_1_no_attnbias.cpp |  0
 ...tched_forward_bp16_masktype_1_no_attnbias.cu |  7 +++++++
 ...ched_forward_bp16_masktype_1_no_attnbias.hip |  8 ++++++++
 ...ed_forward_bp16_masktype_1_with_attnbias.cpp |  0
 ...hed_forward_bp16_masktype_1_with_attnbias.cu |  7 +++++++
 ...ed_forward_bp16_masktype_1_with_attnbias.hip |  8 ++++++++
 ...ched_forward_bp16_masktype_2_no_attnbias.cpp |  0
 ...tched_forward_bp16_masktype_2_no_attnbias.cu |  7 +++++++
 ...ched_forward_bp16_masktype_2_no_attnbias.hip |  8 ++++++++
 ...ed_forward_bp16_masktype_2_with_attnbias.cpp |  0
 ...hed_forward_bp16_masktype_2_with_attnbias.cu |  7 +++++++
 ...ed_forward_bp16_masktype_2_with_attnbias.hip |  8 ++++++++
 ...ched_forward_fp16_masktype_0_no_attnbias.cpp |  0
 ...tched_forward_fp16_masktype_0_no_attnbias.cu |  7 +++++++
 ...ched_forward_fp16_masktype_0_no_attnbias.hip |  8 ++++++++
 ...ed_forward_fp16_masktype_0_with_attnbias.cpp |  0
 ...hed_forward_fp16_masktype_0_with_attnbias.cu |  7 +++++++
 ...ed_forward_fp16_masktype_0_with_attnbias.hip |  8 ++++++++
 ...ched_forward_fp16_masktype_1_no_attnbias.cpp |  0
 ...tched_forward_fp16_masktype_1_no_attnbias.cu |  7 +++++++
 ...ched_forward_fp16_masktype_1_no_attnbias.hip |  8 ++++++++
 ...ed_forward_fp16_masktype_1_with_attnbias.cpp |  0
 ...hed_forward_fp16_masktype_1_with_attnbias.cu |  7 +++++++
 ...ed_forward_fp16_masktype_1_with_attnbias.hip |  8 ++++++++
 ...ched_forward_fp16_masktype_2_no_attnbias.cpp |  0
 ...tched_forward_fp16_masktype_2_no_attnbias.cu |  7 +++++++
 ...ched_forward_fp16_masktype_2_no_attnbias.hip |  8 ++++++++
 ...ed_forward_fp16_masktype_2_with_attnbias.cpp |  0
 ...hed_forward_fp16_masktype_2_with_attnbias.cu |  7 +++++++
 ...ed_forward_fp16_masktype_2_with_attnbias.hip |  8 ++++++++
 ...atched_infer_bp16_masktype_0_no_attnbias.cpp |  0
 ...batched_infer_bp16_masktype_0_no_attnbias.cu |  8 ++++++++
 ...atched_infer_bp16_masktype_0_no_attnbias.hip |  9 +++++++++
 ...ched_infer_bp16_masktype_0_with_attnbias.cpp |  0
 ...tched_infer_bp16_masktype_0_with_attnbias.cu |  8 ++++++++
 ...ched_infer_bp16_masktype_0_with_attnbias.hip |  9 +++++++++
 ...atched_infer_bp16_masktype_1_no_attnbias.cpp |  0
 ...batched_infer_bp16_masktype_1_no_attnbias.cu |  8 ++++++++
 ...atched_infer_bp16_masktype_1_no_attnbias.hip |  9 +++++++++
 ...ched_infer_bp16_masktype_1_with_attnbias.cpp |  0
 ...tched_infer_bp16_masktype_1_with_attnbias.cu |  8 ++++++++
 ...ched_infer_bp16_masktype_1_with_attnbias.hip |  9 +++++++++
 ...atched_infer_bp16_masktype_2_no_attnbias.cpp |  0
 ...batched_infer_bp16_masktype_2_no_attnbias.cu |  8 ++++++++
 ...atched_infer_bp16_masktype_2_no_attnbias.hip |  9 +++++++++
 ...ched_infer_bp16_masktype_2_with_attnbias.cpp |  0
 ...tched_infer_bp16_masktype_2_with_attnbias.cu |  8 ++++++++
 ...ched_infer_bp16_masktype_2_with_attnbias.hip |  9 +++++++++
 ...atched_infer_fp16_masktype_0_no_attnbias.cpp |  0
 ...batched_infer_fp16_masktype_0_no_attnbias.cu |  8 ++++++++
 ...atched_infer_fp16_masktype_0_no_attnbias.hip |  9 +++++++++
 ...ched_infer_fp16_masktype_0_with_attnbias.cpp |  0
 ...tched_infer_fp16_masktype_0_with_attnbias.cu |  8 ++++++++
 ...ched_infer_fp16_masktype_0_with_attnbias.hip |  9 +++++++++
 ...atched_infer_fp16_masktype_1_no_attnbias.cpp |  0
 ...batched_infer_fp16_masktype_1_no_attnbias.cu |  8 ++++++++
 ...atched_infer_fp16_masktype_1_no_attnbias.hip |  9 +++++++++
 ...ched_infer_fp16_masktype_1_with_attnbias.cpp |  0
 ...tched_infer_fp16_masktype_1_with_attnbias.cu |  8 ++++++++
 ...ched_infer_fp16_masktype_1_with_attnbias.hip |  9 +++++++++
 ...atched_infer_fp16_masktype_2_no_attnbias.cpp |  0
 ...batched_infer_fp16_masktype_2_no_attnbias.cu |  8 ++++++++
 ...atched_infer_fp16_masktype_2_no_attnbias.hip |  9 +++++++++
 ...ched_infer_fp16_masktype_2_with_attnbias.cpp |  0
 ...tched_infer_fp16_masktype_2_with_attnbias.cu |  8 ++++++++
 ...ched_infer_fp16_masktype_2_with_attnbias.hip |  9 +++++++++
 ...ped_backward_bp16_masktype_0_no_attnbias.cpp |  0
 ...uped_backward_bp16_masktype_0_no_attnbias.cu | 14 ++++++++++++++
 ...ped_backward_bp16_masktype_0_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_bp16_masktype_0_with_attnbias.cpp |  0
 ...ed_backward_bp16_masktype_0_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_bp16_masktype_0_with_attnbias.hip | 15 +++++++++++++++
 ...ped_backward_bp16_masktype_1_no_attnbias.cpp |  0
 ...uped_backward_bp16_masktype_1_no_attnbias.cu | 14 ++++++++++++++
 ...ped_backward_bp16_masktype_1_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_bp16_masktype_1_with_attnbias.cpp |  0
 ...ed_backward_bp16_masktype_1_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_bp16_masktype_1_with_attnbias.hip | 15 +++++++++++++++
 ...ped_backward_bp16_masktype_2_no_attnbias.cpp |  0
 ...uped_backward_bp16_masktype_2_no_attnbias.cu | 14 ++++++++++++++
 ...ped_backward_bp16_masktype_2_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_bp16_masktype_2_with_attnbias.cpp |  0
 ...ed_backward_bp16_masktype_2_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_bp16_masktype_2_with_attnbias.hip | 15 +++++++++++++++
 ...ped_backward_fp16_masktype_0_no_attnbias.cpp |  0
 ...uped_backward_fp16_masktype_0_no_attnbias.cu | 14 ++++++++++++++
 ...ped_backward_fp16_masktype_0_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_fp16_masktype_0_with_attnbias.cpp |  0
 ...ed_backward_fp16_masktype_0_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_fp16_masktype_0_with_attnbias.hip | 15 +++++++++++++++
 ...ped_backward_fp16_masktype_1_no_attnbias.cpp |  0
 ...uped_backward_fp16_masktype_1_no_attnbias.cu | 14 ++++++++++++++
 ...ped_backward_fp16_masktype_1_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_fp16_masktype_1_with_attnbias.cpp |  0
 ...ed_backward_fp16_masktype_1_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_fp16_masktype_1_with_attnbias.hip | 15 +++++++++++++++
 ...ped_backward_fp16_masktype_2_no_attnbias.cpp |  0
 ...uped_backward_fp16_masktype_2_no_attnbias.cu | 14 ++++++++++++++
 ...ped_backward_fp16_masktype_2_no_attnbias.hip | 15 +++++++++++++++
 ...d_backward_fp16_masktype_2_with_attnbias.cpp |  0
 ...ed_backward_fp16_masktype_2_with_attnbias.cu | 14 ++++++++++++++
 ...d_backward_fp16_masktype_2_with_attnbias.hip | 15 +++++++++++++++
 ...uped_forward_bp16_masktype_0_no_attnbias.cpp |  0
 ...ouped_forward_bp16_masktype_0_no_attnbias.cu |  7 +++++++
 ...uped_forward_bp16_masktype_0_no_attnbias.hip |  8 ++++++++
 ...ed_forward_bp16_masktype_0_with_attnbias.cpp |  0
 ...ped_forward_bp16_masktype_0_with_attnbias.cu |  7 +++++++
 ...ed_forward_bp16_masktype_0_with_attnbias.hip |  8 ++++++++
 ...uped_forward_bp16_masktype_1_no_attnbias.cpp |  0
 ...ouped_forward_bp16_masktype_1_no_attnbias.cu |  7 +++++++
 ...uped_forward_bp16_masktype_1_no_attnbias.hip |  8 ++++++++
 ...ed_forward_bp16_masktype_1_with_attnbias.cpp |  0
 ...ped_forward_bp16_masktype_1_with_attnbias.cu |  7 +++++++
 ...ed_forward_bp16_masktype_1_with_attnbias.hip |  8 ++++++++
 ...uped_forward_bp16_masktype_2_no_attnbias.cpp |  0
 ...ouped_forward_bp16_masktype_2_no_attnbias.cu |  7 +++++++
 ...uped_forward_bp16_masktype_2_no_attnbias.hip |  8 ++++++++
 ...ed_forward_bp16_masktype_2_with_attnbias.cpp |  0
 ...ped_forward_bp16_masktype_2_with_attnbias.cu |  7 +++++++
 ...ed_forward_bp16_masktype_2_with_attnbias.hip |  8 ++++++++
 ...uped_forward_fp16_masktype_0_no_attnbias.cpp |  0
 ...ouped_forward_fp16_masktype_0_no_attnbias.cu |  7 +++++++
 ...uped_forward_fp16_masktype_0_no_attnbias.hip |  8 ++++++++
 ...ed_forward_fp16_masktype_0_with_attnbias.cpp |  0
 ...ped_forward_fp16_masktype_0_with_attnbias.cu |  7 +++++++
 ...ed_forward_fp16_masktype_0_with_attnbias.hip |  8 ++++++++
 ...uped_forward_fp16_masktype_1_no_attnbias.cpp |  0
 ...ouped_forward_fp16_masktype_1_no_attnbias.cu |  7 +++++++
 ...uped_forward_fp16_masktype_1_no_attnbias.hip |  8 ++++++++
 ...ed_forward_fp16_masktype_1_with_attnbias.cpp |  0
 ...ped_forward_fp16_masktype_1_with_attnbias.cu |  7 +++++++
 ...ed_forward_fp16_masktype_1_with_attnbias.hip |  8 ++++++++
 ...uped_forward_fp16_masktype_2_no_attnbias.cpp |  0
 ...ouped_forward_fp16_masktype_2_no_attnbias.cu |  7 +++++++
 ...uped_forward_fp16_masktype_2_no_attnbias.hip |  8 ++++++++
 ...ed_forward_fp16_masktype_2_with_attnbias.cpp |  0
 ...ped_forward_fp16_masktype_2_with_attnbias.cu |  7 +++++++
 ...ed_forward_fp16_masktype_2_with_attnbias.hip |  8 ++++++++
 ...rouped_infer_bp16_masktype_0_no_attnbias.cpp |  0
 ...grouped_infer_bp16_masktype_0_no_attnbias.cu |  8 ++++++++
 ...rouped_infer_bp16_masktype_0_no_attnbias.hip |  9 +++++++++
 ...uped_infer_bp16_masktype_0_with_attnbias.cpp |  0
 ...ouped_infer_bp16_masktype_0_with_attnbias.cu |  8 ++++++++
 ...uped_infer_bp16_masktype_0_with_attnbias.hip |  9 +++++++++
 ...rouped_infer_bp16_masktype_1_no_attnbias.cpp |  0
 ...grouped_infer_bp16_masktype_1_no_attnbias.cu |  8 ++++++++
 ...rouped_infer_bp16_masktype_1_no_attnbias.hip |  9 +++++++++
 ...uped_infer_bp16_masktype_1_with_attnbias.cpp |  0
 ...ouped_infer_bp16_masktype_1_with_attnbias.cu |  8 ++++++++
 ...uped_infer_bp16_masktype_1_with_attnbias.hip |  9 +++++++++
 ...rouped_infer_bp16_masktype_2_no_attnbias.cpp |  0
 ...grouped_infer_bp16_masktype_2_no_attnbias.cu |  8 ++++++++
 ...rouped_infer_bp16_masktype_2_no_attnbias.hip |  9 +++++++++
 ...uped_infer_bp16_masktype_2_with_attnbias.cpp |  0
 ...ouped_infer_bp16_masktype_2_with_attnbias.cu |  8 ++++++++
 ...uped_infer_bp16_masktype_2_with_attnbias.hip |  9 +++++++++
 ...rouped_infer_fp16_masktype_0_no_attnbias.cpp |  0
 ...grouped_infer_fp16_masktype_0_no_attnbias.cu |  8 ++++++++
 ...rouped_infer_fp16_masktype_0_no_attnbias.hip |  9 +++++++++
 ...uped_infer_fp16_masktype_0_with_attnbias.cpp |  0
 ...ouped_infer_fp16_masktype_0_with_attnbias.cu |  8 ++++++++
 ...uped_infer_fp16_masktype_0_with_attnbias.hip |  9 +++++++++
 ...rouped_infer_fp16_masktype_1_no_attnbias.cpp |  0
 ...grouped_infer_fp16_masktype_1_no_attnbias.cu |  8 ++++++++
 ...rouped_infer_fp16_masktype_1_no_attnbias.hip |  9 +++++++++
 ...uped_infer_fp16_masktype_1_with_attnbias.cpp |  0
 ...ouped_infer_fp16_masktype_1_with_attnbias.cu |  8 ++++++++
 ...uped_infer_fp16_masktype_1_with_attnbias.hip |  9 +++++++++
 ...rouped_infer_fp16_masktype_2_no_attnbias.cpp |  0
 ...grouped_infer_fp16_masktype_2_no_attnbias.cu |  8 ++++++++
 ...rouped_infer_fp16_masktype_2_no_attnbias.hip |  9 +++++++++
 ...uped_infer_fp16_masktype_2_with_attnbias.cpp |  0
 ...ouped_infer_fp16_masktype_2_with_attnbias.cu |  8 ++++++++
 ...uped_infer_fp16_masktype_2_with_attnbias.hip |  9 +++++++++
 217 files changed, 1470 insertions(+), 2 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip
 rename xformers/csrc/attention/hip_fmha/{ => instances}/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip

diff --git a/setup.py b/setup.py
index 647e09620d..01d86ee25c 100644
--- a/setup.py
+++ b/setup.py
@@ -208,7 +208,7 @@ def get_extensions():
     source_cuda += glob.glob(os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True)
     source_cuda += glob.glob(os.path.join(extensions_dir, "indexing", "**", "*.cu"), recursive=True)
     source_cuda += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True)
-    source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "*.cpp"), recursive=True) 
+    source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cpp"), recursive=True) 
 
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
     cutlass_dir = os.path.join(this_dir, "third_party", "cutlass", "include")
@@ -293,7 +293,7 @@ def get_extensions():
         ]
     elif torch.cuda.is_available() and torch.version.hip: 
        rename_cpp_cu(source_hip)
-       source_hip_cu = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "*.cu"), recursive=True) 
+       source_hip_cu = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cu"), recursive=True) 
        extension = CUDAExtension
        sources += source_hip_cu
        include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha', 
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..2bf962a9f1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..c893e70b57
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..b3c5bbf70a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..a8b22c95d4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..4a96b4a3d4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..1301eb069c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..37ec0f03ce
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..6dda0e1b79
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..c80a479523
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..3dda04d564
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..c1dc61c5a1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..884503c011
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..46caaa20dd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..43c7ff74d0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..c328beb8d2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..f662997044
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..2897cba5d0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..1c44a9b84c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..62b82e22a1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,16 @@
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..5a81dfaf77
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,17 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..1ea6309d6b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..f1ee519f9c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..24f2ce4b2c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..a3c6fd4fef
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck.hpp>
+#include "ck_fmha_batched_backward_hip.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..140cffce0c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..eaa1cd077e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..bb32b63ef1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..baf0d8a2a8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..6ba23b3a2a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..3e925436bd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..400df0b3dc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..5d597449ab
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..a994861489
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..e0c5a0440b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..23305b07a6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..6a6e7ce9ac
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..a9dd771ded
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..c7c05a0955
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..f653451ab7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..eded87fe63
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..5ca4b7ddaf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..f63d16f630
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..f9af4528dd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..3eafb95c79
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..44e98d9a32
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..a85e2fb9a4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..8dfc288f8d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..a0bcb1f8ec
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_forward_hip.h"
+
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..9748955e14
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..84bf207fae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..418f925c2a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..bb56f5423c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..a7cdb48b83
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..2286068d54
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..578855b9b4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..6e65ed8d89
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..35e9bca9c0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..228d411d7b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..e27e3b5ff9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..03658b0151
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..5c83b0abd6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..ec48f9d83e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..11c76b35f3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..66f135619a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..b13f5a4c9b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..76e186c0bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..12f5991c4b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..922e9a0d7c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..8d45859e52
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..5b32d22c48
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..9f03be2b5c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..3382cadb7e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer_hip.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..1b261e938c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..ae627167ed
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..8cb42c808e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..e25431de43
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..ebefe8baba
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..f2eeaede40
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..1d7de293ea
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..1ca61d4b70
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..524fb30e59
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..6910a6703f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..58f2f8b1a9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..90359f124e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..1098e69beb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..ef6197b441
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..60583a8592
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..3dbdf04b7f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..b8aabeb862
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..f76ea2c121
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..8629a947ad
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..42ef3f534f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..00b0f5c32c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..8a5ef7d022
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..8b6112aba9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,14 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..68e4d564d1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,15 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward_hip.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..bfde13c7df
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..9f60df93c0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..85e853c36b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..1154b074bc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..d86afa1aa2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..285fef03e3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..dd58b5b287
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..16df2be7d5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..085245c08e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..e89ff54aa2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..8c3ea29a45
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..9e7ebe7532
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..19adc39718
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..ee425b1557
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..6da5508d3c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..8bea444442
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..f97de6fb3d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..2cb989ee73
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..5bd33901b4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..faa22debfb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..155c9eb6c6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..dbd9c74246
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..29f3ed1a36
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..d67039c693
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,8 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_forward_hip.h"
+
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..973213413a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..da5eb15a54
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..96e0ba425d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..4cfaba3132
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..332724e736
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..76237a5951
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..cb1120f5b0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..712d619228
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..51ed70cabb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..eae026e232
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..c157e89c1e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..682f3e97ef
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu
new file mode 100644
index 0000000000..bbcd3ab0e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip
new file mode 100644
index 0000000000..c1fbe2d063
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu
new file mode 100644
index 0000000000..e320f5de69
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip
new file mode 100644
index 0000000000..3e8dbbe7e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu
new file mode 100644
index 0000000000..e763dde6ae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip
new file mode 100644
index 0000000000..e302c675d6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu
new file mode 100644
index 0000000000..3ec2d41da3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip
new file mode 100644
index 0000000000..52666509bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu
new file mode 100644
index 0000000000..dee7a0845b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip
new file mode 100644
index 0000000000..c1a0026b3f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu
new file mode 100644
index 0000000000..b5515e9a08
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip
new file mode 100644
index 0000000000..035531ad33
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip
@@ -0,0 +1,9 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer_hip.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);

From 5166c78185296651052210b0dd0f5084d19c62a8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 8 Nov 2023 15:21:17 +0000
Subject: [PATCH 192/837] Split backward instance .cpp files

---
 ...ha_batched_backward_bp16_masktype_0_no_attnbias.cpp |  8 +-------
 ..._backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._batched_backward_bp16_masktype_0_with_attnbias.cpp |  8 +-------
 ...ackward_bp16_masktype_0_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_batched_backward_bp16_masktype_1_no_attnbias.cpp |  8 +-------
 ..._backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._batched_backward_bp16_masktype_1_with_attnbias.cpp |  8 +-------
 ...ackward_bp16_masktype_1_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_batched_backward_bp16_masktype_2_no_attnbias.cpp |  8 +-------
 ..._backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._batched_backward_bp16_masktype_2_with_attnbias.cpp |  8 +-------
 ...ackward_bp16_masktype_2_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_batched_backward_fp16_masktype_0_no_attnbias.cpp |  8 +-------
 ..._backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._batched_backward_fp16_masktype_0_with_attnbias.cpp |  8 +-------
 ...ackward_fp16_masktype_0_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_batched_backward_fp16_masktype_1_no_attnbias.cpp |  8 +-------
 ..._backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._batched_backward_fp16_masktype_1_with_attnbias.cpp | 10 +---------
 ...ackward_fp16_masktype_1_with_attnbias_fp32_grad.cpp | 10 ++++++++++
 ...ha_batched_backward_fp16_masktype_2_no_attnbias.cpp |  8 +-------
 ..._backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._batched_backward_fp16_masktype_2_with_attnbias.cpp |  8 +-------
 ...ackward_fp16_masktype_2_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_grouped_backward_bp16_masktype_0_no_attnbias.cpp |  6 ------
 ..._backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._grouped_backward_bp16_masktype_0_with_attnbias.cpp |  6 ------
 ...ackward_bp16_masktype_0_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_grouped_backward_bp16_masktype_1_no_attnbias.cpp |  6 ------
 ..._backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._grouped_backward_bp16_masktype_1_with_attnbias.cpp |  6 ------
 ...ackward_bp16_masktype_1_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_grouped_backward_bp16_masktype_2_no_attnbias.cpp |  6 ------
 ..._backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._grouped_backward_bp16_masktype_2_with_attnbias.cpp |  6 ------
 ...ackward_bp16_masktype_2_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_grouped_backward_fp16_masktype_0_no_attnbias.cpp |  6 ------
 ..._backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._grouped_backward_fp16_masktype_0_with_attnbias.cpp |  6 ------
 ...ackward_fp16_masktype_0_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_grouped_backward_fp16_masktype_1_no_attnbias.cpp |  6 ------
 ..._backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._grouped_backward_fp16_masktype_1_with_attnbias.cpp |  6 ------
 ...ackward_fp16_masktype_1_with_attnbias_fp32_grad.cpp |  8 ++++++++
 ...ha_grouped_backward_fp16_masktype_2_no_attnbias.cpp |  6 ------
 ..._backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp |  8 ++++++++
 ..._grouped_backward_fp16_masktype_2_with_attnbias.cpp |  6 ------
 ...ackward_fp16_masktype_2_with_attnbias_fp32_grad.cpp |  8 ++++++++
 48 files changed, 206 insertions(+), 158 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp

diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
index 2bf962a9f1..8eb17a9f92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..670398c1ea
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
index b3c5bbf70a..1dbab27466 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..ba06daf03e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
index 4a96b4a3d4..97b4eb36a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..8458f70aed
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
index 37ec0f03ce..d7b92c4517 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..1c1167c58d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
index c80a479523..9dbae4cac5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..f38a2c7b85
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
index c1dc61c5a1..522e2951a7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..041e4d4df5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
index 46caaa20dd..bc9a2948d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..e654ca13ae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
index c328beb8d2..4a2376a72c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..66765de59d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
index 2897cba5d0..9609900d22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..aa4d7ff703
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
index 62b82e22a1..72715c6dcc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
@@ -1,14 +1,6 @@
-#include <ck.hpp>
-#include <stdexcept>
-
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..7e6245db44
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,10 @@
+#include <ck/ck.hpp>
+#include <stdexcept>
+
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
index 1ea6309d6b..d2707dde75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..598db5503d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
index 24f2ce4b2c..28640755d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
@@ -1,12 +1,6 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
 template void run_batched_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..d3922d6214
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_batched_backward.h"
+
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
index 1b261e938c..82d7b1f005 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..2327c6c3c9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
index 8cb42c808e..945a91a998 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..ea443ab4be
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
index ebefe8baba..daa0dc1c7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..b8273b2d62
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
index 1d7de293ea..6496bca769 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..d2cf1d5dfd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
index 524fb30e59..7ae9b06f55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..13a1bd4769
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
index 58f2f8b1a9..01d2921541 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::bhalf_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..22ec358653
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
index 1098e69beb..ad20325d70 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..3ca75bc614
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
index 60583a8592..cd9bd1689d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     0,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..8cbdcc2533
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
index b8aabeb862..2241fb932d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..b82218a58a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
index 8629a947ad..914b28d276 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     1,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..c1eef0cec2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
index 00b0f5c32c..d97a398eee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..5d21721d34
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
index 8b6112aba9..0cfac6111b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
@@ -1,12 +1,6 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
 template void run_grouped_backward_masktype_attnbias_dispatched<
     ck::half_t,
     2,
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
new file mode 100644
index 0000000000..551a46c9c2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+#include "ck_fmha_grouped_backward.h"
+
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);

From 1d3f7e625c4724e64fe6b0c50d3beae96e6ef4c8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 9 Nov 2023 12:48:30 +0000
Subject: [PATCH 193/837] Update to .gitignore

---
 .gitignore                                      |  2 ++
 ...ched_backward_bp16_masktype_0_no_attnbias.cu | 14 --------------
 ...hed_backward_bp16_masktype_0_no_attnbias.hip | 15 ---------------
 ...ed_backward_bp16_masktype_0_with_attnbias.cu | 14 --------------
 ...d_backward_bp16_masktype_0_with_attnbias.hip | 15 ---------------
 ...ched_backward_bp16_masktype_1_no_attnbias.cu | 14 --------------
 ...hed_backward_bp16_masktype_1_no_attnbias.hip | 15 ---------------
 ...ed_backward_bp16_masktype_1_with_attnbias.cu | 14 --------------
 ...d_backward_bp16_masktype_1_with_attnbias.hip | 15 ---------------
 ...ched_backward_bp16_masktype_2_no_attnbias.cu | 14 --------------
 ...hed_backward_bp16_masktype_2_no_attnbias.hip | 15 ---------------
 ...ed_backward_bp16_masktype_2_with_attnbias.cu | 14 --------------
 ...d_backward_bp16_masktype_2_with_attnbias.hip | 15 ---------------
 ...ched_backward_fp16_masktype_0_no_attnbias.cu | 14 --------------
 ...hed_backward_fp16_masktype_0_no_attnbias.hip | 15 ---------------
 ...ed_backward_fp16_masktype_0_with_attnbias.cu | 14 --------------
 ...d_backward_fp16_masktype_0_with_attnbias.hip | 15 ---------------
 ...ched_backward_fp16_masktype_1_no_attnbias.cu | 14 --------------
 ...hed_backward_fp16_masktype_1_no_attnbias.hip | 15 ---------------
 ...ed_backward_fp16_masktype_1_with_attnbias.cu | 16 ----------------
 ...d_backward_fp16_masktype_1_with_attnbias.hip | 17 -----------------
 ...ched_backward_fp16_masktype_2_no_attnbias.cu | 14 --------------
 ...hed_backward_fp16_masktype_2_no_attnbias.hip | 15 ---------------
 ...ed_backward_fp16_masktype_2_with_attnbias.cu | 14 --------------
 ...d_backward_fp16_masktype_2_with_attnbias.hip | 15 ---------------
 ...tched_forward_bp16_masktype_0_no_attnbias.cu |  7 -------
 ...ched_forward_bp16_masktype_0_no_attnbias.hip |  8 --------
 ...hed_forward_bp16_masktype_0_with_attnbias.cu |  7 -------
 ...ed_forward_bp16_masktype_0_with_attnbias.hip |  8 --------
 ...tched_forward_bp16_masktype_1_no_attnbias.cu |  7 -------
 ...ched_forward_bp16_masktype_1_no_attnbias.hip |  8 --------
 ...hed_forward_bp16_masktype_1_with_attnbias.cu |  7 -------
 ...ed_forward_bp16_masktype_1_with_attnbias.hip |  8 --------
 ...tched_forward_bp16_masktype_2_no_attnbias.cu |  7 -------
 ...ched_forward_bp16_masktype_2_no_attnbias.hip |  8 --------
 ...hed_forward_bp16_masktype_2_with_attnbias.cu |  7 -------
 ...ed_forward_bp16_masktype_2_with_attnbias.hip |  8 --------
 ...tched_forward_fp16_masktype_0_no_attnbias.cu |  7 -------
 ...ched_forward_fp16_masktype_0_no_attnbias.hip |  8 --------
 ...hed_forward_fp16_masktype_0_with_attnbias.cu |  7 -------
 ...ed_forward_fp16_masktype_0_with_attnbias.hip |  8 --------
 ...tched_forward_fp16_masktype_1_no_attnbias.cu |  7 -------
 ...ched_forward_fp16_masktype_1_no_attnbias.hip |  8 --------
 ...hed_forward_fp16_masktype_1_with_attnbias.cu |  7 -------
 ...ed_forward_fp16_masktype_1_with_attnbias.hip |  8 --------
 ...tched_forward_fp16_masktype_2_no_attnbias.cu |  7 -------
 ...ched_forward_fp16_masktype_2_no_attnbias.hip |  8 --------
 ...hed_forward_fp16_masktype_2_with_attnbias.cu |  7 -------
 ...ed_forward_fp16_masktype_2_with_attnbias.hip |  8 --------
 ...batched_infer_bp16_masktype_0_no_attnbias.cu |  8 --------
 ...atched_infer_bp16_masktype_0_no_attnbias.hip |  9 ---------
 ...tched_infer_bp16_masktype_0_with_attnbias.cu |  8 --------
 ...ched_infer_bp16_masktype_0_with_attnbias.hip |  9 ---------
 ...batched_infer_bp16_masktype_1_no_attnbias.cu |  8 --------
 ...atched_infer_bp16_masktype_1_no_attnbias.hip |  9 ---------
 ...tched_infer_bp16_masktype_1_with_attnbias.cu |  8 --------
 ...ched_infer_bp16_masktype_1_with_attnbias.hip |  9 ---------
 ...batched_infer_bp16_masktype_2_no_attnbias.cu |  8 --------
 ...atched_infer_bp16_masktype_2_no_attnbias.hip |  9 ---------
 ...tched_infer_bp16_masktype_2_with_attnbias.cu |  8 --------
 ...ched_infer_bp16_masktype_2_with_attnbias.hip |  9 ---------
 ...batched_infer_fp16_masktype_0_no_attnbias.cu |  8 --------
 ...atched_infer_fp16_masktype_0_no_attnbias.hip |  9 ---------
 ...tched_infer_fp16_masktype_0_with_attnbias.cu |  8 --------
 ...ched_infer_fp16_masktype_0_with_attnbias.hip |  9 ---------
 ...batched_infer_fp16_masktype_1_no_attnbias.cu |  8 --------
 ...atched_infer_fp16_masktype_1_no_attnbias.hip |  9 ---------
 ...tched_infer_fp16_masktype_1_with_attnbias.cu |  8 --------
 ...ched_infer_fp16_masktype_1_with_attnbias.hip |  9 ---------
 ...batched_infer_fp16_masktype_2_no_attnbias.cu |  8 --------
 ...atched_infer_fp16_masktype_2_no_attnbias.hip |  9 ---------
 ...tched_infer_fp16_masktype_2_with_attnbias.cu |  8 --------
 ...ched_infer_fp16_masktype_2_with_attnbias.hip |  9 ---------
 ...uped_backward_bp16_masktype_0_no_attnbias.cu | 14 --------------
 ...ped_backward_bp16_masktype_0_no_attnbias.hip | 15 ---------------
 ...ed_backward_bp16_masktype_0_with_attnbias.cu | 14 --------------
 ...d_backward_bp16_masktype_0_with_attnbias.hip | 15 ---------------
 ...uped_backward_bp16_masktype_1_no_attnbias.cu | 14 --------------
 ...ped_backward_bp16_masktype_1_no_attnbias.hip | 15 ---------------
 ...ed_backward_bp16_masktype_1_with_attnbias.cu | 14 --------------
 ...d_backward_bp16_masktype_1_with_attnbias.hip | 15 ---------------
 ...uped_backward_bp16_masktype_2_no_attnbias.cu | 14 --------------
 ...ped_backward_bp16_masktype_2_no_attnbias.hip | 15 ---------------
 ...ed_backward_bp16_masktype_2_with_attnbias.cu | 14 --------------
 ...d_backward_bp16_masktype_2_with_attnbias.hip | 15 ---------------
 ...uped_backward_fp16_masktype_0_no_attnbias.cu | 14 --------------
 ...ped_backward_fp16_masktype_0_no_attnbias.hip | 15 ---------------
 ...ed_backward_fp16_masktype_0_with_attnbias.cu | 14 --------------
 ...d_backward_fp16_masktype_0_with_attnbias.hip | 15 ---------------
 ...uped_backward_fp16_masktype_1_no_attnbias.cu | 14 --------------
 ...ped_backward_fp16_masktype_1_no_attnbias.hip | 15 ---------------
 ...ed_backward_fp16_masktype_1_with_attnbias.cu | 14 --------------
 ...d_backward_fp16_masktype_1_with_attnbias.hip | 15 ---------------
 ...uped_backward_fp16_masktype_2_no_attnbias.cu | 14 --------------
 ...ped_backward_fp16_masktype_2_no_attnbias.hip | 15 ---------------
 ...ed_backward_fp16_masktype_2_with_attnbias.cu | 14 --------------
 ...d_backward_fp16_masktype_2_with_attnbias.hip | 15 ---------------
 ...ouped_forward_bp16_masktype_0_no_attnbias.cu |  7 -------
 ...uped_forward_bp16_masktype_0_no_attnbias.hip |  8 --------
 ...ped_forward_bp16_masktype_0_with_attnbias.cu |  7 -------
 ...ed_forward_bp16_masktype_0_with_attnbias.hip |  8 --------
 ...ouped_forward_bp16_masktype_1_no_attnbias.cu |  7 -------
 ...uped_forward_bp16_masktype_1_no_attnbias.hip |  8 --------
 ...ped_forward_bp16_masktype_1_with_attnbias.cu |  7 -------
 ...ed_forward_bp16_masktype_1_with_attnbias.hip |  8 --------
 ...ouped_forward_bp16_masktype_2_no_attnbias.cu |  7 -------
 ...uped_forward_bp16_masktype_2_no_attnbias.hip |  8 --------
 ...ped_forward_bp16_masktype_2_with_attnbias.cu |  7 -------
 ...ed_forward_bp16_masktype_2_with_attnbias.hip |  8 --------
 ...ouped_forward_fp16_masktype_0_no_attnbias.cu |  7 -------
 ...uped_forward_fp16_masktype_0_no_attnbias.hip |  8 --------
 ...ped_forward_fp16_masktype_0_with_attnbias.cu |  7 -------
 ...ed_forward_fp16_masktype_0_with_attnbias.hip |  8 --------
 ...ouped_forward_fp16_masktype_1_no_attnbias.cu |  7 -------
 ...uped_forward_fp16_masktype_1_no_attnbias.hip |  8 --------
 ...ped_forward_fp16_masktype_1_with_attnbias.cu |  7 -------
 ...ed_forward_fp16_masktype_1_with_attnbias.hip |  8 --------
 ...ouped_forward_fp16_masktype_2_no_attnbias.cu |  7 -------
 ...uped_forward_fp16_masktype_2_no_attnbias.hip |  8 --------
 ...ped_forward_fp16_masktype_2_with_attnbias.cu |  7 -------
 ...ed_forward_fp16_masktype_2_with_attnbias.hip |  8 --------
 ...grouped_infer_bp16_masktype_0_no_attnbias.cu |  8 --------
 ...rouped_infer_bp16_masktype_0_no_attnbias.hip |  9 ---------
 ...ouped_infer_bp16_masktype_0_with_attnbias.cu |  8 --------
 ...uped_infer_bp16_masktype_0_with_attnbias.hip |  9 ---------
 ...grouped_infer_bp16_masktype_1_no_attnbias.cu |  8 --------
 ...rouped_infer_bp16_masktype_1_no_attnbias.hip |  9 ---------
 ...ouped_infer_bp16_masktype_1_with_attnbias.cu |  8 --------
 ...uped_infer_bp16_masktype_1_with_attnbias.hip |  9 ---------
 ...grouped_infer_bp16_masktype_2_no_attnbias.cu |  8 --------
 ...rouped_infer_bp16_masktype_2_no_attnbias.hip |  9 ---------
 ...ouped_infer_bp16_masktype_2_with_attnbias.cu |  8 --------
 ...uped_infer_bp16_masktype_2_with_attnbias.hip |  9 ---------
 ...grouped_infer_fp16_masktype_0_no_attnbias.cu |  8 --------
 ...rouped_infer_fp16_masktype_0_no_attnbias.hip |  9 ---------
 ...ouped_infer_fp16_masktype_0_with_attnbias.cu |  8 --------
 ...uped_infer_fp16_masktype_0_with_attnbias.hip |  9 ---------
 ...grouped_infer_fp16_masktype_1_no_attnbias.cu |  8 --------
 ...rouped_infer_fp16_masktype_1_no_attnbias.hip |  9 ---------
 ...ouped_infer_fp16_masktype_1_with_attnbias.cu |  8 --------
 ...uped_infer_fp16_masktype_1_with_attnbias.hip |  9 ---------
 ...grouped_infer_fp16_masktype_2_no_attnbias.cu |  8 --------
 ...rouped_infer_fp16_masktype_2_no_attnbias.hip |  9 ---------
 ...ouped_infer_fp16_masktype_2_with_attnbias.cu |  8 --------
 ...uped_infer_fp16_masktype_2_with_attnbias.hip |  9 ---------
 145 files changed, 2 insertions(+), 1468 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip

diff --git a/.gitignore b/.gitignore
index 56869b496f..96cc37bb05 100644
--- a/.gitignore
+++ b/.gitignore
@@ -65,5 +65,7 @@ xformers/cpp_lib.json
 xformers/csrc/attention/hip_fmha/*.cu
 xformers/csrc/attention/hip_fmha/*.hip
 xformers/csrc/attention/hip_fmha/*_hip.h
+xformers/csrc/attention/hip_fmha/instances/*.cu
+xformers/csrc/attention/hip_fmha/instances/*.hip
 
 
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 2bf962a9f1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index c893e70b57..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index b3c5bbf70a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index a8b22c95d4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index 4a96b4a3d4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 1301eb069c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 37ec0f03ce..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 6dda0e1b79..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index c80a479523..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index 3dda04d564..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index c1dc61c5a1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 884503c011..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 46caaa20dd..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index 43c7ff74d0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index c328beb8d2..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index f662997044..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index 2897cba5d0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 1c44a9b84c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 62b82e22a1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,16 +0,0 @@
-#include <ck.hpp>
-#include <stdexcept>
-
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 5a81dfaf77..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,17 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include <stdexcept>
-
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 1ea6309d6b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index f1ee519f9c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 24f2ce4b2c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index a3c6fd4fef..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck.hpp>
-#include "ck_fmha_batched_backward_hip.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 140cffce0c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index eaa1cd077e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index bb32b63ef1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index baf0d8a2a8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index 6ba23b3a2a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 3e925436bd..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 400df0b3dc..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 5d597449ab..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index a994861489..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index e0c5a0440b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 23305b07a6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 6a6e7ce9ac..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index a9dd771ded..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index c7c05a0955..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index f653451ab7..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index eded87fe63..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index 5ca4b7ddaf..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index f63d16f630..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index f9af4528dd..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 3eafb95c79..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 44e98d9a32..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index a85e2fb9a4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 8dfc288f8d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index a0bcb1f8ec..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward_hip.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 9748955e14..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index 84bf207fae..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 418f925c2a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index bb56f5423c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index a7cdb48b83..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 2286068d54..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 578855b9b4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 6e65ed8d89..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 35e9bca9c0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index 228d411d7b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index e27e3b5ff9..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 03658b0151..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 5c83b0abd6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index ec48f9d83e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 11c76b35f3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index 66f135619a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index b13f5a4c9b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 76e186c0bf..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 12f5991c4b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 922e9a0d7c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 8d45859e52..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index 5b32d22c48..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 9f03be2b5c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 3382cadb7e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer_hip.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 1b261e938c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index ae627167ed..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 8cb42c808e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index e25431de43..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index ebefe8baba..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index f2eeaede40..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 1d7de293ea..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 1ca61d4b70..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 524fb30e59..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index 6910a6703f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 58f2f8b1a9..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 90359f124e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 1098e69beb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index ef6197b441..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 60583a8592..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index 3dbdf04b7f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index b8aabeb862..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index f76ea2c121..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 8629a947ad..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 42ef3f534f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 00b0f5c32c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index 8a5ef7d022..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 8b6112aba9..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,14 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 68e4d564d1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,15 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward_hip.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index bfde13c7df..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index 9f60df93c0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 85e853c36b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index 1154b074bc..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index d86afa1aa2..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 285fef03e3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index dd58b5b287..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 16df2be7d5..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 085245c08e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index e89ff54aa2..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 8c3ea29a45..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 9e7ebe7532..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 19adc39718..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index ee425b1557..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 6da5508d3c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index 8bea444442..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index f97de6fb3d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 2cb989ee73..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 5bd33901b4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index faa22debfb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 155c9eb6c6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index dbd9c74246..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index 29f3ed1a36..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index d67039c693..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,8 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward_hip.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index 973213413a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index da5eb15a54..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index 96e0ba425d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index 4cfaba3132..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index 332724e736..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index 76237a5951..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index cb1120f5b0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 712d619228..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index 51ed70cabb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index eae026e232..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index c157e89c1e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 682f3e97ef..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu
deleted file mode 100644
index bbcd3ab0e9..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip
deleted file mode 100644
index c1fbe2d063..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu
deleted file mode 100644
index e320f5de69..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip
deleted file mode 100644
index 3e8dbbe7e9..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu
deleted file mode 100644
index e763dde6ae..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip
deleted file mode 100644
index e302c675d6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu
deleted file mode 100644
index 3ec2d41da3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip
deleted file mode 100644
index 52666509bf..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu
deleted file mode 100644
index dee7a0845b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip
deleted file mode 100644
index c1a0026b3f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu
deleted file mode 100644
index b5515e9a08..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cu
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip
deleted file mode 100644
index 035531ad33..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.hip
+++ /dev/null
@@ -1,9 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer_hip.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);

From 58f6bbf76484387815bf8e457d5c8fb32d73e8d4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 9 Nov 2023 17:49:48 +0000
Subject: [PATCH 194/837] Tuning the device-op template parameters for infer
 and forward

---
 .../attention/hip_fmha/ck_fmha_batched_forward.h |  7 ++++---
 .../attention/hip_fmha/ck_fmha_batched_infer.h   |  2 +-
 .../hip_fmha/ck_fmha_forward_gemm_constants.h    | 16 ++++++++--------
 .../attention/hip_fmha/ck_fmha_grouped_forward.h |  2 +-
 .../attention/hip_fmha/ck_fmha_grouped_infer.h   |  2 +-
 .../hip_fmha/ck_fmha_infer_gemm_constants.h      | 16 ++++++++--------
 6 files changed, 23 insertions(+), 22 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 7b51932567..93df407da6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -179,7 +179,7 @@ struct batched_forward_masktype_attnbias_dispatched {
         "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
 
     constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(4, thread_slice_length_ak1);
+        min(8, thread_slice_length_ak1);
 
     BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
@@ -362,8 +362,9 @@ struct batched_forward_masktype_attnbias_dispatched {
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_forward_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
-{
+void run_batched_forward_masktype_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
   batched_forward_masktype_attnbias_dispatched<
       scalar_t,
       custom_mask_type,
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index c76a30b73d..59666a0f87 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -168,7 +168,7 @@ struct batched_infer_masktype_attnbias_dispatched {
         "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
 
     constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(4, thread_slice_length_ak1);
+        min(8, thread_slice_length_ak1);
 
     BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index 5a1790b5f1..7f65aeb3f8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -13,8 +13,8 @@ struct GemmOpConstantsBatchedForward {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 4;
-  static constexpr ck::index_t BK1 = 4;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
@@ -22,14 +22,14 @@ struct GemmOpConstantsBatchedForward {
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
   static constexpr ck::index_t DropoutStep = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
   static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
@@ -64,8 +64,8 @@ struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 4;
-  static constexpr ck::index_t BK1 = 4;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
@@ -73,14 +73,14 @@ struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
   static constexpr ck::index_t DropoutStep = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
   static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 9eebcfa14b..55fb27bf47 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -173,7 +173,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
         "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
 
     constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(4, thread_slice_length_ak1);
+        min(8, thread_slice_length_ak1);
 
     GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 31a90d2003..5b95c75a76 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -168,7 +168,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
         "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
 
     constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(4, thread_slice_length_ak1);
+        min(8, thread_slice_length_ak1);
 
     GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
       constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
index 8f492ff00a..7c7ad4bee4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -14,22 +14,22 @@ struct GemmOpConstantsBatchedInfer {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 4;
-  static constexpr ck::index_t BK1 = 4;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
   static constexpr ck::index_t MXdlPerWave = 1;
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
   static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
@@ -62,22 +62,22 @@ struct GemmOpConstantsGroupedInfer {
   static constexpr ck::index_t KPerBlock = 32;
   // static constexpr ck::index_t Gemm1NPerBlock;
   static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 4;
-  static constexpr ck::index_t BK1 = 4;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
   static constexpr ck::index_t B1K1 = 2;
   static constexpr ck::index_t MPerXDL = 32;
   static constexpr ck::index_t NPerXDL = 32;
   static constexpr ck::index_t MXdlPerWave = 1;
   static constexpr ck::index_t NXdlPerWave = 4;
   // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<8, 32, 1>;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
   using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
   // static constexpr ck::index_t ABlockTransferSrcScalarPerVector,
   static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
   static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
   using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
   using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
   static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;

From 1f2af5cf35c0084a1bd90f412514e09377864d9d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 9 Nov 2023 18:44:07 +0000
Subject: [PATCH 195/837] Synchronize with latest CK flashAttention commits

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 339b86e968..ac3ef99cf8 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 339b86e9682120d8aaa415203545a3cfadbbb142
+Subproject commit ac3ef99cf8f78d212143a2d63139094d207d93ae

From 8fdf105141fe1e62a52425f417094d0010f7d858 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 9 Nov 2023 20:50:50 +0000
Subject: [PATCH 196/837] Tuning the device-op template parameters for infer
 and forward again

---
 .../hip_fmha/ck_fmha_batched_forward.h        |  2 +-
 .../hip_fmha/ck_fmha_batched_infer.h          |  2 +-
 .../hip_fmha/ck_fmha_forward_gemm_constants.h | 22 +++++++++----------
 .../hip_fmha/ck_fmha_grouped_forward.h        |  2 +-
 .../hip_fmha/ck_fmha_grouped_infer.h          |  2 +-
 .../hip_fmha/ck_fmha_infer_gemm_constants.h   |  4 ++--
 6 files changed, 16 insertions(+), 18 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 93df407da6..b6a98b5fc3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -196,7 +196,7 @@ struct batched_forward_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(4, thread_slice_length_cshuflle_n);
 
       if constexpr (
           kB1BlockTransferSrcScalarPerVector_max >=
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index 59666a0f87..dfc17191b7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -185,7 +185,7 @@ struct batched_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
+          min(4, thread_slice_length_cshuflle_n);
 
       if constexpr (
           kB1BlockTransferSrcScalarPerVector_max >=
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index 7f65aeb3f8..c80ec4603a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -5,6 +5,7 @@
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
+// clang-format off
 struct GemmOpConstantsBatchedForward {
   static constexpr ck::index_t NumGemmKPrefetchStage = 1;
   static constexpr ck::index_t BlockSize = 256;
@@ -46,16 +47,15 @@ struct GemmOpConstantsBatchedForward {
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 16, 1, 16>;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector =
-      1; // not actually used by the kernel
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
+  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
+  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector = 1; // not actually used by the kernel
 };
+// clang-format on
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
+// clang-format off
 struct GemmOpConstantsGroupedForward {
   static constexpr ck::index_t NumGemmKPrefetchStage = 1;
   static constexpr ck::index_t BlockSize = 256;
@@ -97,10 +97,8 @@ struct GemmOpConstantsGroupedForward {
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock =
-      S<1, 16, 1, 16>;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector =
-      1; // not actually used by the kernel
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
+  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
+  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector = 1; // not actually used by the kernel
 };
+// clang-format on
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 55fb27bf47..00c92682b9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -190,7 +190,7 @@ struct grouped_forward_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(1, thread_slice_length_cshuflle_n);
+          min(4, thread_slice_length_cshuflle_n);
 
       if constexpr (
           kB1BlockTransferSrcScalarPerVector_max >=
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 5b95c75a76..81c6d3381d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -185,7 +185,7 @@ struct grouped_infer_masktype_attnbias_dispatched {
                   At(I3);
 
       constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
+          min(4, thread_slice_length_cshuflle_n);
 
       if constexpr (
           kB1BlockTransferSrcScalarPerVector_max >=
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
index 7c7ad4bee4..bdeb5ef85c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -46,7 +46,7 @@ struct GemmOpConstantsBatchedInfer {
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 16, 1, 16>;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
   // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 //clang-format on
@@ -94,7 +94,7 @@ struct GemmOpConstantsGroupedInfer {
   static constexpr bool B1BlockLdsExtraN = false;
   static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
   // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 16, 1, 16>;
+  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
   // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 // clang-format on

From a1a8352c70ed3216b8252cac7eb1b9ac05c8200d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 10 Nov 2023 18:40:53 +0000
Subject: [PATCH 197/837] Synchronize with latest CK flashAttention commits

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index ac3ef99cf8..9a423017f2 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit ac3ef99cf8f78d212143a2d63139094d207d93ae
+Subproject commit 9a423017f2335dd60bb1c1a28b6a5808fb95b917

From ab0ae4d9c6a821ead5fac069b29b6e8888baa4fa Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 14 Nov 2023 16:36:57 +0000
Subject: [PATCH 198/837] Synchronize to the latest ck-flashAttn which improved
 the performance for forward/infer

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 9a423017f2..2f93e26f55 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 9a423017f2335dd60bb1c1a28b6a5808fb95b917
+Subproject commit 2f93e26f55ce0e9839c358c0c713ce8eb3db38a2

From dde88e252a9b41c06c95b439e389a7a2bf274c39 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 18:09:11 -0500
Subject: [PATCH 199/837] fix numeric limits usage

---
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index be4cc790e3..442bd8c005 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -150,7 +150,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   data_vec4_t q_thread;
   load_v<decltype(q_), data_vec4_t>(q_, lane_idx, &q_thread);
   // Each block computes different B value
-  float max_qk_acc = std::numeric_limits<float>::lowest();
+  float max_qk_acc = ck::NumericLimits<float>::Lowest();
 
   // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
   // Split T across wavefronts in a block, unroll loads to expose more

From ee84791dba54e018dcf73e1813cdca9117222a40 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 19:08:35 -0500
Subject: [PATCH 200/837] bring the head dimension into op parameters and
 kernel arguments

---
 .../hip_fmha/attention_forward_decoder.cpp    |  3 +-
 .../hip_fmha/ck_attention_forward_decoder.h   | 38 ++++++++++---------
 2 files changed, 23 insertions(+), 18 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 8b5b88f035..52f830e585 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -72,7 +72,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
   TORCH_CHECK(seq_positions.is_cuda());
 
   TORCH_CHECK(cache_K.size(1) <= T_MAX);
-  TORCH_CHECK(cache_K.size(3) == D_H);
+  TORCH_CHECK(cache_K.size(3) <= D_H);
 
   auto B = XQ.size(0);
   auto H = XQ.size(2);
@@ -118,6 +118,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
             K_acc.stride(0),
             K_acc.stride(1),
             K_acc.stride(2),
+            K_acc.size(3),
             K_acc.size(2) == 1,
             qk_scale,
             blocks,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 442bd8c005..1c4e4234a5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -75,20 +75,20 @@ float __device__ __forceinline__ wavefrontReduce(float val, F f) {
   return val;
 }
 
-template <typename TDataPtr, typename TDataVec>
+template <typename TData, typename TDataVec>
 __forceinline__ __device__ void load_v(
-    TDataPtr data_ptr,
+    const TData* __restrict__ data_ptr,
     int32_t vector_offset,
-    TDataVec* load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+    TDataVec* __restrict__ load_to) {
+      *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
-template <typename TDataPtr, typename TDataVec>
+template <typename TData, typename TDataVec>
 __forceinline__ __device__ void store_v(
-    TDataPtr data_ptr,
+    TData* __restrict__ data_ptr,
     int32_t vector_offset,
     TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+      *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
 template <
@@ -108,6 +108,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     const ptrdiff_t K_stride_0,
     const ptrdiff_t K_stride_1,
     const ptrdiff_t K_stride_2,
+    const int32_t D_H,
     const bool multiquery,
     const float qk_scale) {
   static_assert(n_loop_unroll_tail < n_loop_unroll, "");
@@ -133,7 +134,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const int32_t thread_linear_idx =
       lane_idx + wavefront_idx * threads_per_wavefront;
 
-  // Need D_H == 256 (NB: 128 in CUDA because of wavefront/warp sizes 64/32)
   // const auto* q_ = &(XQ_acc[b][0][h][0]);
   const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
   const auto* q_ = XQ + XQO_base_offset;
@@ -148,7 +148,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   using data_t = scalar_t;
   using data_vec4_t = typename ck::vector_type<data_t, 4>::type;
   data_vec4_t q_thread;
-  load_v<decltype(q_), data_vec4_t>(q_, lane_idx, &q_thread);
+  load_v<data_t, data_vec4_t>(q_, lane_idx, &q_thread);
   // Each block computes different B value
   float max_qk_acc = ck::NumericLimits<float>::Lowest();
 
@@ -166,7 +166,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // load the K[b][t][h|0][:] row into registers
-      load_v<decltype(cache_K_base), data_vec4_t>(
+      load_v<data_t, data_vec4_t>(
           cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
     }
     float qk_accs[n_loop_unroll] = {};
@@ -197,7 +197,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       const int32_t t = tt + ttt;
       if (t < t_max) {
         // load the K[b][t][h|0][:] row into registers
-        load_v<decltype(cache_K_base), data_vec4_t>(
+        load_v<data_t, data_vec4_t>(
             cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       }
     }
@@ -277,7 +277,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // load the V[b][t][h|0][:] row into registers, reusing K register storage
-      load_v<decltype(cache_V_base), data_vec4_t>(
+      load_v<data_t, data_vec4_t>(
           cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       ps[ttt] = smem[t];
     }
@@ -296,7 +296,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       if (t < t_max) {
         // load the V[b][t][h|0][:] row into registers, reusing K register
         // storage
-        load_v<decltype(cache_V_base), data_vec4_t>(
+        load_v<data_t, data_vec4_t>(
             cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
@@ -315,7 +315,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   __syncthreads();
 
   // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
-  store_v<float*, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
+  store_v<float, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
 
   __syncthreads();
   // sum up partial D rows from other wavefronts
@@ -323,7 +323,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     ck::float4_t r = 0;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
       ck::float4_t partial_r;
-      load_v<float*, ck::float4_t>(
+      load_v<float, ck::float4_t>(
           smem, w * threads_per_wavefront + lane_idx, &partial_r);
       r += partial_r;
     }
@@ -333,8 +333,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     bf_r.y = ck::type_convert<data_t>(r.y);
     bf_r.z = ck::type_convert<data_t>(r.z);
     bf_r.w = ck::type_convert<data_t>(r.w);
-    auto* o_ = O + XQO_base_offset;
-    store_v<decltype(o_), data_vec4_t>(o_, lane_idx, bf_r);
+    data_t* __restrict__ o_ = O + XQO_base_offset;
+    store_v<data_t, data_vec4_t>(o_, lane_idx, bf_r);
   }
 }
 
@@ -357,6 +357,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     const ptrdiff_t K_stride_0;
     const ptrdiff_t K_stride_1;
     const ptrdiff_t K_stride_2;
+    const int32_t D_H;
     const bool multiquery;
     const float qk_scale;
 
@@ -375,6 +376,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
         const ptrdiff_t K_stride_0,
         const ptrdiff_t K_stride_1,
         const ptrdiff_t K_stride_2,
+        const int32_t D_H,
         const bool multiquery,
         const float qk_scale,
         const dim3 grid_dim,
@@ -390,6 +392,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           K_stride_0(K_stride_0),
           K_stride_1(K_stride_1),
           K_stride_2(K_stride_2),
+          D_H(D_H),
           multiquery(multiquery),
           qk_scale(qk_scale),
           grid_dim(grid_dim),
@@ -417,6 +420,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           arg.K_stride_0,
           arg.K_stride_1,
           arg.K_stride_2,
+          arg.D_H,
           arg.multiquery,
           arg.qk_scale);
     }

From 3582e221b10cedbd34ca4078447979b512cdf2c0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 19:35:38 -0500
Subject: [PATCH 201/837] refactor type names in the kernel

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 69 ++++++++++---------
 1 file changed, 37 insertions(+), 32 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 1c4e4234a5..74a087bce4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -115,8 +115,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   constexpr int32_t seq_positions_shift = 0;
 
-  extern __shared__ __align__(16) float smem[];
-
   // Each block handles a single batch and head
   const int32_t b = blockIdx.x;
   const int32_t h = blockIdx.y;
@@ -145,18 +143,25 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
+  
+  constexpr int32_t vec_size = 4;
   using data_t = scalar_t;
-  using data_vec4_t = typename ck::vector_type<data_t, 4>::type;
-  data_vec4_t q_thread;
-  load_v<data_t, data_vec4_t>(q_, lane_idx, &q_thread);
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_t = float;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  extern __shared__ __align__(16) compute_t smem[];
+
+  data_vec_t q_thread;
+  load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
   // Each block computes different B value
-  float max_qk_acc = ck::NumericLimits<float>::Lowest();
+  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
   // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
   // Split T across wavefronts in a block, unroll loads to expose more
   // parallelism.
 
-  data_vec4_t k_loads[n_loop_unroll];
+  data_vec_t k_loads[n_loop_unroll];
 
   constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
   const int32_t t_max_unroll = (t_max / dtt) * dtt;
@@ -166,18 +171,18 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // load the K[b][t][h|0][:] row into registers
-      load_v<data_t, data_vec4_t>(
+      load_v<data_t, data_vec_t>(
           cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
     }
-    float qk_accs[n_loop_unroll] = {};
+    compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      ck::inner_product<data_vec4_t, data_vec4_t, float>(
+      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
           q_thread, k_loads[ttt], qk_accs[ttt]);
       qk_accs[ttt] *= qk_scale;
 
       qk_accs[ttt] =
-          wavefrontReduce(qk_accs[ttt], [](float a, float b) { return a + b; });
+          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
       max_qk_acc = max(qk_accs[ttt], max_qk_acc);
     }
     if (lane_idx == 0) {
@@ -197,21 +202,21 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       const int32_t t = tt + ttt;
       if (t < t_max) {
         // load the K[b][t][h|0][:] row into registers
-        load_v<data_t, data_vec4_t>(
+        load_v<data_t, data_vec_t>(
             cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       }
     }
 #pragma unroll n_loop_unroll_tail
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      float qk_acc = 0;
+      compute_t qk_acc = 0;
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        ck::inner_product<data_vec4_t, data_vec4_t, float>(
+        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
             q_thread, k_loads[ttt], qk_acc);
         qk_acc *= qk_scale;
 
         qk_acc =
-            wavefrontReduce(qk_acc, [](float a, float b) { return a + b; });
+            wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
         max_qk_acc = max(qk_acc, max_qk_acc);
 
         // write accumulated sums to smem.
@@ -233,15 +238,15 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   }
   // shared across all threads in block
   max_qk_acc = wavefrontReduce(
-      max_qk_acc, [](float a, float b) { return a > b ? a : b; });
+      max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
 
   // each wavefront computes partial sum of exp.
-  float softmax_denominator = 0.0f;
+  compute_t softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     softmax_denominator += __expf(smem[t] - max_qk_acc);
   }
   softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](float a, float b) { return a + b; });
+      softmax_denominator, [](auto a, auto b) { return a + b; });
 
   __syncthreads();
   if (lane_idx == 0) {
@@ -255,9 +260,9 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     softmax_denominator = smem[T_MAX + lane_idx];
   }
   softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](float a, float b) { return a + b; });
+      softmax_denominator, [](auto a, auto b) { return a + b; });
 
-  const float softmax_scale_factor = 1. / softmax_denominator;
+  const compute_t softmax_scale_factor = 1. / softmax_denominator;
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
     smem[t] = __expf(smem[t] - max_qk_acc) * softmax_scale_factor;
@@ -270,21 +275,21 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
   // outputs are of size float[D]
 
-  float ps[n_loop_unroll];
-  ck::float4_t o_acc = 0;
+  compute_t ps[n_loop_unroll];
+  compute_vec_t o_acc = 0;
   for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // load the V[b][t][h|0][:] row into registers, reusing K register storage
-      load_v<data_t, data_vec4_t>(
+      load_v<data_t, data_vec_t>(
           cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       ps[ttt] = smem[t];
     }
 
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
+      o_acc = scalar4_scale_acc<data_vec_t>(o_acc, k_loads[ttt], ps[ttt]);
     }
   }
 
@@ -296,7 +301,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       if (t < t_max) {
         // load the V[b][t][h|0][:] row into registers, reusing K register
         // storage
-        load_v<data_t, data_vec4_t>(
+        load_v<data_t, data_vec_t>(
             cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
@@ -306,7 +311,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        o_acc = scalar4_scale_acc<data_vec4_t>(o_acc, k_loads[ttt], ps[ttt]);
+        o_acc = scalar4_scale_acc<data_vec_t>(o_acc, k_loads[ttt], ps[ttt]);
       }
     }
   }
@@ -315,26 +320,26 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   __syncthreads();
 
   // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
-  store_v<float, ck::float4_t>(&smem[0], thread_linear_idx, o_acc);
+  store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
 
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
-    ck::float4_t r = 0;
+    compute_vec_t r = 0;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      ck::float4_t partial_r;
-      load_v<float, ck::float4_t>(
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
           smem, w * threads_per_wavefront + lane_idx, &partial_r);
       r += partial_r;
     }
     // write output D row
-    data_vec4_t bf_r;
+    data_vec_t bf_r;
     bf_r.x = ck::type_convert<data_t>(r.x);
     bf_r.y = ck::type_convert<data_t>(r.y);
     bf_r.z = ck::type_convert<data_t>(r.z);
     bf_r.w = ck::type_convert<data_t>(r.w);
     data_t* __restrict__ o_ = O + XQO_base_offset;
-    store_v<data_t, data_vec4_t>(o_, lane_idx, bf_r);
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r);
   }
 }
 

From d4fca23c5beafcd918663c36f315edc8bd7bc6ec Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 19:47:39 -0500
Subject: [PATCH 202/837] refactor dtype conversion from compute to data for
 the output

---
 .../hip_fmha/ck_attention_forward_decoder.h        | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 74a087bce4..ce18900de9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -325,19 +325,19 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
-    compute_vec_t r = 0;
+    union { compute_vec_t vec; compute_t[vec_size] arr; } r = 0;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
       compute_vec_t partial_r;
       load_v<compute_t, compute_vec_t>(
           smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r += partial_r;
+      r.vec += partial_r;
+    }
+    // elementwise convert from compute_t result to data_t out to be written
+    union { data_vec_t vec; data_t[vec_size] arr; } bf_r = 0;
+    for (int32_t i = 0; i < vec_size; ++i) {
+      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }
     // write output D row
-    data_vec_t bf_r;
-    bf_r.x = ck::type_convert<data_t>(r.x);
-    bf_r.y = ck::type_convert<data_t>(r.y);
-    bf_r.z = ck::type_convert<data_t>(r.z);
-    bf_r.w = ck::type_convert<data_t>(r.w);
     data_t* __restrict__ o_ = O + XQO_base_offset;
     store_v<data_t, data_vec_t>(o_, lane_idx, bf_r);
   }

From 22eb2641b3cd437fe2227490ab7eb31a00c63918 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 20:27:33 -0500
Subject: [PATCH 203/837] support head dim < 256; still needs to be divisible
 by vector size

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 64 +++++++++++++------
 xformers/ops/fmha/ck_decoder.py               |  7 +-
 2 files changed, 50 insertions(+), 21 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index ce18900de9..388e30eb47 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -131,7 +131,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       threads_per_wavefront * wavefronts_per_block;
   const int32_t thread_linear_idx =
       lane_idx + wavefront_idx * threads_per_wavefront;
-
+  const bool lane_active_for_io = lane_idx * vec_size < D_H;
   // const auto* q_ = &(XQ_acc[b][0][h][0]);
   const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
   const auto* q_ = XQ + XQO_base_offset;
@@ -153,7 +153,11 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   extern __shared__ __align__(16) compute_t smem[];
 
   data_vec_t q_thread;
-  load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  if (lane_active_for_io) {
+    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  } else {
+    q_thread = 0;
+  }
   // Each block computes different B value
   compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
@@ -171,8 +175,12 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
       // load the K[b][t][h|0][:] row into registers
-      load_v<data_t, data_vec_t>(
-          cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+      if (lane_active_for_io) {
+        load_v<data_t, data_vec_t>(
+            cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+      } else {
+        k_loads[ttt] = 0;
+      }
     }
     compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
@@ -201,9 +209,13 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        // load the K[b][t][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+        if (lane_active_for_io) {
+          // load the K[b][t][h|0][:] row into registers
+          load_v<data_t, data_vec_t>(
+              cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+        } else {
+          k_loads[ttt] = 0;
+        }
       }
     }
 #pragma unroll n_loop_unroll_tail
@@ -281,9 +293,13 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
       const int32_t t = tt + ttt;
-      // load the V[b][t][h|0][:] row into registers, reusing K register storage
-      load_v<data_t, data_vec_t>(
-          cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+      if (lane_active_for_io) {
+        // load the V[b][t][h|0][:] row into registers, reusing K register storage
+        load_v<data_t, data_vec_t>(
+            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+      } else {
+        k_loads[ttt] = 0;
+      }
       ps[ttt] = smem[t];
     }
 
@@ -301,8 +317,12 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       if (t < t_max) {
         // load the V[b][t][h|0][:] row into registers, reusing K register
         // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+        if (lane_active_for_io) {
+          load_v<data_t, data_vec_t>(
+              cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+        } else {
+          k_loads[ttt] = 0;
+        }
         ps[ttt] = smem[t];
       }
     }
@@ -320,26 +340,32 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   __syncthreads();
 
   // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
-  store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  if (lane_active_for_io) {
+    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
 
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0) {
-    union { compute_vec_t vec; compute_t[vec_size] arr; } r = 0;
+    union { compute_vec_t vec = 0; compute_t arr[vec_size]; } r;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      compute_vec_t partial_r = 0;
+      if (lane_active_for_io) {
+        load_v<compute_t, compute_vec_t>(
+            smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      }
       r.vec += partial_r;
     }
     // elementwise convert from compute_t result to data_t out to be written
-    union { data_vec_t vec; data_t[vec_size] arr; } bf_r = 0;
+    union { data_vec_t vec; data_t arr[vec_size]; } bf_r;
     for (int32_t i = 0; i < vec_size; ++i) {
       bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }
     // write output D row
     data_t* __restrict__ o_ = O + XQO_base_offset;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r);
+    if (lane_active_for_io) {
+      store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+    }
   }
 }
 
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 28db52eaa3..67e4756363 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -34,8 +34,11 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             if d.query.shape[0] != 1:
                 reasons.append("One formal batch element expected")
 
-            if d.query.shape[-1] != cls.SUPPORTED_MAX_K:
-                reasons.append(f"Got head_dim={d.query.shape[-1]}; only head_dim=={cls.SUPPORTED_MAX_K} is supported for now.")
+            if d.query.shape[-1] > cls.SUPPORTED_MAX_K:
+                reasons.append(f"Got head_dim={d.query.shape[-1]}; only head_dim<={cls.SUPPORTED_MAX_K} is supported for now.")
+
+            if d.query.shape[-1] % 4 != 0:
+                reasons.append(f"Got head_dim={d.query.shape[-1]}; it needs to be divisible by 4")
 
             if d.key.stride(-1) != 1:
                 reasons.append("expect keys to have last dim contiguous")

From 7cebebd7722ba1196e1ad08c7db5c37ed28bcec5 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 20:34:59 -0500
Subject: [PATCH 204/837] add more compiler annotations for unrolling and
 restrict ptrs

---
 .../attention/hip_fmha/ck_attention_forward_decoder.h    | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 388e30eb47..2a82f4b36f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -134,12 +134,12 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const bool lane_active_for_io = lane_idx * vec_size < D_H;
   // const auto* q_ = &(XQ_acc[b][0][h][0]);
   const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
-  const auto* q_ = XQ + XQO_base_offset;
+  const auto* __restrict__ q_ = XQ + XQO_base_offset;
 
   const auto cache_KV_base_offset =
       b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
-  const auto* cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* cache_V_base = cache_V + cache_KV_base_offset;
+  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
 
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
@@ -194,7 +194,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       max_qk_acc = max(qk_accs[ttt], max_qk_acc);
     }
     if (lane_idx == 0) {
-      auto* smem_base = smem + tt;
+      auto* __restrict__ smem_base = smem + tt;
 #pragma unroll n_loop_unroll
       for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
         smem_base[ttt] = qk_accs[ttt];
@@ -358,6 +358,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     }
     // elementwise convert from compute_t result to data_t out to be written
     union { data_vec_t vec; data_t arr[vec_size]; } bf_r;
+    #pragma unroll 
     for (int32_t i = 0; i < vec_size; ++i) {
       bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }

From 2b16228ed61cb338d5b328ec4c9512231f401f68 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 20:48:21 -0500
Subject: [PATCH 205/837] simplify io logic

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 38 ++++++-------------
 1 file changed, 12 insertions(+), 26 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 2a82f4b36f..e7efc856bb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -152,12 +152,10 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   extern __shared__ __align__(16) compute_t smem[];
 
-  data_vec_t q_thread;
+  data_vec_t q_thread = 0;
   if (lane_active_for_io) {
     load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  } else {
-    q_thread = 0;
-  }
+  } 
   // Each block computes different B value
   compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
@@ -165,7 +163,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // Split T across wavefronts in a block, unroll loads to expose more
   // parallelism.
 
-  data_vec_t k_loads[n_loop_unroll];
+  data_vec_t k_loads[n_loop_unroll] = {};
 
   constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
   const int32_t t_max_unroll = (t_max / dtt) * dtt;
@@ -178,9 +176,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       if (lane_active_for_io) {
         load_v<data_t, data_vec_t>(
             cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      } else {
-        k_loads[ttt] = 0;
-      }
+      } 
     }
     compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
@@ -213,9 +209,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
           // load the K[b][t][h|0][:] row into registers
           load_v<data_t, data_vec_t>(
               cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-        } else {
-          k_loads[ttt] = 0;
-        }
+        } 
       }
     }
 #pragma unroll n_loop_unroll_tail
@@ -297,9 +291,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
         // load the V[b][t][h|0][:] row into registers, reusing K register storage
         load_v<data_t, data_vec_t>(
             cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      } else {
-        k_loads[ttt] = 0;
-      }
+      } 
       ps[ttt] = smem[t];
     }
 
@@ -320,9 +312,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
         if (lane_active_for_io) {
           load_v<data_t, data_vec_t>(
               cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-        } else {
-          k_loads[ttt] = 0;
-        }
+        } 
         ps[ttt] = smem[t];
       }
     }
@@ -346,14 +336,12 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   __syncthreads();
   // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0) {
+  if (wavefront_idx == 0 && lane_active_for_io) {
     union { compute_vec_t vec = 0; compute_t arr[vec_size]; } r;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r = 0;
-      if (lane_active_for_io) {
-        load_v<compute_t, compute_vec_t>(
-            smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      }
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
       r.vec += partial_r;
     }
     // elementwise convert from compute_t result to data_t out to be written
@@ -364,9 +352,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     }
     // write output D row
     data_t* __restrict__ o_ = O + XQO_base_offset;
-    if (lane_active_for_io) {
-      store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-    }
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
   }
 }
 

From 7f2b6d19c76d9b3b91e1c2bdcf7ce66531d2c3fb Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 21:07:36 -0500
Subject: [PATCH 206/837] handle m > 1

---
 .../attention/hip_fmha/attention_forward_decoder.cpp  |  9 ++++++++-
 .../attention/hip_fmha/ck_attention_forward_decoder.h | 11 +++++++++--
 2 files changed, 17 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 52f830e585..4a71a72529 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -75,8 +75,14 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
   TORCH_CHECK(cache_K.size(3) <= D_H);
 
   auto B = XQ.size(0);
+  auto M = XQ.size(1);
   auto H = XQ.size(2);
-  dim3 blocks(B, H);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B, H, M);
   dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
   int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
@@ -114,6 +120,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
             reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
             seq_acc.data(),
             XQ_acc.stride(0),
+            XQ_acc.stride(1),
             XQ_acc.stride(2),
             K_acc.stride(0),
             K_acc.stride(1),
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index e7efc856bb..5cd83c71f6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -104,6 +104,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     scalar_t* __restrict__ O,
     const int32_t* __restrict__ seq_positions,
     const ptrdiff_t XQ_stride_0,
+    const ptrdiff_t XQ_stride_1,
     const ptrdiff_t XQ_stride_2,
     const ptrdiff_t K_stride_0,
     const ptrdiff_t K_stride_1,
@@ -118,6 +119,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // Each block handles a single batch and head
   const int32_t b = blockIdx.x;
   const int32_t h = blockIdx.y;
+  const int32_t m = blockIdx.z;
 
   // Note: this is decoding case where we attend to current and all previous
   // tokens.
@@ -131,9 +133,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       threads_per_wavefront * wavefronts_per_block;
   const int32_t thread_linear_idx =
       lane_idx + wavefront_idx * threads_per_wavefront;
-  const bool lane_active_for_io = lane_idx * vec_size < D_H;
   // const auto* q_ = &(XQ_acc[b][0][h][0]);
-  const auto XQO_base_offset = b * XQ_stride_0 + h * XQ_stride_2;
+  const auto XQO_base_offset = b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
   const auto* __restrict__ q_ = XQ + XQO_base_offset;
 
   const auto cache_KV_base_offset =
@@ -150,6 +151,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   using compute_t = float;
   using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
 
+  const bool lane_active_for_io = lane_idx * vec_size < D_H;
+
   extern __shared__ __align__(16) compute_t smem[];
 
   data_vec_t q_thread = 0;
@@ -371,6 +374,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     scalar_t* __restrict__ O;
     const int32_t* __restrict__ seq_positions;
     const ptrdiff_t XQ_stride_0;
+    const ptrdiff_t XQ_stride_1;
     const ptrdiff_t XQ_stride_2;
     const ptrdiff_t K_stride_0;
     const ptrdiff_t K_stride_1;
@@ -390,6 +394,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
         scalar_t* __restrict__ O,
         const int32_t* __restrict__ seq_positions,
         const ptrdiff_t XQ_stride_0,
+        const ptrdiff_t XQ_stride_1,
         const ptrdiff_t XQ_stride_2,
         const ptrdiff_t K_stride_0,
         const ptrdiff_t K_stride_1,
@@ -406,6 +411,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           O(O),
           seq_positions(seq_positions),
           XQ_stride_0(XQ_stride_0),
+          XQ_stride_1(XQ_stride_1),
           XQ_stride_2(XQ_stride_2),
           K_stride_0(K_stride_0),
           K_stride_1(K_stride_1),
@@ -434,6 +440,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           arg.O,
           arg.seq_positions,
           arg.XQ_stride_0,
+          arg.XQ_stride_1,
           arg.XQ_stride_2,
           arg.K_stride_0,
           arg.K_stride_1,

From 1712637474e0afb6a8b5319494945fb16beb869d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 21:41:16 -0500
Subject: [PATCH 207/837] refactor input normalization to prepare for mq>1

---
 xformers/ops/fmha/ck_decoder.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 67e4756363..6e2c5a3d92 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -32,7 +32,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                 reasons.append("Inputs must be BMHK. BMK not supported")
 
             if d.query.shape[0] != 1:
-                reasons.append("One formal batch element expected")
+                reasons.append(f"One formal batch element expected; got {d.query.shape[0]}")
 
             if d.query.shape[-1] > cls.SUPPORTED_MAX_K:
                 reasons.append(f"Got head_dim={d.query.shape[-1]}; only head_dim<={cls.SUPPORTED_MAX_K} is supported for now.")
@@ -80,7 +80,7 @@ def apply(
 
         seq_positions = attn_bias.k_seqinfo.seqlen
 
-        query = inp.query[0, :, None]
+        query = inp.query.transpose(0, 1)
 
         if inp.scale is not None:
             qk_scale = inp.scale

From 3d5b5e88ca358aa846720e64b05149ef470cd256 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 22:00:38 -0500
Subject: [PATCH 208/837] fix comments about input and output being written

---
 .../csrc/attention/hip_fmha/ck_attention_forward_decoder.h    | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 5cd83c71f6..e50984c662 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -133,7 +133,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       threads_per_wavefront * wavefronts_per_block;
   const int32_t thread_linear_idx =
       lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][0][h][0]);
+  // const auto* q_ = &(XQ_acc[b][m][h][0]);
   const auto XQO_base_offset = b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
   const auto* __restrict__ q_ = XQ + XQO_base_offset;
 
@@ -353,7 +353,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (int32_t i = 0; i < vec_size; ++i) {
       bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }
-    // write output D row
+    // write output row O[b][m][h][:]
     data_t* __restrict__ o_ = O + XQO_base_offset;
     store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
   }

From f333a72cfce31d45c18df17f6e1f30567ff0cc2a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 00:01:02 -0500
Subject: [PATCH 209/837] support mq>1; tested locally; small (<5) percentage
 of outputs are out of margin of error for some tests

---
 tests/test_mem_eff_attention_ck.py | 8 ++++----
 xformers/ops/fmha/ck_decoder.py    | 9 +++++----
 2 files changed, 9 insertions(+), 8 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index f073bb76fc..9d6ec70fba 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1631,12 +1631,12 @@ def test_decoder(
     dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
     torch.manual_seed(1)
     d = 256
+    num_queries = 1
     k_shape = (1, bsz * padding, n_heads, d)
-    # TODO: support 2 kv heads etc.
     k = torch.randn(k_shape, dtype=dtype_).cuda()
-    k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
+    k_seqlen = torch.randint(num_queries, padding + 1, (bsz,)).tolist()
     v = torch.randn(k_shape, dtype=dtype_).cuda()
-    q = torch.randn((1, bsz, n_heads, d), dtype=dtype_).cuda()
+    q = torch.randn((1, bsz * num_queries, n_heads, d), dtype=dtype_).cuda()
     causal_diagonal = torch.tensor(  # TODO: make unnecessary
         [i - 1 for i in k_seqlen], dtype=torch.int32
     ).cuda()
@@ -1646,7 +1646,7 @@ def test_decoder(
         v = v[:, :, :1].expand(k_shape)
 
     attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[1] * bsz,
+        q_seqlen=[num_queries] * bsz,
         kv_seqlen=k_seqlen,
         causal_diagonal=causal_diagonal,
         kv_padding=padding,
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 6e2c5a3d92..a94f26e684 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -47,9 +47,10 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                 reasons.append("expect values to have last dim contiguous")
 
             q_starts = attn_bias.q_seqinfo.seqstart_py
-            if attn_bias.q_seqinfo.max_seqlen != 1:
-                reasons.append("decoding expects one query")
-            elif d.query.shape[1] != len(q_starts) - 1:
+            padding = attn_bias.k_seqinfo.padding
+            bsz = d.key.shape[1] // padding
+            num_queries = d.query.shape[1] // bsz
+            if bsz != len(q_starts) - 1:
                 reasons.append("empty lanes not supported yet")
 
             if attn_bias.k_seqinfo.padding > 8192:
@@ -80,7 +81,7 @@ def apply(
 
         seq_positions = attn_bias.k_seqinfo.seqlen
 
-        query = inp.query.transpose(0, 1)
+        query = inp.query[0].unflatten(0, (key.shape[0], -1))
 
         if inp.scale is not None:
             qk_scale = inp.scale

From 9039aa9db92acdd47c59a3a9cf31d46b7ab538bd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 00:06:21 -0500
Subject: [PATCH 210/837] fix in the comment about which blocks handle which
 part of the input

---
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index e50984c662..d3338e277e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -116,7 +116,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   constexpr int32_t seq_positions_shift = 0;
 
-  // Each block handles a single batch and head
+  // Each block handles a single batch and head and query
   const int32_t b = blockIdx.x;
   const int32_t h = blockIdx.y;
   const int32_t m = blockIdx.z;

From 02a7df2be1fa803183a4b11688b0c231d70edaab Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 12:05:25 -0500
Subject: [PATCH 211/837] {exp,max}->ck::matth::{exp,max}

---
 .../hip_fmha/ck_attention_forward_decoder.h         | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index d3338e277e..925261b9ee 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -5,6 +5,7 @@
 #include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/inner_product.hpp>
+#include <ck/utility/math.hpp>
 
 namespace ck {
 template <>
@@ -190,7 +191,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
       qk_accs[ttt] =
           wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-      max_qk_acc = max(qk_accs[ttt], max_qk_acc);
+      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
     }
     if (lane_idx == 0) {
       auto* __restrict__ smem_base = smem + tt;
@@ -226,7 +227,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
         qk_acc =
             wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = max(qk_acc, max_qk_acc);
+        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
 
         // write accumulated sums to smem.
         if (lane_idx == 0) {
@@ -243,7 +244,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   }
   __syncthreads();
   if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = max(max_qk_acc, smem[T_MAX + lane_idx]);
+    max_qk_acc = ck::math::max(max_qk_acc, smem[T_MAX + lane_idx]);
   }
   // shared across all threads in block
   max_qk_acc = wavefrontReduce(
@@ -252,7 +253,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // each wavefront computes partial sum of exp.
   compute_t softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += __expf(smem[t] - max_qk_acc);
+    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
   }
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](auto a, auto b) { return a + b; });
@@ -274,12 +275,10 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const compute_t softmax_scale_factor = 1. / softmax_denominator;
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = __expf(smem[t] - max_qk_acc) * softmax_scale_factor;
+    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
   }
   __syncthreads();
 
-  // Now, we can compute the softmax and write the outputs.
-
   // Split T across wavefronts in a block
   // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
   // outputs are of size float[D]

From f260f15671fc6ff9c802965513b62f21afb144ea Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 12:10:51 -0500
Subject: [PATCH 212/837] seq_{positions}->{kv_lens}

---
 .../csrc/attention/hip_fmha/CMakeLists.txt    | 68 +++++++++++++++++++
 .../hip_fmha/attention_forward_decoder.cpp    | 14 ++--
 .../hip_fmha/ck_attention_forward_decoder.h   | 14 ++--
 3 files changed, 81 insertions(+), 15 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/CMakeLists.txt

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
new file mode 100644
index 0000000000..8e8c24e0bb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -0,0 +1,68 @@
+cmake_minimum_required(VERSION 3.26)
+
+project(FMHA-Decoder-Main)
+
+enable_language(CXX)
+set(CMAKE_CXX_STANDARD 17)
+set(CMAKE_CXX_STANDARD_REQUIRED ON)
+set(CMAKE_CXX_EXTENSIONS OFF)
+
+set(project_root_dir /xformers)
+set(xformers_csrc ${project_root_dir}/xformers/csrc)
+set(sources ${xformers_csrc}/attention/hip_fmha/attention_forward_decoder.hip)
+
+set(ck_include ${project_root_dir}/third_party/composable_kernel/include/ck)
+set(torch_include /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include)
+
+set(CMAKE_CXX_COMPILER /opt/rocm/hip/bin/hipcc)
+set(CMAKE_CXX_LINK_EXECUTABLE /opt/rocm/hip/bin/hipcc)
+
+add_executable(attention_forward_decoder_main ${sources})
+message("CMAKE_CXX_COMPILER_ID: ${CMAKE_CXX_COMPILER_ID}")
+
+find_package(HIP REQUIRED)
+
+message("HIP_VERSION: ${HIP_VERSION_MAJOR}.${HIP_VERSION_MINOR}")
+
+set_target_properties(attention_forward_decoder_main PROPERTIES LINKER_LANGUAGE CXX)
+
+target_compile_options(attention_forward_decoder_main PUBLIC 
+  -fPIC 
+  -O3 
+  --offload-arch=gfx90a
+  -fno-gpu-rdc)
+
+target_include_directories(attention_forward_decoder_main PUBLIC 
+  ${xformers_csrc} 
+  ${xformers_csrc}/attention/hip_fmha
+  ${ck_include}/tensor_operation/gpu/device
+  ${ck_include}/tensor_operation/gpu/device/impl
+  ${ck_include}/tensor_operation/gpu/element
+  ${torch_include}
+  ${torch_include}/torch/csrc/api/include
+  ${torch_include}/TH
+  ${torch_include}/THC
+  ${torch_include}/THH
+)
+
+target_link_directories(attention_forward_decoder_main PUBLIC
+  /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
+  /opt/conda/envs/py_3.8/lib
+  /opt/rocm/lib
+  /opt/rocm/hip/lib
+)
+
+target_link_libraries(attention_forward_decoder_main PUBLIC
+  c10
+  c10_hip
+  torch
+  torch_python
+  torch_hip
+  torch_cpu
+  python3.8
+  amdhip64
+)
+
+target_compile_definitions(attention_forward_decoder_main PUBLIC 
+  ATTN_FWD_DECODER_MAIN
+)
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 4a71a72529..6076b50221 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -58,7 +58,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_positions, // [B]
+    const at::Tensor& seq_kv_lens, // [B]
     double qk_scale,
     at::Tensor& O) {
   static_assert(4 * ThreadsPerWavefront == D_H, "");
@@ -69,7 +69,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
   TORCH_CHECK(cache_K.is_cuda());
   TORCH_CHECK(cache_V.is_cuda());
 
-  TORCH_CHECK(seq_positions.is_cuda());
+  TORCH_CHECK(seq_kv_lens.is_cuda());
 
   TORCH_CHECK(cache_K.size(1) <= T_MAX);
   TORCH_CHECK(cache_K.size(3) <= D_H);
@@ -111,7 +111,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
             cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
         auto O_acc = O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
         auto seq_acc =
-            seq_positions
+            seq_kv_lens
                 .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
         auto arg = device_op_t::Argument(
             reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
@@ -147,12 +147,12 @@ at::Tensor efficient_attention_forward_decoder_ck_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_positions, // [B]
+    const at::Tensor& seq_kv_lens, // [B]
     double qk_scale) {
   auto O = at::empty_like(XQ);
   efficient_attention_forward_decoder_ck_out_impl<
       ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_positions, qk_scale, O);
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
   return O;
 }
 
@@ -160,11 +160,11 @@ at::Tensor efficient_attention_forward_decoder_ck(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_positions, // [B]
+    const at::Tensor& seq_kv_lens, // [B]
     double qk_scale) {
   return efficient_attention_forward_decoder_ck_impl<
       kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_positions, qk_scale);
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
 }
 } // namespace
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 925261b9ee..5434b2101d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -103,7 +103,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     const scalar_t* __restrict__ cache_K,
     const scalar_t* __restrict__ cache_V,
     scalar_t* __restrict__ O,
-    const int32_t* __restrict__ seq_positions,
+    const int32_t* __restrict__ seq_kv_lens,
     const ptrdiff_t XQ_stride_0,
     const ptrdiff_t XQ_stride_1,
     const ptrdiff_t XQ_stride_2,
@@ -115,8 +115,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     const float qk_scale) {
   static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
-  constexpr int32_t seq_positions_shift = 0;
-
   // Each block handles a single batch and head and query
   const int32_t b = blockIdx.x;
   const int32_t h = blockIdx.y;
@@ -124,7 +122,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   // Note: this is decoding case where we attend to current and all previous
   // tokens.
-  const int32_t t_max = seq_positions[b] + seq_positions_shift;
+  const int32_t t_max = seq_kv_lens[b];
 
   const int32_t lane_idx = threadIdx.x;
   const int32_t wavefront_idx = threadIdx.y;
@@ -371,7 +369,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     const scalar_t* __restrict__ cache_K;
     const scalar_t* __restrict__ cache_V;
     scalar_t* __restrict__ O;
-    const int32_t* __restrict__ seq_positions;
+    const int32_t* __restrict__ seq_kv_lens;
     const ptrdiff_t XQ_stride_0;
     const ptrdiff_t XQ_stride_1;
     const ptrdiff_t XQ_stride_2;
@@ -391,7 +389,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
         const scalar_t* __restrict__ cache_K,
         const scalar_t* __restrict__ cache_V,
         scalar_t* __restrict__ O,
-        const int32_t* __restrict__ seq_positions,
+        const int32_t* __restrict__ seq_kv_lens,
         const ptrdiff_t XQ_stride_0,
         const ptrdiff_t XQ_stride_1,
         const ptrdiff_t XQ_stride_2,
@@ -408,7 +406,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           cache_K(cache_K),
           cache_V(cache_V),
           O(O),
-          seq_positions(seq_positions),
+          seq_kv_lens(seq_kv_lens),
           XQ_stride_0(XQ_stride_0),
           XQ_stride_1(XQ_stride_1),
           XQ_stride_2(XQ_stride_2),
@@ -437,7 +435,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           arg.cache_K,
           arg.cache_V,
           arg.O,
-          arg.seq_positions,
+          arg.seq_kv_lens,
           arg.XQ_stride_0,
           arg.XQ_stride_1,
           arg.XQ_stride_2,

From 49853b93eabc42a6c0e256d37d50c790f78500b6 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 12:28:48 -0500
Subject: [PATCH 213/837] remove extra syncthreads; reads and writes are from
 different smem regions

---
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 1 -
 1 file changed, 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 5434b2101d..f0edac2881 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -256,7 +256,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](auto a, auto b) { return a + b; });
 
-  __syncthreads();
   if (lane_idx == 0) {
     smem[T_MAX + wavefront_idx] = softmax_denominator;
   }

From 746b970ea3a20e899182ceaeaa75f9c932869ed3 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 13:54:11 -0500
Subject: [PATCH 214/837] make vec_size the kernel template parameter

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 52 +++++++------------
 1 file changed, 19 insertions(+), 33 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index f0edac2881..845dbeaac8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -32,39 +32,25 @@ __device__ void inner_product<bhalf4_t, bhalf4_t, float>(
 
 namespace {
 
-template <typename data4_t>
-__device__ ck::float4_t scalar4_scale_acc(ck::float4_t acc, data4_t a, float b);
+template <typename data_t, int32_t vec_size>
+__device__ 
+typename ck::vector_type<float, vec_size>::type
+scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc, 
+                 typename ck::vector_type<data_t, vec_size>::type a, 
+                 float b) {
+  
+  union { decltype(acc) vec; float arr[vec_size]; } acc_u;
+  union { decltype(a) vec; data_t arr[vec_size]; } a_u;
 
-template <>
-__device__ ck::float4_t scalar4_scale_acc<ck::float4_t>(
-    ck::float4_t acc,
-    ck::float4_t a,
-    float b) {
-  return acc + a * b;
-}
+  acc_u.vec = acc;
+  a_u.vec = a;
 
-template <>
-__device__ ck::float4_t scalar4_scale_acc<ck::half4_t>(
-    ck::float4_t acc,
-    ck::half4_t a,
-    float b) {
-  acc.x += ck::type_convert<float>(a.x) * b;
-  acc.y += ck::type_convert<float>(a.y) * b;
-  acc.z += ck::type_convert<float>(a.z) * b;
-  acc.w += ck::type_convert<float>(a.w) * b;
-  return acc;
-}
+  #pragma unroll
+  for (int32_t i = 0; i < vec_size; ++i) {
+    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+  }
 
-template <>
-__device__ ck::float4_t scalar4_scale_acc<ck::bhalf4_t>(
-    ck::float4_t acc,
-    ck::bhalf4_t a,
-    float b) {
-  acc.x += ck::type_convert<float>(a.x) * b;
-  acc.y += ck::type_convert<float>(a.y) * b;
-  acc.z += ck::type_convert<float>(a.z) * b;
-  acc.w += ck::type_convert<float>(a.w) * b;
-  return acc;
+  return acc_u.vec;
 }
 
 template <typename F, int32_t n_threads_per_wavefront = 64>
@@ -94,6 +80,7 @@ __forceinline__ __device__ void store_v(
 
 template <
     typename scalar_t,
+    int32_t vec_size = 4,
     int32_t n_loop_unroll = 16,
     int32_t n_loop_unroll_tail = 2,
     int32_t T_MAX = 8192,
@@ -144,7 +131,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // Load Q into registers in all wavefronts.
   // Each thread handles 4 D dimensions
   
-  constexpr int32_t vec_size = 4;
   using data_t = scalar_t;
   using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
   using compute_t = float;
@@ -296,7 +282,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
 #pragma unroll n_loop_unroll
     for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      o_acc = scalar4_scale_acc<data_vec_t>(o_acc, k_loads[ttt], ps[ttt]);
+      o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
     }
   }
 
@@ -320,7 +306,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
       const int32_t t = tt + ttt;
       if (t < t_max) {
-        o_acc = scalar4_scale_acc<data_vec_t>(o_acc, k_loads[ttt], ps[ttt]);
+        o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
       }
     }
   }

From b5d8311dcbbb1f104f523a46e5fcfaa980df2ea5 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 14:47:05 -0500
Subject: [PATCH 215/837] support vec_size=1,2,4

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 46 ++++++++++++++++++-
 xformers/ops/fmha/ck_decoder.py               | 14 +++++-
 2 files changed, 57 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 845dbeaac8..c550b0e982 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -16,6 +16,27 @@ __device__ void inner_product<bhalf_t, bhalf_t, float>(
   inner_product(type_convert<float>(a), type_convert<float>(b), c);
 }
 
+template<>
+__device__ void inner_product<half_t, half_t, float>(
+    const half_t& a,
+    const half_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<bhalf2_t, bhalf2_t, float>(
+    const bhalf2_t& a,
+    const bhalf2_t& b,
+    float& c) {
+  const vector_type<bhalf_t, 2> a_vector{a};
+  const vector_type<bhalf_t, 2> b_vector{b};
+  ck::static_for<0, 2, 1>{}([&](auto i) {
+    inner_product(
+        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+  });
+}
+
 template <>
 __device__ void inner_product<bhalf4_t, bhalf4_t, float>(
     const bhalf4_t& a,
@@ -405,14 +426,37 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           block_dim(block_dim),
           lds_bytes(lds_bytes) {}
   };
+
   struct Invoker : public BaseInvoker {
     using Argument = DeviceOp::Argument;
     float Run(
         const Argument& arg,
         const StreamConfig& stream_config = StreamConfig{}) {
+
+      auto threads_per_wavefront = arg.block_dim.x;
+
+      auto D_H_alignment_necessary = 0;
+
+      for (auto vec_size: {4, 2, 1}) {
+        if (arg.D_H <= vec_size * threads_per_wavefront) {
+          D_H_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!D_H_alignment_necessary) {
+        throw std::runtime_error("Unsupported D_H");
+      }
+
+      if (arg.D_H % D_H_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for D_H");
+      }
+
       return launch_and_time_kernel(
           stream_config,
-          efficient_attention_forward_decoder_ck_kernel<scalar_t>,
+          D_H_alignment_necessary == 4 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4> 
+        : D_H_alignment_necessary == 2 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+        : D_H_alignment_necessary == 1 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+        : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index a94f26e684..ad131faf41 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -37,8 +37,18 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             if d.query.shape[-1] > cls.SUPPORTED_MAX_K:
                 reasons.append(f"Got head_dim={d.query.shape[-1]}; only head_dim<={cls.SUPPORTED_MAX_K} is supported for now.")
 
-            if d.query.shape[-1] % 4 != 0:
-                reasons.append(f"Got head_dim={d.query.shape[-1]}; it needs to be divisible by 4")
+            threads_per_warp = 64 # TODO: ideally query the platform here
+            required_alignment = 0
+            head_dim = d.query.shape[-1]
+            for vec_size in (4, 2, 1):
+                if head_dim <= vec_size * threads_per_warp:
+                    required_alignment = vec_size
+            
+            if not required_alignment:
+                reasons.append(f"Got head_dim={head_dim} which is too large")
+            
+            if head_dim % required_alignment != 0:
+                reasons.append(f"Got head_dim={head_dim}; it needs to be divisible by {required_alignment}")
 
             if d.key.stride(-1) != 1:
                 reasons.append("expect keys to have last dim contiguous")

From 4b74097575ac714a712949bb436284e244c2062a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 15:17:56 -0500
Subject: [PATCH 216/837] simplify union init

---
 .../attention/hip_fmha/ck_attention_forward_decoder.h    | 9 +++------
 1 file changed, 3 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index c550b0e982..07fb7994a3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -60,12 +60,9 @@ scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc,
                  typename ck::vector_type<data_t, vec_size>::type a, 
                  float b) {
   
-  union { decltype(acc) vec; float arr[vec_size]; } acc_u;
-  union { decltype(a) vec; data_t arr[vec_size]; } a_u;
-
-  acc_u.vec = acc;
-  a_u.vec = a;
-
+  union { decltype(acc) vec; float arr[vec_size]; } acc_u {acc};
+  union { decltype(a) vec; data_t arr[vec_size]; } a_u {a};
+  
   #pragma unroll
   for (int32_t i = 0; i < vec_size; ++i) {
     acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;

From 9fd94ab42fbbdb7be0285288dddb5f1bccf692fe Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 17:13:42 -0500
Subject: [PATCH 217/837] partial fixes to cmakelists; wip

---
 .../csrc/attention/hip_fmha/CMakeLists.txt    | 53 ++++++++++++-------
 1 file changed, 33 insertions(+), 20 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index 8e8c24e0bb..8f5c8c5b7f 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -1,43 +1,48 @@
 cmake_minimum_required(VERSION 3.26)
 
-project(FMHA-Decoder-Main)
+project(FMHADecoderMain LANGUAGES CXX)
+
+message("CMAKE_CXX_COMPILER: ${CMAKE_CXX_COMPILER} (need hipcc)")
 
-enable_language(CXX)
 set(CMAKE_CXX_STANDARD 17)
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 set(CMAKE_CXX_EXTENSIONS OFF)
 
+set(exe_name attention_forward_decoder_main)
 set(project_root_dir /xformers)
 set(xformers_csrc ${project_root_dir}/xformers/csrc)
 set(sources ${xformers_csrc}/attention/hip_fmha/attention_forward_decoder.hip)
 
-set(ck_include ${project_root_dir}/third_party/composable_kernel/include/ck)
+set(ck_include ${project_root_dir}/third_party/composable_kernel/include/)
 set(torch_include /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include)
 
-set(CMAKE_CXX_COMPILER /opt/rocm/hip/bin/hipcc)
-set(CMAKE_CXX_LINK_EXECUTABLE /opt/rocm/hip/bin/hipcc)
+set_source_files_properties(${sources} PROPERTIES LANGUAGE CXX)
+add_executable(${exe_name} ${sources})
 
-add_executable(attention_forward_decoder_main ${sources})
-message("CMAKE_CXX_COMPILER_ID: ${CMAKE_CXX_COMPILER_ID}")
+message("sources: ${sources}")
 
+message("CMAKE_CXX_COMPILER_ID: ${CMAKE_CXX_COMPILER_ID}")
 find_package(HIP REQUIRED)
+find_package(ROCM REQUIRED PATHS /opt/rocm)
+include(ROCMInstallTargets)
 
-message("HIP_VERSION: ${HIP_VERSION_MAJOR}.${HIP_VERSION_MINOR}")
+message("HIP_VERSION: ${HIP_VERSION_MAJOR}.${HIP_VERSION_MINOR}.${HIP_VERSION_PATCH}")
 
-set_target_properties(attention_forward_decoder_main PROPERTIES LINKER_LANGUAGE CXX)
+set_target_properties(${exe_name} PROPERTIES LINKER_LANGUAGE CXX)
+set_target_properties(${exe_name} PROPERTIES POSITION_INDEPENDENT_CODE ON)
 
-target_compile_options(attention_forward_decoder_main PUBLIC 
-  -fPIC 
+target_compile_options(${exe_name} PUBLIC 
   -O3 
-  --offload-arch=gfx90a
+  --offload-arch=${GPU_TARGETS}
   -fno-gpu-rdc)
 
-target_include_directories(attention_forward_decoder_main PUBLIC 
+target_include_directories(${exe_name} PUBLIC 
   ${xformers_csrc} 
   ${xformers_csrc}/attention/hip_fmha
-  ${ck_include}/tensor_operation/gpu/device
-  ${ck_include}/tensor_operation/gpu/device/impl
-  ${ck_include}/tensor_operation/gpu/element
+  ${ck_include}
+  ${ck_include}/ck/tensor_operation/gpu/device
+  ${ck_include}/ck/tensor_operation/gpu/device/impl
+  ${ck_include}/ck/tensor_operation/gpu/element
   ${torch_include}
   ${torch_include}/torch/csrc/api/include
   ${torch_include}/TH
@@ -45,14 +50,14 @@ target_include_directories(attention_forward_decoder_main PUBLIC
   ${torch_include}/THH
 )
 
-target_link_directories(attention_forward_decoder_main PUBLIC
+target_link_directories(${exe_name} PUBLIC
   /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
   /opt/conda/envs/py_3.8/lib
   /opt/rocm/lib
   /opt/rocm/hip/lib
 )
 
-target_link_libraries(attention_forward_decoder_main PUBLIC
+target_link_libraries(${exe_name} PUBLIC
   c10
   c10_hip
   torch
@@ -63,6 +68,14 @@ target_link_libraries(attention_forward_decoder_main PUBLIC
   amdhip64
 )
 
-target_compile_definitions(attention_forward_decoder_main PUBLIC 
-  ATTN_FWD_DECODER_MAIN
+target_compile_definitions(${exe_name} PUBLIC 
+  ATTN_FWD_DECODER_MAIN=1
+  GLIBCXX_USE_CXX11_ABI=1
+  __HIP_PLATFORM_HCC__=1
+  USE_ROCM=1
 )
+
+include(CMakePrintHelpers)
+cmake_print_properties(TARGETS ${exe_name} PROPERTIES LINK_LIBRARIES LINK_DIRECTORIES INCLUDE_DIRECTORIES COMPILE_DEFINITIONS COMPILE_OPTIONS)
+
+rocm_install(TARGETS ${exe_name})
\ No newline at end of file

From dc93fa03a5d30ad2c9996d8928ec7e9a1f7e6c15 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 18:02:19 -0500
Subject: [PATCH 218/837] enable building standalone exe with cmake

---
 .../csrc/attention/hip_fmha/CMakeLists.txt    | 32 ++++-----
 .../hip_fmha/attention_forward_decoder.cpp    | 68 +++----------------
 2 files changed, 26 insertions(+), 74 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index 8f5c8c5b7f..29ad562f89 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -1,6 +1,6 @@
 cmake_minimum_required(VERSION 3.26)
 
-project(FMHADecoderMain LANGUAGES CXX)
+project(FMHADecoderMain LANGUAGES CXX HIP)
 
 message("CMAKE_CXX_COMPILER: ${CMAKE_CXX_COMPILER} (need hipcc)")
 
@@ -16,12 +16,9 @@ set(sources ${xformers_csrc}/attention/hip_fmha/attention_forward_decoder.hip)
 set(ck_include ${project_root_dir}/third_party/composable_kernel/include/)
 set(torch_include /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include)
 
-set_source_files_properties(${sources} PROPERTIES LANGUAGE CXX)
+set_source_files_properties(${sources} PROPERTIES LANGUAGE HIP)
 add_executable(${exe_name} ${sources})
 
-message("sources: ${sources}")
-
-message("CMAKE_CXX_COMPILER_ID: ${CMAKE_CXX_COMPILER_ID}")
 find_package(HIP REQUIRED)
 find_package(ROCM REQUIRED PATHS /opt/rocm)
 include(ROCMInstallTargets)
@@ -30,29 +27,27 @@ message("HIP_VERSION: ${HIP_VERSION_MAJOR}.${HIP_VERSION_MINOR}.${HIP_VERSION_PA
 
 set_target_properties(${exe_name} PROPERTIES LINKER_LANGUAGE CXX)
 set_target_properties(${exe_name} PROPERTIES POSITION_INDEPENDENT_CODE ON)
+set_target_properties(${exe_name} PROPERTIES HIP_ARCHITECTURES ${GPU_TARGETS})
 
 target_compile_options(${exe_name} PUBLIC 
   -O3 
   --offload-arch=${GPU_TARGETS}
-  -fno-gpu-rdc)
+  -fno-gpu-rdc
+  $<$<CONFIG:Debug>:
+  --save-temps
+  >
+)
 
 target_include_directories(${exe_name} PUBLIC 
   ${xformers_csrc} 
   ${xformers_csrc}/attention/hip_fmha
   ${ck_include}
-  ${ck_include}/ck/tensor_operation/gpu/device
-  ${ck_include}/ck/tensor_operation/gpu/device/impl
-  ${ck_include}/ck/tensor_operation/gpu/element
   ${torch_include}
   ${torch_include}/torch/csrc/api/include
-  ${torch_include}/TH
-  ${torch_include}/THC
-  ${torch_include}/THH
 )
 
 target_link_directories(${exe_name} PUBLIC
   /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
-  /opt/conda/envs/py_3.8/lib
   /opt/rocm/lib
   /opt/rocm/hip/lib
 )
@@ -61,10 +56,8 @@ target_link_libraries(${exe_name} PUBLIC
   c10
   c10_hip
   torch
-  torch_python
   torch_hip
   torch_cpu
-  python3.8
   amdhip64
 )
 
@@ -76,6 +69,13 @@ target_compile_definitions(${exe_name} PUBLIC
 )
 
 include(CMakePrintHelpers)
-cmake_print_properties(TARGETS ${exe_name} PROPERTIES LINK_LIBRARIES LINK_DIRECTORIES INCLUDE_DIRECTORIES COMPILE_DEFINITIONS COMPILE_OPTIONS)
+cmake_print_properties(TARGETS ${exe_name} PROPERTIES 
+  LINK_LIBRARIES 
+  LINK_DIRECTORIES 
+  INCLUDE_DIRECTORIES 
+  COMPILE_DEFINITIONS 
+  COMPILE_OPTIONS
+  SOURCES
+  HIP_ARCHITECTURES)
 
 rocm_install(TARGETS ${exe_name})
\ No newline at end of file
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 6076b50221..79fb683685 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -2,7 +2,6 @@
   TODO: license header
 */
 
-// #include <ck/ck.hpp>
 #include <ATen/Dispatch.h>
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
@@ -189,67 +188,20 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
  For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
 
 (2) compile
- > /opt/rocm/bin/hipcc \
--I/xformers/xformers/csrc \
--I/xformers/xformers/csrc/attention/hip_fmha \
--I/xformers/third_party/composable_kernel/include \
--I/xformers/third_party/composable_kernel/include/ck \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/device/impl \
--I/xformers/third_party/composable_kernel/include/ck/tensor_operation/gpu/element \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/torch/csrc/api/include \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/TH \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THC \
--I/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include/THH \
--I/opt/rocm/include \
--I/opt/conda/envs/py_3.8/include/python3.8 \
--L/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
--L/opt/conda/envs/py_3.8/lib \
--L/opt/rocm/lib \
--L/opt/rocm/hip/lib \
--fPIC \
--D__HIP_PLATFORM_HCC__=1 \
--DATTN_FWD_DECODER_MAIN \
--DUSE_ROCM=1 \
--DCUDA_HAS_FP16=1 \
--D__HIP_NO_HALF_OPERATORS__=1 \
--D__HIP_NO_HALF_CONVERSIONS__=1 \
--O3 \
--std=c++17 \
---offload-arch=gfx90a \
--U__CUDA_NO_HALF_OPERATORS__ \
--U__CUDA_NO_HALF_CONVERSIONS__ \
--DBUILD_PYTHON_PACKAGE \
--DTORCH_API_INCLUDE_EXTENSION_H \
-'-DPYBIND11_COMPILER_TYPE="_gcc"' \
-'-DPYBIND11_STDLIB="_libstdcpp"' \
-'-DPYBIND11_BUILD_ABI="_cxxabi1013"' \
--DTORCH_EXTENSION_NAME=_C \
--D_GLIBCXX_USE_CXX11_ABI=1 \
--fno-gpu-rdc \
-/xformers/xformers/csrc/attention/hip_fmha/attention_forward_decoder.hip \
--lc10_hip \
--ltorch_hip \
--lc10 \
--ltorch \
--ltorch_cpu \
--ltorch_python \
--lpython3.8 \
--lamdhip64 \
--o a.out
-
-For assembly debugging, add `--save-temps -g`.
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \ 
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="gfx90a" 
+  > make
 
 (3a) run correctness check
- >
-LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
- ./a.out
+ > ./attention_forward_decoder_main
 
 (3b) run specific input shape
- >
-LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib \
- ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+ > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
 */
 
 // clang-format on

From 64da2b9dc0ce37a312012188e8996ff219fd9b6a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 18:43:56 -0500
Subject: [PATCH 219/837] cleanup includes and libraries for standalone exe

---
 xformers/csrc/attention/hip_fmha/CMakeLists.txt | 12 ++++--------
 1 file changed, 4 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index 29ad562f89..d0282cfb99 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -31,7 +31,6 @@ set_target_properties(${exe_name} PROPERTIES HIP_ARCHITECTURES ${GPU_TARGETS})
 
 target_compile_options(${exe_name} PUBLIC 
   -O3 
-  --offload-arch=${GPU_TARGETS}
   -fno-gpu-rdc
   $<$<CONFIG:Debug>:
   --save-temps
@@ -39,16 +38,13 @@ target_compile_options(${exe_name} PUBLIC
 )
 
 target_include_directories(${exe_name} PUBLIC 
-  ${xformers_csrc} 
-  ${xformers_csrc}/attention/hip_fmha
-  ${ck_include}
-  ${torch_include}
-  ${torch_include}/torch/csrc/api/include
+  ${ck_include}                           # ck includes
+  ${torch_include}                        # aten includes
+  ${torch_include}/torch/csrc/api/include # torch includes
 )
 
 target_link_directories(${exe_name} PUBLIC
-  /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib
-  /opt/rocm/lib
+  /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib # c10, torch
   /opt/rocm/hip/lib
 )
 

From 684e5e0ec5d2c0e5351b6d6fb92b4a5a4939d056 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Nov 2023 18:54:13 -0500
Subject: [PATCH 220/837] remove unnecessary -O3 in cmakelists

---
 xformers/csrc/attention/hip_fmha/CMakeLists.txt | 1 -
 1 file changed, 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index d0282cfb99..a95c68fbed 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -30,7 +30,6 @@ set_target_properties(${exe_name} PROPERTIES POSITION_INDEPENDENT_CODE ON)
 set_target_properties(${exe_name} PROPERTIES HIP_ARCHITECTURES ${GPU_TARGETS})
 
 target_compile_options(${exe_name} PUBLIC 
-  -O3 
   -fno-gpu-rdc
   $<$<CONFIG:Debug>:
   --save-temps

From 2e79bc9e0f4970ceb52bb63dd5da7c79b802bc41 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 13:00:08 -0500
Subject: [PATCH 221/837] use d=128 dtype=bf16 in the benchmark

---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index 460279c7fe..bfbe4c35b5 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -118,8 +118,8 @@ def mem_eff_attention_decoder(
     n_keys, padding, B = kv_shape
     torch.manual_seed(42)
     k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
-    K = 256
-    dtype = torch.float16
+    K = 128
+    dtype = torch.bfloat16
     q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
     if multiquery:
         k = torch.rand(

From 09829a4e2b8a2eb68aebe2e812e811c59bbcc74a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 13:25:27 -0500
Subject: [PATCH 222/837] update comment to reflect that vec_size is variable

---
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 07fb7994a3..68dfe61623 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -147,7 +147,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
 
   // Load Q into registers in all wavefronts.
-  // Each thread handles 4 D dimensions
+  // Each thread handles `vec_size` D dimensions
   
   using data_t = scalar_t;
   using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;

From becbbad2f51126ddcf4f3f9f588878584ee4589d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 13:50:10 -0500
Subject: [PATCH 223/837] move active lane condition one loop level up for ~5%
 perf gain

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 48 ++++++++++---------
 1 file changed, 25 insertions(+), 23 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 68dfe61623..53d09c83b1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -175,11 +175,11 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const int32_t t_max_unroll = (t_max / dtt) * dtt;
 
   for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      const int32_t t = tt + ttt;
-      // load the K[b][t][h|0][:] row into registers
-      if (lane_active_for_io) {
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the K[b][t][h|0][:] row into registers
         load_v<data_t, data_vec_t>(
             cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
       } 
@@ -207,11 +207,12 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
   for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
        tt += wavefronts_per_block * n_loop_unroll_tail) {
+        
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        if (lane_active_for_io) {
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
           // load the K[b][t][h|0][:] row into registers
           load_v<data_t, data_vec_t>(
               cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
@@ -284,18 +285,18 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
   // outputs are of size float[D]
 
-  compute_t ps[n_loop_unroll];
+  compute_t ps[n_loop_unroll] = {};
   compute_vec_t o_acc = 0;
   for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (lane_active_for_io) {
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
         // load the V[b][t][h|0][:] row into registers, reusing K register storage
         load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      } 
-      ps[ttt] = smem[t];
+            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]); 
+        ps[ttt] = smem[t];
+      }
     }
 
 #pragma unroll n_loop_unroll
@@ -306,17 +307,18 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
        tt += wavefronts_per_block * n_loop_unroll_tail) {
+        
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        // load the V[b][t][h|0][:] row into registers, reusing K register
-        // storage
-        if (lane_active_for_io) {
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the V[b][t][h|0][:] row into registers, reusing K register
+          // storage
           load_v<data_t, data_vec_t>(
               cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-        } 
-        ps[ttt] = smem[t];
+          ps[ttt] = smem[t];
+        }
       }
     }
 

From fcf9817e3fc2ab035c0110d1541b0c26b624d7de Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 14:20:53 -0500
Subject: [PATCH 224/837] move active lane condition one more loop level up in
 SV calculation, a bit more perf gain + clang-format

---
 .../hip_fmha/ck_attention_forward_decoder.h   | 113 ++++++++++--------
 1 file changed, 63 insertions(+), 50 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 53d09c83b1..ef68559ebe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -1,4 +1,4 @@
-#pragma once 
+#pragma once
 
 #include <ck/host_utility/kernel_launch_hip.hpp>
 #include <ck/stream_config.hpp>
@@ -16,7 +16,7 @@ __device__ void inner_product<bhalf_t, bhalf_t, float>(
   inner_product(type_convert<float>(a), type_convert<float>(b), c);
 }
 
-template<>
+template <>
 __device__ void inner_product<half_t, half_t, float>(
     const half_t& a,
     const half_t& b,
@@ -54,16 +54,20 @@ __device__ void inner_product<bhalf4_t, bhalf4_t, float>(
 namespace {
 
 template <typename data_t, int32_t vec_size>
-__device__ 
-typename ck::vector_type<float, vec_size>::type
-scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc, 
-                 typename ck::vector_type<data_t, vec_size>::type a, 
-                 float b) {
-  
-  union { decltype(acc) vec; float arr[vec_size]; } acc_u {acc};
-  union { decltype(a) vec; data_t arr[vec_size]; } a_u {a};
-  
-  #pragma unroll
+__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
+    typename ck::vector_type<float, vec_size>::type acc,
+    typename ck::vector_type<data_t, vec_size>::type a,
+    float b) {
+  union {
+    decltype(acc) vec;
+    float arr[vec_size];
+  } acc_u{acc};
+  union {
+    decltype(a) vec;
+    data_t arr[vec_size];
+  } a_u{a};
+
+#pragma unroll
   for (int32_t i = 0; i < vec_size; ++i) {
     acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
   }
@@ -85,7 +89,7 @@ __forceinline__ __device__ void load_v(
     const TData* __restrict__ data_ptr,
     int32_t vector_offset,
     TDataVec* __restrict__ load_to) {
-      *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TData, typename TDataVec>
@@ -93,7 +97,7 @@ __forceinline__ __device__ void store_v(
     TData* __restrict__ data_ptr,
     int32_t vector_offset,
     TDataVec value) {
-      *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
 template <
@@ -138,7 +142,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   const int32_t thread_linear_idx =
       lane_idx + wavefront_idx * threads_per_wavefront;
   // const auto* q_ = &(XQ_acc[b][m][h][0]);
-  const auto XQO_base_offset = b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
+  const auto XQO_base_offset =
+      b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
   const auto* __restrict__ q_ = XQ + XQO_base_offset;
 
   const auto cache_KV_base_offset =
@@ -148,7 +153,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   // Load Q into registers in all wavefronts.
   // Each thread handles `vec_size` D dimensions
-  
+
   using data_t = scalar_t;
   using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
   using compute_t = float;
@@ -161,7 +166,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   data_vec_t q_thread = 0;
   if (lane_active_for_io) {
     load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  } 
+  }
   // Each block computes different B value
   compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
@@ -182,7 +187,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
         // load the K[b][t][h|0][:] row into registers
         load_v<data_t, data_vec_t>(
             cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      } 
+      }
     }
     compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
@@ -207,7 +212,6 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
   for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
        tt += wavefronts_per_block * n_loop_unroll_tail) {
-        
     if (lane_active_for_io) {
 #pragma unroll n_loop_unroll_tail
       for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
@@ -216,7 +220,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
           // load the K[b][t][h|0][:] row into registers
           load_v<data_t, data_vec_t>(
               cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-        } 
+        }
       }
     }
 #pragma unroll n_loop_unroll_tail
@@ -228,8 +232,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
             q_thread, k_loads[ttt], qk_acc);
         qk_acc *= qk_scale;
 
-        qk_acc =
-            wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
         max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
 
         // write accumulated sums to smem.
@@ -250,8 +253,8 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     max_qk_acc = ck::math::max(max_qk_acc, smem[T_MAX + lane_idx]);
   }
   // shared across all threads in block
-  max_qk_acc = wavefrontReduce(
-      max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+  max_qk_acc =
+      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
 
   // each wavefront computes partial sum of exp.
   compute_t softmax_denominator = 0.0f;
@@ -287,28 +290,29 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   compute_t ps[n_loop_unroll] = {};
   compute_vec_t o_acc = 0;
-  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
-    if (lane_active_for_io) {
+  if (lane_active_for_io) {
+    for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll;
+         tt += dtt) {
 #pragma unroll n_loop_unroll
       for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
         const int32_t t = tt + ttt;
-        // load the V[b][t][h|0][:] row into registers, reusing K register storage
+        // load the V[b][t][h|0][:] row into registers, reusing K register
+        // storage
         load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]); 
+            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
         ps[ttt] = smem[t];
       }
-    }
 
 #pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        o_acc =
+            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      }
     }
-  }
 
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-       tt += wavefronts_per_block * n_loop_unroll_tail) {
-        
-    if (lane_active_for_io) {
+    for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
+         tt < t_max;
+         tt += wavefronts_per_block * n_loop_unroll_tail) {
 #pragma unroll n_loop_unroll_tail
       for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
         const int32_t t = tt + ttt;
@@ -320,13 +324,14 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
           ps[ttt] = smem[t];
         }
       }
-    }
 
 #pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          o_acc =
+              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+        }
       }
     }
   }
@@ -342,7 +347,10 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   __syncthreads();
   // sum up partial D rows from other wavefronts
   if (wavefront_idx == 0 && lane_active_for_io) {
-    union { compute_vec_t vec = 0; compute_t arr[vec_size]; } r;
+    union {
+      compute_vec_t vec = 0;
+      compute_t arr[vec_size];
+    } r;
     for (int32_t w = 0; w < wavefronts_per_block; ++w) {
       compute_vec_t partial_r;
       load_v<compute_t, compute_vec_t>(
@@ -350,8 +358,11 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
       r.vec += partial_r;
     }
     // elementwise convert from compute_t result to data_t out to be written
-    union { data_vec_t vec; data_t arr[vec_size]; } bf_r;
-    #pragma unroll 
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } bf_r;
+#pragma unroll
     for (int32_t i = 0; i < vec_size; ++i) {
       bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }
@@ -431,12 +442,11 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     float Run(
         const Argument& arg,
         const StreamConfig& stream_config = StreamConfig{}) {
-
       auto threads_per_wavefront = arg.block_dim.x;
 
       auto D_H_alignment_necessary = 0;
 
-      for (auto vec_size: {4, 2, 1}) {
+      for (auto vec_size : {4, 2, 1}) {
         if (arg.D_H <= vec_size * threads_per_wavefront) {
           D_H_alignment_necessary = vec_size;
         }
@@ -452,10 +462,13 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
 
       return launch_and_time_kernel(
           stream_config,
-          D_H_alignment_necessary == 4 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4> 
-        : D_H_alignment_necessary == 2 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-        : D_H_alignment_necessary == 1 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-        : nullptr,
+          D_H_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+              : D_H_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+              : D_H_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,

From 8ba431eaf53cfa439611bd0fbc0a052ab5ded49e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 14:33:00 -0500
Subject: [PATCH 225/837] replace one more instance of hardcoded 4 with
 vec_size in a comment

---
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index ef68559ebe..052a1d8083 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -339,7 +339,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
   // results back.
   __syncthreads();
 
-  // NB: needs sizeof(smem) >= 4 * (sizeof(float)==4) * threadsPerBlock
+  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
   if (lane_active_for_io) {
     store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
   }

From bc9737ca09a69315e025960943d7cf1a66aec7df Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 17:43:53 -0500
Subject: [PATCH 226/837] unhardcode gfx arch

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 647e09620d..92d0bcbad1 100644
--- a/setup.py
+++ b/setup.py
@@ -311,7 +311,7 @@ def get_extensions():
                 [
                     "-O3",
                     "-std=c++17",
-                    "--offload-arch=gfx90a",
+                    f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'gfx90a')}",
                     "-U__CUDA_NO_HALF_OPERATORS__",
                     "-U__CUDA_NO_HALF_CONVERSIONS__",
                 ]

From 846188545d016cc59ac723ce95649308b6d6d72e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 17 Nov 2023 18:19:40 -0500
Subject: [PATCH 227/837] use native gfx arch by default

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 92d0bcbad1..41922e8a68 100644
--- a/setup.py
+++ b/setup.py
@@ -311,7 +311,7 @@ def get_extensions():
                 [
                     "-O3",
                     "-std=c++17",
-                    f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'gfx90a')}",
+                    f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'native')}",
                     "-U__CUDA_NO_HALF_OPERATORS__",
                     "-U__CUDA_NO_HALF_CONVERSIONS__",
                 ]

From e7e83c806130ff4e4cf2a8046f94ec200aa94d59 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 20 Nov 2023 19:01:22 +0000
Subject: [PATCH 228/837] Add https://github.com/asroy/ck_tile.git as submodule
 for using ck-tiled kernels

---
 .gitmodules                         | 3 +++
 third_party/composable_kernel_tiled | 1 +
 2 files changed, 4 insertions(+)
 create mode 160000 third_party/composable_kernel_tiled

diff --git a/.gitmodules b/.gitmodules
index 94eb8135c6..dd09e44295 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -8,3 +8,6 @@
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git
+[submodule "third_party/composable_kernel_tiled"]
+	path = third_party/composable_kernel_tiled
+	url = https://github.com/asroy/ck_tile.git
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
new file mode 160000
index 0000000000..496be40efd
--- /dev/null
+++ b/third_party/composable_kernel_tiled
@@ -0,0 +1 @@
+Subproject commit 496be40efde65ace153fe53ec9a3865828f2d3cc

From dd3aeab01dd9133922799c1abf8f72e560ee095c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 20 Nov 2023 19:56:25 +0000
Subject: [PATCH 229/837] Create codes structure and change to setup.py to use
 ck-tiled programming for inference

---
 setup.py                                      |  42 +-
 .../attention_forward_generic_ck_tiled.cpp    | 439 ++++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  28 ++
 .../ck_tiled_fmha_batched_infer_bp16.cpp      |  58 +++
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  58 +++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  28 ++
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      |  58 +++
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  58 +++
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |   8 +
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |   8 +
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |   8 +
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |   8 +
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |   8 +
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |   8 +
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |   8 +
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   8 +
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |   8 +
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   8 +
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |   8 +
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   8 +
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |   8 +
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |   8 +
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |   8 +
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |   8 +
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |   8 +
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |   8 +
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |   8 +
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   8 +
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |   8 +
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   8 +
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |   8 +
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   8 +
 32 files changed, 952 insertions(+), 9 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp

diff --git a/setup.py b/setup.py
index 21a99a287a..c9bfb35f35 100644
--- a/setup.py
+++ b/setup.py
@@ -208,8 +208,27 @@ def get_extensions():
     source_cuda += glob.glob(os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True)
     source_cuda += glob.glob(os.path.join(extensions_dir, "indexing", "**", "*.cu"), recursive=True)
     source_cuda += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True)
-    source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cpp"), recursive=True) 
 
+    source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"), recursive=False)
+    
+    if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
+    else:
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_backward_generic.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_forward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_forward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_backward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_backward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances", "ck_fmha_*.cpp"), recursive=False)
+        
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
     cutlass_dir = os.path.join(this_dir, "third_party", "cutlass", "include")
     cutlass_examples_dir = os.path.join(this_dir, "third_party", "cutlass", "examples")
@@ -293,16 +312,21 @@ def get_extensions():
         ]
     elif torch.cuda.is_available() and torch.version.hip: 
        rename_cpp_cu(source_hip)
-       source_hip_cu = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cu"), recursive=True) 
+       source_hip_cu = []
+       for ff in source_hip:
+           source_hip_cu += [ff.replace(".cpp", ".cu")]
+
        extension = CUDAExtension
        sources += source_hip_cu
-       include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha', 
-                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include',
-                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' ,
-                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'device',
-                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'device' / 'impl',
-                         Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck' / 'tensor_operation' / 'gpu' / 'element',
-                       ] 
+       include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha' ]
+
+       if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
+           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include',
+                             Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']
+       else:
+           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include', 
+                             Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']
+           
        generator_flag = []
        cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
        extra_compile_args={
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
new file mode 100644
index 0000000000..8cd17ad84f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -0,0 +1,439 @@
+#include <cmath>
+#include <mutex>
+
+#include <ATen/Context.h>
+#include <ATen/ScalarOps.h>
+#include <ATen/Tensor.h>
+#include <ATen/core/Generator.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <c10/util/Optional.h>
+#include <torch/library.h>
+#include <ATen/cuda/CUDAGraphsUtils.cuh>
+
+#include "ck_fmha_params.h"
+#include "ck_fmha_util.h"
+
+/*
+extern void batched_forward_fp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void batched_forward_bp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_fp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_bp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+*/
+
+extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
+extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
+extern void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream);
+extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream);
+
+namespace {
+
+/*
+  There are 2 modes for using this function.
+  (Mode BMHK) With all the heads having the same seqlen
+  (Mode 1MHK) `batch=1` with all tokens across batches concatenated
+*/
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+efficient_attention_forward_ck(
+    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
+    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
+    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
+    const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
+    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
+    // position of the first query token for batch $b
+    const c10::optional<at::Tensor>& seqstart_q,
+    // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
+    // position of the first key token for batch $b
+    const c10::optional<at::Tensor>& seqstart_k,
+    // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_q_,
+    double dropout_p, // attention matrix dropout probability
+    bool compute_logsumexp,
+    int64_t custom_mask_type,
+    c10::optional<double> scale,
+    const c10::optional<at::Tensor>& seqlen_k) {
+  TORCH_CHECK(query.dim() == 4);
+  TORCH_CHECK(key.dim() == 4);
+  TORCH_CHECK(value.dim() == 4);
+
+  // Batch sizes
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // Sequence length
+  TORCH_CHECK(key.size(1) == value.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+
+  TORCH_CHECK(query.scalar_type() == key.scalar_type());
+  TORCH_CHECK(query.scalar_type() == value.scalar_type());
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
+  };
+
+  // last dim is contiguous, device is kCUDA
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t Hq = query.size(-2);
+  int64_t Hkv = key.size(-2);
+  int64_t K = query.size(-1);
+  int64_t Kv = value.size(-1);
+
+  auto opts = query.options();
+
+  at::Tensor logsumexp;
+
+  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
+
+  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  if (use_dropout) {
+    /*
+    at::PhiloxCudaState rng_engine_inputs;
+    at::CUDAGeneratorImpl* gen =
+        at::get_generator_or_default<at::CUDAGeneratorImpl>(
+            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    // if using dropout, we produce 1 random number for each element of the
+    // attention tensor
+    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
+
+    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+    philox_seed = std::get<0>(seeds);
+    philox_offset = std::get<1>(seeds);
+    */
+    throw std::runtime_error(
+        "drop-out is currently not implemented by ck-tiled!");
+  }
+
+  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
+    p.compute_logsumexp = compute_logsumexp;
+
+    // the following parameters are only used by training forward
+    if (p.use_dropout) {
+      // p.dropout_prob = static_cast<float>(dropout_p);
+      throw std::runtime_error(
+          "drop-out is currently not implemented by ck-tiled!");
+    } else
+      p.dropout_prob = 0.0f;
+
+    if (p.compute_logsumexp) {
+      /*
+      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
+      p.logsumexp_ptr = logsumexp.data_ptr();
+      */
+      throw std::runtime_error(
+          "compute logsumexp is currently not implemented by ck-tiled!");
+    } else
+      p.logsumexp_ptr = nullptr;
+  };
+
+  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.custom_mask_type = custom_mask_type;
+
+    // max_seqlen_q is used to create logsumexp tensor
+    p.max_seqlen_q = *max_seqlen_q_;
+
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
+
+    for (int i = 0; i < p.host_seqstart_q.size(); i++)
+      p.host_seqstart_q[i] =
+          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
+
+    for (int i = 0; i < p.host_seqstart_k.size(); i++)
+      p.host_seqstart_k[i] =
+          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
+
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
+
+      p.host_seqlen_k.resize(p.num_batches);
+
+      for (int i = 0; i < p.host_seqlen_k.size(); i++)
+        p.host_seqlen_k[i] =
+            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
+    }
+
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* attn_bias_ptr =
+        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
+
+    for (int i = 0; i < p.num_batches; i++) {
+      size_t tmp_q_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
+          query.scalar_type());
+      size_t tmp_k_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
+          key.scalar_type());
+      size_t tmp_v_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
+          value.scalar_type());
+      size_t tmp_o_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
+          out.scalar_type());
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
+      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
+      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
+      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
+
+      if (bias.has_value()) {
+        size_t tmp_bias_offset = get_size_in_bytes(
+            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(
+            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+      };
+
+      // ToDO: remove this after dev-op fix
+      p.randvals_ptrs.push_back(nullptr);
+    }
+
+    p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
+    p.compute_logsumexp = compute_logsumexp;
+
+    // the following parameters are only used by training forward
+    if (p.use_dropout) {
+      // p.dropout_prob = static_cast<float>(dropout_p);
+      throw std::runtime_error(
+          "drop-out is currently not implemented by ck-tiled!");
+    } else
+      p.dropout_prob = 0.0f;
+
+    if (p.compute_logsumexp) {
+      /*
+      logsumexp = at::empty(
+          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+      char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+
+      for (int i = 0; i < p.num_batches; i++) {
+        size_t tmp_logsumexp_offset = get_size_in_bytes(
+            static_cast<size_t>(i) * Hq * p.max_seqlen_q,
+            logsumexp.scalar_type());
+        p.logsumexp_ptrs.push_back(
+            reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+      };
+      */
+      throw std::runtime_error(
+          "compute logsumexp is currently not implemented by ck-tiled!");
+    };
+  };
+
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedForwardParams batched_forward_params;
+
+    set_batched_forward_params(batched_forward_params);
+
+    if (!batched_forward_params.use_dropout &&
+        !batched_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        batched_infer_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_infer_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      /*
+      if (inDataType == at::ScalarType::Half) {
+        batched_forward_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_forward_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+      */
+      throw std::runtime_error(
+          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
+    };
+  } else { // input is grouped
+    GroupedForwardParams grouped_forward_params;
+
+    set_grouped_forward_params(grouped_forward_params);
+
+    if (!grouped_forward_params.use_dropout &&
+        !grouped_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_infer_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_infer_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      /*
+      if (inDataType == at::ScalarType::Half) {
+        grouped_forward_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_forward_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+      */
+      throw std::runtime_error(
+          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
+    };
+  };
+
+  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+}
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
+      TORCH_FN(efficient_attention_forward_ck));
+}
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
new file mode 100644
index 0000000000..9aa37d9b89
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -0,0 +1,28 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+
+#include "ck_fmha_params.h"
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+struct batched_infer_masktype_attnbias_dispatched {
+  static void Run(BatchedForwardParams& param, hipStream_t stream){};
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(
+      BatchedForwardParams& param,
+      hipStream_t stream){};
+};
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void run_batched_infer_masktype_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  batched_infer_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
new file mode 100644
index 0000000000..81ff5b9154
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -0,0 +1,58 @@
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_bool_switch.h"
+#include "ck_tiled_fmha_batched_infer.h"
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
new file mode 100644
index 0000000000..5814b73914
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -0,0 +1,58 @@
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_bool_switch.h"
+#include "ck_tiled_fmha_batched_infer.h"
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
new file mode 100644
index 0000000000..b3d3b159b7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -0,0 +1,28 @@
+#pragma once
+
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/ck.hpp>
+
+#include "ck_fmha_params.h"
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+struct grouped_infer_masktype_attnbias_dispatched {
+  static void Run(GroupedForwardParams& param, hipStream_t stream){};
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(
+      GroupedForwardParams& param,
+      hipStream_t stream){};
+};
+
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+void run_grouped_infer_masktype_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_infer_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
new file mode 100644
index 0000000000..bdfce5854d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -0,0 +1,58 @@
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_bool_switch.h"
+#include "ck_tiled_fmha_grouped_infer.h"
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
new file mode 100644
index 0000000000..009571c976
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -0,0 +1,58 @@
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_bool_switch.h"
+#include "ck_tiled_fmha_grouped_infer.h"
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..9748955e14
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..418f925c2a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..a7cdb48b83
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..578855b9b4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..35e9bca9c0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..e27e3b5ff9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..5c83b0abd6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..11c76b35f3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..b13f5a4c9b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..12f5991c4b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..8d45859e52
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..9f03be2b5c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..973213413a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..96e0ba425d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..332724e736
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..cb1120f5b0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..51ed70cabb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..c157e89c1e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..bbcd3ab0e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..e320f5de69
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..e763dde6ae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..3ec2d41da3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..dee7a0845b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..b5515e9a08
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,8 @@
+#include <ck/ck.hpp>
+
+#include "ck_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);

From 5b54bf9dfcb1d46299532e49519be3dd554227a8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 20 Nov 2023 18:54:49 -0500
Subject: [PATCH 230/837] add benchmark_attn_decoding from upstream xformers;
 run ck fw op for decoding

---
 .../benchmarks/benchmark_attn_decoding.py     | 159 ++++++++++++++++++
 xformers/benchmarks/utils.py                  |  49 +++++-
 2 files changed, 207 insertions(+), 1 deletion(-)
 create mode 100644 xformers/benchmarks/benchmark_attn_decoding.py

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
new file mode 100644
index 0000000000..a22a4f6456
--- /dev/null
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -0,0 +1,159 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+from typing import Any
+
+import torch
+from torch.utils import benchmark
+from utils import benchmark_main_helper2
+
+import xformers.ops as xops
+
+min_run_time = 0.5
+device = torch.device("cuda")
+
+
+CASES = [
+    dict(B=max(1, 2 ** (16 - i)), Mq=1, Mkv=2**i, Hq=16, Hkv=1, K=128)
+    for i in range(8, 18)
+]
+# + [
+#     dict(B=max(1, 2 ** (16 - i)), Mq=1, Mkv=2**i, Hq=16, Hkv=2, K=128)
+#     for i in range(8, 18)
+# ]
+
+
+def _setup_test(
+    functions, fw: bool = False, bw: bool = False, cuda_graph: bool = True, **kwargs
+):
+    for k, benchmark_cls in functions.items():
+        benchmark_object = benchmark_cls(**kwargs, bw=bw)
+        label = benchmark_object.label
+        label += "fw" if fw else ""
+        label += "bw" if bw else ""
+
+        def run_one():
+            if fw:
+                benchmark_object.fw()
+            if bw:
+                benchmark_object.bw()
+
+        if cuda_graph:
+            run_one()
+            g = torch.cuda.CUDAGraph()
+            with torch.cuda.graph(g):
+                run_one()
+
+            def run_one():
+                g.replay()
+
+        yield benchmark.Timer(
+            stmt="fn()",
+            globals={
+                "fn": run_one,
+            },
+            label=label,
+            description=k,
+            sub_label=benchmark_object.sub_label,
+        )
+
+
+class AttentionDecodingFlashDecoding:
+    OP: Any = xops.fmha.flash.FwOp
+
+    def __init__(
+        self, B: int, Mq: int, Mkv: int, Hq: int, Hkv: int, K: int, bw: bool
+    ) -> None:
+        dtype = torch.float16
+        self.sub_label = f"B={B} Mq={Mq} Mkv={Mkv} Hq={Hq} Hkv={Hkv} K={K}"
+        self.label = "attn_decoding"
+        self.shapes = (B, Mq, Mkv, Hq, Hkv, K)
+
+        assert Hkv <= Hq
+        assert Hq % Hkv == 0
+        self.q = torch.randn(
+            [B, Mq, Hkv, Hq // Hkv, K], device="cuda", dtype=dtype, requires_grad=bw
+        )
+        self.k = torch.randn(
+            [B, Mkv, Hkv, 1, K], device="cuda", dtype=dtype, requires_grad=bw
+        ).expand(-1, -1, -1, Hq // Hkv, -1)
+        self.v = torch.randn(
+            [B, Mkv, Hkv, 1, K], device="cuda", dtype=dtype, requires_grad=bw
+        ).expand(-1, -1, -1, Hq // Hkv, -1)
+
+        if Hq == Hkv:
+            self.q = self.q[:, :, :, 0]
+            self.k = self.k[:, :, :, 0]
+            self.v = self.v[:, :, :, 0]
+        if Hkv == 1:
+            self.q = self.q[:, :, 0]
+            self.k = self.k[:, :, 0]
+            self.v = self.v[:, :, 0]
+
+    def fw(self) -> None:
+        xops.memory_efficient_attention_forward(self.q, self.k, self.v, op=self.OP)
+
+
+# class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
+#     OP = xops.fmha.triton_splitk.FwOp
+
+
+class AttentionDecodingCK(AttentionDecodingFlashDecoding):
+    OP = xops.fmha.ck.FwOp
+
+
+class AttentionDecodingCKDecoder(AttentionDecodingFlashDecoding):
+    OP = xops.fmha.ck_decoder.FwOp
+
+
+class AttentionDecodingPyTorchRepeat(AttentionDecodingFlashDecoding):
+    def fw(self) -> None:
+        B, Mq, Mkv, Hq, Hkv, K = self.shapes
+        scale = 1 / K**0.5
+        q = self.q.reshape([B, Mq, -1, K]).permute(0, 2, 1, 3)
+        k = self.k.reshape([B, Mkv, -1, K]).permute(0, 2, 1, 3)
+        v = self.v.reshape([B, Mkv, -1, K]).permute(0, 2, 1, 3)
+        attn = (q @ k.transpose(-1, -2)).softmax(-1) * scale
+        return attn @ v
+
+
+BENCHMARKS = {
+    "pytorch": AttentionDecodingPyTorchRepeat,
+    #"flash-decoding": AttentionDecodingFlashDecoding,
+    # "triton_splitK": AttentionDecodingSplitKV,
+    # "ck": AttentionDecodingCK,
+    "ck-decoder": AttentionDecodingCKDecoder,
+}
+
+
+try:
+    import flash_attn
+
+    class AttentionDecodingFlashAttention(AttentionDecodingFlashDecoding):
+        def fw(self) -> None:
+            q, k, v = self.q, self.k, self.v
+            if q.ndim == 5:
+                B, Mq, H1, H2, K = q.shape
+                B, Mkv, H1, H2, K = k.shape
+                q = q.reshape([B, Mq, H1 * H2, K])
+                k = k[:, :, :, 0]
+                v = v[:, :, :, 0]
+            return flash_attn.flash_attn_func(q, k, v)
+
+    BENCHMARKS[
+        f"flash-attention@{flash_attn.__version__}"
+    ] = AttentionDecodingFlashAttention
+except ImportError:
+    pass
+
+
+benchmark_main_helper2(
+    "attn_decoding",
+    fw=True,
+    cases=CASES,
+    functions=BENCHMARKS,
+    min_run_time=min_run_time,
+)
diff --git a/xformers/benchmarks/utils.py b/xformers/benchmarks/utils.py
index 0a722846be..b048895014 100644
--- a/xformers/benchmarks/utils.py
+++ b/xformers/benchmarks/utils.py
@@ -14,7 +14,7 @@
 import tempfile
 from collections import defaultdict, namedtuple
 from dataclasses import replace
-from typing import Any, Dict, Generator, List, Set, Tuple
+from typing import Any, Dict, Generator, Iterator, List, Set, Tuple
 
 import matplotlib.pyplot as plt
 import numpy as np
@@ -437,6 +437,53 @@ def benchmark_main_helper(benchmark_fn, cases: List[Dict[str, Any]], **kwargs) -
     )
 
 
+def benchmark_main_helper2(
+    name: str,
+    functions,
+    fw: bool = False,
+    bw: bool = False,
+    cuda_graph: bool = True,
+    **kwargs,
+) -> None:
+    assert fw or bw
+
+    def handle_case(**case) -> Iterator[benchmark.Timer]:
+        for k, benchmark_cls in functions.items():
+            benchmark_object = benchmark_cls(**case, bw=bw)
+            label = benchmark_object.label
+            label += "fw" if fw else ""
+            label += "bw" if bw else ""
+
+            def run_one():
+                if fw:
+                    benchmark_object.fw()
+                if bw:
+                    benchmark_object.bw()
+
+            if cuda_graph:
+                run_one()
+                benchmark_object = benchmark_cls(**case, bw=bw)
+                g = torch.cuda.CUDAGraph()
+                with torch.cuda.graph(g):
+                    run_one()
+
+                def run_one():
+                    g.replay()
+
+            yield benchmark.Timer(
+                stmt="fn()",
+                globals={
+                    "fn": run_one,
+                },
+                label=label,
+                description=k,
+                sub_label=benchmark_object.sub_label,
+            )
+
+    handle_case.__name__ = name
+    benchmark_main_helper(handle_case, **kwargs)
+
+
 def benchmark_run_and_compare(
     benchmark_fn,
     cases: List[Dict[str, Any]],

From e2dd08fc190b3cd47d775a5a092538346261ae87 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 20 Nov 2023 22:33:57 -0500
Subject: [PATCH 231/837] support None bias for ck_decoder and update benchmark

---
 .../benchmarks/benchmark_attn_decoding.py     | 15 +++++-
 xformers/csrc/attention/attention.cpp         |  2 +-
 .../hip_fmha/attention_forward_decoder.cpp    | 15 +++---
 .../hip_fmha/ck_attention_forward_decoder.h   |  2 +-
 xformers/ops/fmha/ck_decoder.py               | 48 ++++++++++++-------
 5 files changed, 52 insertions(+), 30 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index a22a4f6456..75a6147c35 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -64,12 +64,14 @@ def run_one():
 class AttentionDecodingFlashDecoding:
     OP: Any = xops.fmha.flash.FwOp
 
+    label = "flash_decoding"
+
     def __init__(
         self, B: int, Mq: int, Mkv: int, Hq: int, Hkv: int, K: int, bw: bool
     ) -> None:
         dtype = torch.float16
         self.sub_label = f"B={B} Mq={Mq} Mkv={Mkv} Hq={Hq} Hkv={Hkv} K={K}"
-        self.label = "attn_decoding"
+
         self.shapes = (B, Mq, Mkv, Hq, Hkv, K)
 
         assert Hkv <= Hq
@@ -94,7 +96,10 @@ def __init__(
             self.v = self.v[:, :, 0]
 
     def fw(self) -> None:
-        xops.memory_efficient_attention_forward(self.q, self.k, self.v, op=self.OP)
+        try:
+            xops.memory_efficient_attention_forward(self.q, self.k, self.v, op=self.OP)
+        except RuntimeError as e:
+            print(e.__cause__)
 
 
 # class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
@@ -102,14 +107,20 @@ def fw(self) -> None:
 
 
 class AttentionDecodingCK(AttentionDecodingFlashDecoding):
+    label = "ck"
+
     OP = xops.fmha.ck.FwOp
 
 
 class AttentionDecodingCKDecoder(AttentionDecodingFlashDecoding):
+    label = "ck_decoder"
+
     OP = xops.fmha.ck_decoder.FwOp
 
 
 class AttentionDecodingPyTorchRepeat(AttentionDecodingFlashDecoding):
+    label = "pytorch"
+
     def fw(self) -> None:
         B, Mq, Mkv, Hq, Hkv, K = self.shapes
         scale = 1 / K**0.5
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index b3fdde5268..d243a06168 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -45,7 +45,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
           "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor seq_positions, float scale) -> Tensor"));
+          "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 79fb683685..7358ed4111 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -57,7 +57,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_kv_lens, // [B]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     at::Tensor& O) {
   static_assert(4 * ThreadsPerWavefront == D_H, "");
@@ -68,7 +68,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
   TORCH_CHECK(cache_K.is_cuda());
   TORCH_CHECK(cache_V.is_cuda());
 
-  TORCH_CHECK(seq_kv_lens.is_cuda());
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
 
   TORCH_CHECK(cache_K.size(1) <= T_MAX);
   TORCH_CHECK(cache_K.size(3) <= D_H);
@@ -109,15 +109,14 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
         auto V_acc =
             cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
         auto O_acc = O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
-        auto seq_acc =
-            seq_kv_lens
-                .packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens ?
+            seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data() : nullptr;
         auto arg = device_op_t::Argument(
             reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
             reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
             reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
             reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc.data(),
+            seq_acc,
             XQ_acc.stride(0),
             XQ_acc.stride(1),
             XQ_acc.stride(2),
@@ -146,7 +145,7 @@ at::Tensor efficient_attention_forward_decoder_ck_impl(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_kv_lens, // [B]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale) {
   auto O = at::empty_like(XQ);
   efficient_attention_forward_decoder_ck_out_impl<
@@ -159,7 +158,7 @@ at::Tensor efficient_attention_forward_decoder_ck(
     const at::Tensor& XQ, // [B, 1, H, D]
     const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
     const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_kv_lens, // [B]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale) {
   return efficient_attention_forward_decoder_ck_impl<
       kThreadsPerWavefront,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 052a1d8083..4f0f3921ea 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -131,7 +131,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   // Note: this is decoding case where we attend to current and all previous
   // tokens.
-  const int32_t t_max = seq_kv_lens[b];
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : gridDim.x;
 
   const int32_t lane_idx = threadIdx.x;
   const int32_t wavefront_idx = threadIdx.y;
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index ad131faf41..9efad083ca 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -16,7 +16,7 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16, torch.float}
     SUPPORTED_MAX_K: int = 256
-    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {BlockDiagonalCausalWithOffsetPaddedKeysMask}
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {type(None), BlockDiagonalCausalWithOffsetPaddedKeysMask}
     SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
     NAME = "ck_decoderF"
@@ -73,25 +73,37 @@ def apply(
         cls, inp: Inputs, needs_gradient: bool
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if needs_gradient:
-            raise NotImplementedError("gradient")
+            raise NotImplementedError("backward pass is not supported")
         attn_bias = inp.attn_bias
-        assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
 
-        attn_bias.k_seqinfo.to(inp.query.device)
-        attn_bias.q_seqinfo.to(inp.query.device)
-
-        padding = attn_bias.k_seqinfo.padding
-        multiquery = inp.key.stride(2) == 0
-        if multiquery:
-            key = inp.key[0, :, :1].unflatten(0, (-1, padding))
-            value = inp.value[0, :, :1].unflatten(0, (-1, padding))
+        if attn_bias is not None:
+            attn_bias.k_seqinfo.to(inp.key.device)
+            attn_bias.q_seqinfo.to(inp.query.device)
+            padding = attn_bias.k_seqinfo.padding
+            seq_positions_gpu = attn_bias.k_seqinfo.seqlen
         else:
-            key = inp.key[0].unflatten(0, (-1, padding))
-            value = inp.value[0].unflatten(0, (-1, padding))
-
-        seq_positions = attn_bias.k_seqinfo.seqlen
-
-        query = inp.query[0].unflatten(0, (key.shape[0], -1))
+            padding = inp.key.shape[1]
+            seq_positions_gpu = None
+
+        if attn_bias is not None:
+            # key: (1, B * padding, 1 if multiquery else Hkv, D)
+            # value: like key
+            # query: (1, B * q_seqlen, Hq, D)
+            multiquery = inp.key.stride(2) == 0
+            if multiquery:
+                key = inp.key[0, :, :1].unflatten(0, (-1, padding))
+                value = inp.value[0, :, :1].unflatten(0, (-1, padding))
+            else:
+                key = inp.key[0].unflatten(0, (-1, padding))
+                value = inp.value[0].unflatten(0, (-1, padding))
+            query = inp.query[0].unflatten(0, (key.shape[0], -1))    
+        else:
+            # key: (B, padding, 1 if multiquery else Hkv, D)
+            # value: like key
+            # query: (B, q_seqlen, Hq, D)
+            key = inp.key
+            query = inp.query
+            value = inp.value
 
         if inp.scale is not None:
             qk_scale = inp.scale
@@ -102,7 +114,7 @@ def apply(
             query=query,
             key=key,
             value=value,
-            seq_positions=seq_positions,
+            seq_positions=seq_positions_gpu,
             scale=qk_scale,
         )
         return out, None

From 4b711be5ca1d3b3cc3eb2e45c628cd30585e6802 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 20 Nov 2023 22:45:32 -0500
Subject: [PATCH 232/837] improve benchmark results printing

---
 xformers/benchmarks/benchmark_attn_decoding.py | 7 ++-----
 1 file changed, 2 insertions(+), 5 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 75a6147c35..1a729a6456 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -99,7 +99,7 @@ def fw(self) -> None:
         try:
             xops.memory_efficient_attention_forward(self.q, self.k, self.v, op=self.OP)
         except RuntimeError as e:
-            print(e.__cause__)
+            print(f"Runtime error: {e}")
 
 
 # class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
@@ -107,19 +107,16 @@ def fw(self) -> None:
 
 
 class AttentionDecodingCK(AttentionDecodingFlashDecoding):
-    label = "ck"
 
     OP = xops.fmha.ck.FwOp
 
 
 class AttentionDecodingCKDecoder(AttentionDecodingFlashDecoding):
-    label = "ck_decoder"
 
     OP = xops.fmha.ck_decoder.FwOp
 
 
 class AttentionDecodingPyTorchRepeat(AttentionDecodingFlashDecoding):
-    label = "pytorch"
 
     def fw(self) -> None:
         B, Mq, Mkv, Hq, Hkv, K = self.shapes
@@ -135,7 +132,7 @@ def fw(self) -> None:
     "pytorch": AttentionDecodingPyTorchRepeat,
     #"flash-decoding": AttentionDecodingFlashDecoding,
     # "triton_splitK": AttentionDecodingSplitKV,
-    # "ck": AttentionDecodingCK,
+    "ck": AttentionDecodingCK,
     "ck-decoder": AttentionDecodingCKDecoder,
 }
 

From 7497514638cb3397b2548ac998899608af32e235 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 20 Nov 2023 23:37:25 -0500
Subject: [PATCH 233/837] fix Mkv when bias is none for ck decoder

---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp  | 1 +
 .../csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 7 ++++++-
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 7358ed4111..42de5a540e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -123,6 +123,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
             K_acc.stride(0),
             K_acc.stride(1),
             K_acc.stride(2),
+            K_acc.size(1),
             K_acc.size(3),
             K_acc.size(2) == 1,
             qk_scale,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 4f0f3921ea..eaf8f0bc52 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -119,6 +119,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
     const ptrdiff_t K_stride_0,
     const ptrdiff_t K_stride_1,
     const ptrdiff_t K_stride_2,
+    const int32_t K_size_1,
     const int32_t D_H,
     const bool multiquery,
     const float qk_scale) {
@@ -131,7 +132,7 @@ __global__ void efficient_attention_forward_decoder_ck_kernel(
 
   // Note: this is decoding case where we attend to current and all previous
   // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : gridDim.x;
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_1;
 
   const int32_t lane_idx = threadIdx.x;
   const int32_t wavefront_idx = threadIdx.y;
@@ -392,6 +393,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
     const ptrdiff_t K_stride_0;
     const ptrdiff_t K_stride_1;
     const ptrdiff_t K_stride_2;
+    const int32_t K_size_1;
     const int32_t D_H;
     const bool multiquery;
     const float qk_scale;
@@ -412,6 +414,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
         const ptrdiff_t K_stride_0,
         const ptrdiff_t K_stride_1,
         const ptrdiff_t K_stride_2,
+        const int32_t K_size_1,
         const int32_t D_H,
         const bool multiquery,
         const float qk_scale,
@@ -429,6 +432,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           K_stride_0(K_stride_0),
           K_stride_1(K_stride_1),
           K_stride_2(K_stride_2),
+          K_size_1(K_size_1),
           D_H(D_H),
           multiquery(multiquery),
           qk_scale(qk_scale),
@@ -483,6 +487,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           arg.K_stride_0,
           arg.K_stride_1,
           arg.K_stride_2,
+          arg.K_size_1,
           arg.D_H,
           arg.multiquery,
           arg.qk_scale);

From 75a95fd27c2a75c302ee99ebaf791d4f1c8113e3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 21 Nov 2023 15:39:03 +0000
Subject: [PATCH 234/837] Remove composable_kernel_tiled for easy access (use
 ck-tiled branch for ck-tiled integration)

---
 .gitmodules | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index dd09e44295..94eb8135c6 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -8,6 +8,3 @@
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git
-[submodule "third_party/composable_kernel_tiled"]
-	path = third_party/composable_kernel_tiled
-	url = https://github.com/asroy/ck_tile.git

From 0b495cefd1e23f6322c25019ba6bd1db6c59b75a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 21 Nov 2023 15:51:24 +0000
Subject: [PATCH 235/837] Remove third_party/composable_kernel_tiled

---
 third_party/composable_kernel_tiled | 1 -
 1 file changed, 1 deletion(-)
 delete mode 160000 third_party/composable_kernel_tiled

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
deleted file mode 160000
index 496be40efd..0000000000
--- a/third_party/composable_kernel_tiled
+++ /dev/null
@@ -1 +0,0 @@
-Subproject commit 496be40efde65ace153fe53ec9a3865828f2d3cc

From 29843e6693271caeec9e2500d903d7e5dbe98c40 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 21 Nov 2023 20:11:42 +0000
Subject: [PATCH 236/837] Tiny fix in setup.py

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index c9bfb35f35..a11c987375 100644
--- a/setup.py
+++ b/setup.py
@@ -322,7 +322,7 @@ def get_extensions():
 
        if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
            include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include',
-                             Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']
+                             Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include' / 'ck']
        else:
            include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include', 
                              Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']

From 53107386991f08752d35d737afffda57b5ca5757 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 21 Nov 2023 20:11:42 +0000
Subject: [PATCH 237/837] Tiny fix in setup.py

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index c9bfb35f35..a11c987375 100644
--- a/setup.py
+++ b/setup.py
@@ -322,7 +322,7 @@ def get_extensions():
 
        if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
            include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include',
-                             Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']
+                             Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include' / 'ck']
        else:
            include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include', 
                              Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']

From d75a1810a221ee7138702cd52f52b000779a6050 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 22 Nov 2023 17:07:26 +0000
Subject: [PATCH 238/837] Add initial implementation of using ck-tiled FA for
 batched infer for fp16

---
 .gitignore                                    |   3 +-
 .gitmodules                                   |   3 +
 third_party/composable_kernel_tiled           |   1 +
 .../attention_forward_generic_ck_tiled.cpp    |  35 ++-
 .../ck_tiled_fmha_batched_forward_kernel.h    | 220 ++++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 154 +++++++++++-
 .../ck_tiled_fmha_batched_infer_bp16.cpp      |  58 -----
 .../hip_fmha/ck_tiled_fmha_fwd_epilogue.h     |  34 +++
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |  46 ++++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |   1 +
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      |  58 -----
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |   8 -
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |   8 -
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |   8 -
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |   8 -
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |   8 -
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |   8 -
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |   2 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   2 +-
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |   2 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   2 +-
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |   2 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   2 +-
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |   8 -
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |   8 -
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |   8 -
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |   8 -
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |   8 -
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |   8 -
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |   2 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   2 +-
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |   2 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   2 +-
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |   2 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   2 +-
 35 files changed, 498 insertions(+), 235 deletions(-)
 create mode 160000 third_party/composable_kernel_tiled
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp

diff --git a/.gitignore b/.gitignore
index 96cc37bb05..8c6455c1b7 100644
--- a/.gitignore
+++ b/.gitignore
@@ -67,5 +67,6 @@ xformers/csrc/attention/hip_fmha/*.hip
 xformers/csrc/attention/hip_fmha/*_hip.h
 xformers/csrc/attention/hip_fmha/instances/*.cu
 xformers/csrc/attention/hip_fmha/instances/*.hip
-
+xformers/csrc/attention/hip_fmha/instances_tiled/*.cu
+xformers/csrc/attention/hip_fmha/instances_tiled/*.hip
 
diff --git a/.gitmodules b/.gitmodules
index 94eb8135c6..bbbf0f1970 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -8,3 +8,6 @@
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git
+[submodule "third_party/composable_kernel_tiled"]
+	path = third_party/composable_kernel_tiled
+	url = https://github.com/asroy/ck_tile
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
new file mode 160000
index 0000000000..0a7174ad86
--- /dev/null
+++ b/third_party/composable_kernel_tiled
@@ -0,0 +1 @@
+Subproject commit 0a7174ad864cda7f59c1e8f5ccefee3359c88978
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 8cd17ad84f..c1435bb5c7 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -31,9 +31,11 @@ extern void grouped_forward_bp16(
 */
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
-extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
+// extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t
+// stream);
 extern void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream);
-extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream);
+// extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t
+// stream);
 
 namespace {
 
@@ -94,6 +96,9 @@ efficient_attention_forward_ck(
     TORCH_CHECK(max_seqlen_q_.has_value());
   };
 
+  if (seqstart_q.has_value())
+    throw std::runtime_error("Grouped mode is ready by current ck-tiled!");
+
   // last dim is contiguous, device is kCUDA
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
@@ -183,6 +188,7 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      /*
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
@@ -195,11 +201,18 @@ efficient_attention_forward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
+      */
+
+      throw std::runtime_error("bias is currently not supported by ck-tiled!");
     } else
       p.has_attn_bias = false;
 
     p.custom_mask_type = custom_mask_type;
 
+    if (p.custom_mask_type != 0)
+      throw std::runtime_error(
+          "causal mask-type is currently not supported by ck-tiled!");
+
     p.use_dropout = use_dropout;
     p.philox_seed = philox_seed;
     p.philox_offset = philox_offset;
@@ -257,6 +270,7 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
+      /*
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
@@ -267,11 +281,17 @@ efficient_attention_forward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
+       */
+      throw std::runtime_error("bias is currently not supported by ck-tiled!");
     } else
       p.has_attn_bias = false;
 
     p.custom_mask_type = custom_mask_type;
 
+    if (p.custom_mask_type != 0)
+      throw std::runtime_error(
+          "causal mask-type is currently not supported by ck-tiled!");
+
     // max_seqlen_q is used to create logsumexp tensor
     p.max_seqlen_q = *max_seqlen_q_;
 
@@ -327,6 +347,7 @@ efficient_attention_forward_ck(
       p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
 
       if (bias.has_value()) {
+        /*
         size_t tmp_bias_offset = get_size_in_bytes(
             static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
                 static_cast<size_t>(p.host_seqstart_k[i]) *
@@ -335,6 +356,10 @@ efficient_attention_forward_ck(
 
         p.attn_bias_ptrs.push_back(
             reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+        */
+
+        throw std::runtime_error(
+            "bias is currently not supported by ck-tiled!");
       };
 
       // ToDO: remove this after dev-op fix
@@ -385,7 +410,8 @@ efficient_attention_forward_ck(
       if (inDataType == at::ScalarType::Half) {
         batched_infer_fp16(batched_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_infer_bp16(batched_forward_params, stream);
+        // batched_infer_bp16(batched_forward_params, stream);
+        throw std::runtime_error("input data-type is not supported!");
       } else
         throw std::runtime_error("input data-type is not supported!");
     } else {
@@ -410,7 +436,8 @@ efficient_attention_forward_ck(
       if (inDataType == at::ScalarType::Half) {
         grouped_infer_fp16(grouped_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_infer_bp16(grouped_forward_params, stream);
+        // grouped_infer_bp16(grouped_forward_params, stream);
+        throw std::runtime_error("input data-type is not supported!");
       } else
         throw std::runtime_error("input data-type is not supported!");
     } else {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h
new file mode 100644
index 0000000000..2cb0d1aea5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h
@@ -0,0 +1,220 @@
+#pragma once
+
+#include "ck/tensor/tensor_view.hpp"
+#include "ck/tile_program/tile/tile_window.hpp"
+#include "ck/utility/common_header.hpp"
+
+// S[seqlen_q, seqlen_k] = Q[seqlen_q, hdim_q] * K[seqlen_k, hdim_q]
+// P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
+// O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
+
+#define C_LOG2E 1.44269504088896340736 // log2(e)
+
+template <
+    typename TilePartitioner_,
+    typename FmhaPipeline_,
+    typename EpiloguePipeline_>
+struct FmhaFwdKernel {
+  using TilePartitioner = ck::remove_cvref_t<TilePartitioner_>;
+  using FmhaPipeline = ck::remove_cvref_t<FmhaPipeline_>;
+  using EpiloguePipeline = ck::remove_cvref_t<EpiloguePipeline_>;
+  static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
+
+  using QDataType = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
+  using KDataType = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
+  using VDataType = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
+  using ODataType = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
+
+  using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
+
+  struct Kargs {
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    void* o_ptr;
+    ck::index_t seqlen_q;
+    ck::index_t seqlen_k;
+    ck::index_t hdim_q;
+    ck::index_t hdim_v;
+
+    float scale;
+
+    ck::index_t stride_q;
+    ck::index_t stride_k;
+    ck::index_t stride_v;
+    ck::index_t stride_o;
+
+    ck::index_t nhead_stride_q;
+    ck::index_t nhead_stride_k;
+    ck::index_t nhead_stride_v;
+    ck::index_t nhead_stride_o;
+
+    ck::index_t batch_stride_q;
+    ck::index_t batch_stride_k;
+    ck::index_t batch_stride_v;
+    ck::index_t batch_stride_o;
+  };
+
+  __host__ static constexpr Kargs MakeKargs(
+      const void* q_ptr,
+      const void* k_ptr,
+      const void* v_ptr,
+      void* o_ptr,
+      ck::index_t seqlen_q,
+      ck::index_t seqlen_k,
+      ck::index_t hdim_q,
+      ck::index_t hdim_v,
+      float scale,
+      ck::index_t stride_q,
+      ck::index_t stride_k,
+      ck::index_t stride_v,
+      ck::index_t stride_o,
+      ck::index_t nhead_stride_q,
+      ck::index_t nhead_stride_k,
+      ck::index_t nhead_stride_v,
+      ck::index_t nhead_stride_o,
+      ck::index_t batch_stride_q,
+      ck::index_t batch_stride_k,
+      ck::index_t batch_stride_v,
+      ck::index_t batch_stride_o) {
+    return Kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,
+                 seqlen_q,       seqlen_k,       hdim_q,         hdim_v,
+                 scale,          stride_q,       stride_k,       stride_v,
+                 stride_o,       nhead_stride_q, nhead_stride_k, nhead_stride_v,
+                 nhead_stride_o, batch_stride_q, batch_stride_k, batch_stride_v,
+                 batch_stride_o};
+  }
+
+  __host__ static constexpr auto GridSize(
+      ck::index_t batch_size_,
+      ck::index_t nhead_,
+      ck::index_t seqlen_q_,
+      ck::index_t hdim_v_) {
+    return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
+  }
+
+  __host__ static constexpr auto BlockSize() {
+    return dim3(kBlockSize);
+  }
+
+  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
+    return ck::math::max(
+        FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
+  }
+
+  __device__ void operator()(Kargs kargs) const {
+    using namespace ck;
+    using namespace ck::tile_program;
+    using namespace ck::tile_program::block;
+
+    // allocate LDS
+    __shared__ char smem_ptr[GetSmemSize()];
+
+    // divide problem
+    const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
+        TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
+
+    const index_t i_m0 =
+        __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
+    const index_t i_n1 =
+        __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
+
+    // for simplicity, batch stride we just modify the pointer
+    const QDataType* q_ptr = reinterpret_cast<const QDataType*>(kargs.q_ptr) +
+        i_nhead * kargs.nhead_stride_q + i_batch * kargs.batch_stride_q;
+    const KDataType* k_ptr = reinterpret_cast<const KDataType*>(kargs.k_ptr) +
+        i_nhead * kargs.nhead_stride_k + i_batch * kargs.batch_stride_k;
+    const VDataType* v_ptr = reinterpret_cast<const VDataType*>(kargs.v_ptr) +
+        i_nhead * kargs.nhead_stride_v + i_batch * kargs.batch_stride_v;
+    ODataType* o_ptr = reinterpret_cast<ODataType*>(kargs.o_ptr) +
+        i_nhead * kargs.nhead_stride_o + i_batch * kargs.batch_stride_o;
+
+    // Q/K/V DRAM and DRAM window
+    const auto q_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+        q_ptr,
+        make_tuple(kargs.seqlen_q, kargs.hdim_q),
+        make_tuple(kargs.stride_q, 1),
+        Number<32>{},
+        Number<1>{});
+
+    const auto k_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+        k_ptr,
+        make_tuple(kargs.seqlen_k, kargs.hdim_q),
+        make_tuple(kargs.stride_k, 1),
+        Number<32>{},
+        Number<1>{});
+
+    const auto v_dram = [&]() {
+      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
+        const auto v_dram_tmp =
+            make_naive_tensor_view<AddressSpaceEnum::Global>(
+                v_ptr,
+                make_tuple(kargs.seqlen_k, kargs.hdim_v),
+                make_tuple(kargs.stride_v, 1),
+                Number<32>{},
+                Number<1>{});
+        return transform_tensor_view(
+            v_dram_tmp,
+            make_tuple(
+                make_pass_through_transform(kargs.hdim_v),
+                make_pass_through_transform(kargs.seqlen_k)),
+            make_tuple(Sequence<1>{}, Sequence<0>{}),
+            make_tuple(Sequence<0>{}, Sequence<1>{}));
+      } else {
+        return make_naive_tensor_view<AddressSpaceEnum::Global>(
+            v_ptr,
+            make_tuple(kargs.hdim_v, kargs.seqlen_k),
+            make_tuple(kargs.stride_v, 1),
+            Number<32>{},
+            Number<1>{});
+      }
+    }();
+
+    auto q_dram_window = make_tile_window(
+        q_dram,
+        [&]() {
+          if constexpr (FmhaPipeline::kQLoadOnce)
+            return make_tuple(
+                Number<FmhaPipeline::kM0>{},
+                Number<FmhaPipeline::kK0BlockLength>{});
+          else
+            return make_tuple(
+                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
+        }(),
+        {i_m0, 0});
+
+    auto k_dram_window = make_tile_window(
+        k_dram,
+        make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
+        {0, 0});
+
+    auto v_dram_window = make_tile_window(
+        v_dram,
+        make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+        {i_n1, 0});
+
+    auto o_acc_tile = FmhaPipeline{}(
+        q_dram_window,
+        k_dram_window,
+        v_dram_window,
+        kargs.scale,
+        kargs.seqlen_k / FmhaPipeline::kN0,
+        kargs.hdim_q / FmhaPipeline::kK0,
+        smem_ptr);
+
+    // O DRAM and O DRAM window
+    auto o_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+        o_ptr,
+        make_tuple(kargs.seqlen_q, kargs.hdim_v),
+        make_tuple(kargs.stride_o, 1),
+        Number<32>{},
+        Number<1>{});
+
+    auto o_dram_window = make_tile_window(
+        o_dram,
+        make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
+        {i_m0, i_n1});
+
+    EpiloguePipeline{}(o_dram_window, o_acc_tile);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 9aa37d9b89..4b255f5730 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -3,18 +3,160 @@
 #include <sstream>
 #include <stdexcept>
 
-#include <ck/ck.hpp>
+#include "ck/host_utility/device_prop.hpp"
+#include "ck/host_utility/kernel_launch.hpp"
+#include "ck/tensor/tensor_view.hpp"
+#include "ck/tensor_description/cluster_descriptor.hpp"
+#include "ck/tensor_description/tensor_descriptor_helper.hpp"
+#include "ck/utility/common_header.hpp"
+
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs_default_policy.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
 #include "ck_fmha_params.h"
+#include "ck_tiled_fmha_batched_forward_kernel.h"
+#include "ck_tiled_fmha_fwd_epilogue.h"
+#include "ck_tiled_fmha_fwd_tile_partitioner.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 struct batched_infer_masktype_attnbias_dispatched {
-  static void Run(BatchedForwardParams& param, hipStream_t stream){};
+  using QDataType = scalar_t;
+  using KDataType = scalar_t;
+  using VDataType = scalar_t;
+  using SaccDataType = float; // data type for first gemm accumulation
+  using SMPLComputeDataType = float; // data type for reduction, softmax
+  using PDataType = scalar_t; // data type for A matrix of second gemm
+  using OaccDataType = float; // data type for second gemm accumulation
+  using ODataType = scalar_t;
+
+  using VLayout = ck::tensor_layout::gemm::RowMajor;
+
+  using FmhaBlockTileHdim64 = ck::Sequence<128, 64, 32, 64, 32, 64>;
+  using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
+  using FmhaBlockWarps = ck::Sequence<4, 1, 1>;
+  using FmhaWarpTile = ck::Sequence<32, 32, 16>;
+  using FmhaShapeHDim64 = ck::tile_program::TileFmhaShape<
+      FmhaBlockTileHdim64,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      VLayout>;
+  using FmhaShapeHDim128 = ck::tile_program::TileFmhaShape<
+      FmhaBlockTileHdim128,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      VLayout>;
+
+  using FmhaTilePartitionerHDim64 = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
+  using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
+  using FmhaPipelineProblemHDim64 =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          QDataType,
+          KDataType,
+          VDataType,
+          SaccDataType,
+          SMPLComputeDataType,
+          PDataType,
+          OaccDataType,
+          ODataType,
+          256, // BlockSize
+          FmhaShapeHDim64>;
+  using FmhaPipelineProblemHDim128 =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          QDataType,
+          KDataType,
+          VDataType,
+          SaccDataType,
+          SMPLComputeDataType,
+          PDataType,
+          OaccDataType,
+          ODataType,
+          256, // BlockSize
+          FmhaShapeHDim128>;
+
+  using FmhaPipelineHDim64 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+      FmhaPipelineProblemHDim64>;
+  using FmhaPipelineHDim128 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+      FmhaPipelineProblemHDim128>;
+
+  using FmhaEpilogue =
+      FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
+  using FmhaKernelHDim64 = FmhaFwdKernel<
+      FmhaTilePartitionerHDim64,
+      FmhaPipelineHDim64,
+      FmhaEpilogue>;
+  using FmhaKernelHDim128 = FmhaFwdKernel<
+      FmhaTilePartitionerHDim128,
+      FmhaPipelineHDim128,
+      FmhaEpilogue>;
+
+#ifndef BATCHED_INFER_HEADDIM_SWITCH
+#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)  \
+  [&] {                                                          \
+    if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64) {             \
+      using FmhaKernel = FmhaKernelHDim64;                       \
+      __VA_ARGS__();                                             \
+    } else if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128) {     \
+      using FmhaKernel = FmhaKernelHDim128;                      \
+      __VA_ARGS__();                                             \
+    } else {                                                     \
+      throw std::runtime_error("Head-dim sizes not supported!"); \
+    }                                                            \
+  }()
+#endif
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    BATCHED_INFER_HEADDIM_SWITCH(
+        param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
+    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+
+    constexpr ck::index_t kWarpPerCu = 8; // 2 warps per SIMD
+    constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
+    constexpr ck::index_t kBlockPerCu = kWarpPerCu / kWarpPerBlock;
+
+    auto kargs = FmhaKernel::MakeKargs(
+        param.q_ptr,
+        param.k_ptr,
+        param.v_ptr,
+        param.out_ptr,
+        param.M, // seqlen_q
+        param.N, // seqlen_k
+        param.K, // hdim_q
+        param.Kv, // hdim_v
+        param.scale,
+        param.q_strides[1], // q, k, v, out tensor seq-dim stride
+        param.k_strides[1],
+        param.v_strides[1],
+        param.out_strides[1],
+        param.q_strides[2], // q, k, v, out tensor head-dim stride
+        param.k_strides[2],
+        param.v_strides[2],
+        param.out_strides[2],
+        param.q_strides[0], // q, k, v, out tensor batch-dim stride
+        param.k_strides[0],
+        param.v_strides[0],
+        param.out_strides[0]);
 
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(
-      BatchedForwardParams& param,
-      hipStream_t stream){};
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
deleted file mode 100644
index 81ff5b9154..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ /dev/null
@@ -1,58 +0,0 @@
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_tiled_fmha_batched_infer.h"
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
new file mode 100644
index 0000000000..4073424fc2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
@@ -0,0 +1,34 @@
+#pragma once
+
+#include "ck/tile_program/tile/store_tile.hpp"
+#include "ck/tile_program/tile/tile_elementwise.hpp"
+#include "ck/utility/common_header.hpp"
+
+template <typename OaccDataType_, typename ODataType_>
+struct FmhaFwdEpilogueProblem {
+  using OaccDataType = ck::remove_cvref_t<OaccDataType_>;
+  using ODataType = ck::remove_cvref_t<ODataType_>;
+};
+
+template <typename Problem_, typename Policy_ = void>
+struct FmhaFwdEpilogue {
+  using Problem = ck::remove_cvref_t<Problem_>;
+  using OaccDataType = ck::remove_cvref_t<typename Problem::OaccDataType>;
+  using ODataType = ck::remove_cvref_t<typename Problem::ODataType>;
+
+  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
+    return 0;
+  }
+
+  template <typename ODramWindowTmp, typename OAccTile>
+  __device__ auto operator()(
+      ODramWindowTmp& o_dram_window_tmp,
+      const OAccTile& o_acc_tile) {
+    using namespace ck;
+    using namespace ck::tile_program;
+
+    const auto o =
+        tile_elementwise_in(type_convert<ODataType, OaccDataType>, o_acc_tile);
+    store_tile(o_dram_window_tmp, o);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
new file mode 100644
index 0000000000..113037ce3c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
@@ -0,0 +1,46 @@
+#pragma once
+
+#include "ck/tile_program/tile/store_tile.hpp"
+#include "ck/tile_program/tile/tile_elementwise.hpp"
+#include "ck/utility/common_header.hpp"
+
+template <typename BlockFmhaShape_>
+struct FmhaFwdTilePartitioner {
+  using BlockFmhaShape = ck::remove_cvref_t<BlockFmhaShape_>;
+
+  static constexpr ck::index_t kM0 = BlockFmhaShape::kM0;
+  static constexpr ck::index_t kN0 = BlockFmhaShape::kN0;
+  static constexpr ck::index_t kK0 = BlockFmhaShape::kK0;
+  static constexpr ck::index_t kN1 = BlockFmhaShape::kN1;
+  static constexpr ck::index_t kK1 = BlockFmhaShape::kK1;
+
+  __host__ static constexpr auto GridSize(
+      ck::index_t batch_size_,
+      ck::index_t nhead_,
+      ck::index_t seqlen_q_,
+      ck::index_t hdim_v_) {
+    // TODO: this may need tuning
+    return dim3((seqlen_q_ / kM0) * (hdim_v_ / kN1), batch_size_, nhead_);
+  }
+
+  __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v) {
+    using namespace ck;
+
+    // const index_t num_tile_m0 = seqlen_q / kM0;
+    const index_t num_tile_n1 = hdim_v / kN1;
+
+    const index_t i_block = blockIdx.x;
+    const index_t i_batch = blockIdx.y;
+    const index_t i_nhead = blockIdx.z;
+
+    const auto f = [](index_t dividend, index_t divisor) {
+      index_t quotient = dividend / divisor;
+      index_t modulus = dividend - quotient * divisor;
+      return ck::make_tuple(quotient, modulus);
+    };
+
+    const auto [i_tile_m, i_tile_n] = f(i_block, num_tile_n1);
+
+    return ck::make_tuple(i_tile_m, i_tile_n, i_nhead, i_batch);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index b3d3b159b7..f52884e276 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -4,6 +4,7 @@
 #include <stdexcept>
 
 #include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
 
 #include "ck_fmha_params.h"
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
deleted file mode 100644
index bdfce5854d..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ /dev/null
@@ -1,58 +0,0 @@
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_tiled_fmha_grouped_infer.h"
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 9748955e14..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 418f925c2a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index a7cdb48b83..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 578855b9b4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 35e9bca9c0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index e27e3b5ff9..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
index 5c83b0abd6..e9959f2375 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_batched_infer.h"
+#include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
index 11c76b35f3..6c46ed45f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_batched_infer.h"
+#include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
index b13f5a4c9b..aefdd2804d 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_batched_infer.h"
+#include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
index 12f5991c4b..61b94d6ad3 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_batched_infer.h"
+#include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
index 8d45859e52..720a9c2fc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_batched_infer.h"
+#include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
index 9f03be2b5c..75daaaa078 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_batched_infer.h"
+#include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 973213413a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 96e0ba425d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 332724e736..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index cb1120f5b0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 51ed70cabb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index c157e89c1e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
index bbcd3ab0e9..96d0f992e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_grouped_infer.h"
+#include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
index e320f5de69..adeee9880a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_grouped_infer.h"
+#include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
index e763dde6ae..f3843a8ed5 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_grouped_infer.h"
+#include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
index 3ec2d41da3..bae1535a38 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_grouped_infer.h"
+#include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
index dee7a0845b..768082654f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_grouped_infer.h"
+#include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
index b5515e9a08..ac11a4eeab 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,6 +1,6 @@
 #include <ck/ck.hpp>
 
-#include "ck_fmha_grouped_infer.h"
+#include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,

From e5d7f7af5045b484a971e9e38339035c2a1c5dd7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 23 Nov 2023 19:12:16 +0000
Subject: [PATCH 239/837] Add HIP_CALL_CHECK to the fmha utility header

---
 xformers/csrc/attention/hip_fmha/ck_fmha_util.h | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 84e1859673..78a88e5560 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -139,3 +139,15 @@ inline at::Tensor get_bias_4d_view(
       TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
   }
 }
+
+#define HIP_CALL_CHECK(flag)                                                 \
+  do {                                                                       \
+    hipError_t _tmpVal;                                                      \
+    if ((_tmpVal = flag) != hipSuccess) {                                    \
+      std::ostringstream ostr;                                               \
+      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
+           << hipGetErrorString(_tmpVal);                                    \
+      throw std::runtime_error(ostr.str());                                  \
+    }                                                                        \
+  } while (0)
+~

From 2ee378079a6f13b21bbe34ca4ef6df848c03e363 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 23 Nov 2023 19:17:52 +0000
Subject: [PATCH 240/837] Tiny fix to the including

---
 setup.py                                      |  6 ++---
 .../hip_fmha/ck_fmha_batched_backward.h       |  2 +-
 .../ck_fmha_batched_backward_bp16.cpp         |  2 +-
 .../ck_fmha_batched_backward_fp16.cpp         |  2 +-
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 23 +++++++++----------
 5 files changed, 16 insertions(+), 19 deletions(-)

diff --git a/setup.py b/setup.py
index a11c987375..9f21987ad9 100644
--- a/setup.py
+++ b/setup.py
@@ -321,11 +321,9 @@ def get_extensions():
        include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha' ]
 
        if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
-           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include',
-                             Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include' / 'ck']
+           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include']
        else:
-           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include', 
-                             Path(this_dir) / 'third_party' / 'composable_kernel' / 'include' / 'ck']
+           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include']
            
        generator_flag = []
        cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 1663e9c528..9293d4d4f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -3,7 +3,7 @@
 #include <sstream>
 #include <stdexcept>
 
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
 #include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v1.hpp>
 #include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 441a4f9cf0..319b039b95 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -1,4 +1,4 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index 1868a59570..2bcf0653d5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -1,4 +1,4 @@
-#include <ck.hpp>
+#include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 78a88e5560..5de869db00 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -78,6 +78,17 @@ struct CkToAtenDtype<float> {
   XFORMERS_CHECK(                                                         \
       TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
 
+#define HIP_CALL_CHECK(flag)                                                 \
+  do {                                                                       \
+    hipError_t _tmpVal;                                                      \
+    if ((_tmpVal = flag) != hipSuccess) {                                    \
+      std::ostringstream ostr;                                               \
+      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
+           << hipGetErrorString(_tmpVal);                                    \
+      throw std::runtime_error(ostr.str());                                  \
+    }                                                                        \
+  } while (0)
+
 static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
   if (dtype == at::ScalarType::Float) {
     return n * 4;
@@ -139,15 +150,3 @@ inline at::Tensor get_bias_4d_view(
       TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
   }
 }
-
-#define HIP_CALL_CHECK(flag)                                                 \
-  do {                                                                       \
-    hipError_t _tmpVal;                                                      \
-    if ((_tmpVal = flag) != hipSuccess) {                                    \
-      std::ostringstream ostr;                                               \
-      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
-           << hipGetErrorString(_tmpVal);                                    \
-      throw std::runtime_error(ostr.str());                                  \
-    }                                                                        \
-  } while (0)
-~

From a34bf6d50a99c330b71f3f8901c27a79c824b127 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 23 Nov 2023 23:47:21 +0000
Subject: [PATCH 241/837] Add implementation of using ck-tiled FA for grouped
 infer with bias for fp16

---
 .../attention_forward_generic_ck_tiled.cpp    | 111 ++---
 .../ck_tiled_fmha_batched_forward_kernel.h    | 220 ---------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  34 +-
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 456 ++++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 170 ++++++-
 .../attention/hip_fmha/ck_tiled_fmha_params.h | 207 ++++++++
 6 files changed, 889 insertions(+), 309 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index c1435bb5c7..8961bb4ead 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -12,8 +12,8 @@
 #include <torch/library.h>
 #include <ATen/cuda/CUDAGraphsUtils.cuh>
 
-#include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
+#include "ck_tiled_fmha_params.h"
 
 /*
 extern void batched_forward_fp16(
@@ -96,9 +96,6 @@ efficient_attention_forward_ck(
     TORCH_CHECK(max_seqlen_q_.has_value());
   };
 
-  if (seqstart_q.has_value())
-    throw std::runtime_error("Grouped mode is ready by current ck-tiled!");
-
   // last dim is contiguous, device is kCUDA
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
@@ -188,7 +185,6 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
-      /*
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
@@ -201,9 +197,6 @@ efficient_attention_forward_ck(
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
-      */
-
-      throw std::runtime_error("bias is currently not supported by ck-tiled!");
     } else
       p.has_attn_bias = false;
 
@@ -252,6 +245,11 @@ efficient_attention_forward_ck(
       p.scale = float(1.0 / std::sqrt(float(K)));
     }
 
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
     p.q_strides = {
         static_cast<int>(query.stride(1)),
         static_cast<int>(query.stride(2)),
@@ -270,19 +268,18 @@ efficient_attention_forward_ck(
         static_cast<int>(out.stride(3))};
 
     if (bias.has_value()) {
-      /*
       CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
       TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
       p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
+
       const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
       p.attn_bias_strides = {
           static_cast<int>(bias_4d_view.stride(0)),
           static_cast<int>(bias_4d_view.stride(1)),
           static_cast<int>(bias_4d_view.stride(2)),
           static_cast<int>(bias_4d_view.stride(3))};
-       */
-      throw std::runtime_error("bias is currently not supported by ck-tiled!");
     } else
       p.has_attn_bias = false;
 
@@ -295,16 +292,27 @@ efficient_attention_forward_ck(
     // max_seqlen_q is used to create logsumexp tensor
     p.max_seqlen_q = *max_seqlen_q_;
 
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
-
-    for (int i = 0; i < p.host_seqstart_q.size(); i++)
-      p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
-
-    for (int i = 0; i < p.host_seqstart_k.size(); i++)
-      p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
+    at::Tensor dev_seqstart_q =
+        at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+    at::Tensor dev_seqstart_k =
+        at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+    at::Tensor dev_seqlen_k;
+
+    p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
+    HIP_CALL_CHECK(hipMemcpyAsync(
+        p.seqstart_q_dev_ptr,
+        seqstart_q->data_ptr(),
+        (p.num_batches + 1) * sizeof(int),
+        hipMemcpyHostToDevice,
+        stream));
+
+    p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
+    HIP_CALL_CHECK(hipMemcpyAsync(
+        p.seqstart_k_dev_ptr,
+        seqstart_k->data_ptr(),
+        (p.num_batches + 1) * sizeof(int),
+        hipMemcpyHostToDevice,
+        stream));
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
@@ -312,59 +320,18 @@ efficient_attention_forward_ck(
       TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
       CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
 
-      p.host_seqlen_k.resize(p.num_batches);
+      dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
 
-      for (int i = 0; i < p.host_seqlen_k.size(); i++)
-        p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
-    }
+      p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
 
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* attn_bias_ptr =
-        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-    for (int i = 0; i < p.num_batches; i++) {
-      size_t tmp_q_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
-          query.scalar_type());
-      size_t tmp_k_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
-          key.scalar_type());
-      size_t tmp_v_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
-          value.scalar_type());
-      size_t tmp_o_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
-          out.scalar_type());
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-
-      if (bias.has_value()) {
-        /*
-        size_t tmp_bias_offset = get_size_in_bytes(
-            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(
-            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-        */
-
-        throw std::runtime_error(
-            "bias is currently not supported by ck-tiled!");
-      };
-
-      // ToDO: remove this after dev-op fix
-      p.randvals_ptrs.push_back(nullptr);
-    }
+      HIP_CALL_CHECK(hipMemcpyAsync(
+          p.seqlen_k_dev_ptr,
+          seqstart_k->data_ptr(),
+          p.num_batches * sizeof(int),
+          hipMemcpyHostToDevice,
+          stream));
+    } else
+      p.seqlen_k_dev_ptr = nullptr;
 
     p.use_dropout = use_dropout;
     p.philox_seed = philox_seed;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h
deleted file mode 100644
index 2cb0d1aea5..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_kernel.h
+++ /dev/null
@@ -1,220 +0,0 @@
-#pragma once
-
-#include "ck/tensor/tensor_view.hpp"
-#include "ck/tile_program/tile/tile_window.hpp"
-#include "ck/utility/common_header.hpp"
-
-// S[seqlen_q, seqlen_k] = Q[seqlen_q, hdim_q] * K[seqlen_k, hdim_q]
-// P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
-// O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
-
-#define C_LOG2E 1.44269504088896340736 // log2(e)
-
-template <
-    typename TilePartitioner_,
-    typename FmhaPipeline_,
-    typename EpiloguePipeline_>
-struct FmhaFwdKernel {
-  using TilePartitioner = ck::remove_cvref_t<TilePartitioner_>;
-  using FmhaPipeline = ck::remove_cvref_t<FmhaPipeline_>;
-  using EpiloguePipeline = ck::remove_cvref_t<EpiloguePipeline_>;
-  static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
-
-  using QDataType = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
-  using KDataType = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
-  using VDataType = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
-  using ODataType = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
-
-  using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
-
-  struct Kargs {
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    void* o_ptr;
-    ck::index_t seqlen_q;
-    ck::index_t seqlen_k;
-    ck::index_t hdim_q;
-    ck::index_t hdim_v;
-
-    float scale;
-
-    ck::index_t stride_q;
-    ck::index_t stride_k;
-    ck::index_t stride_v;
-    ck::index_t stride_o;
-
-    ck::index_t nhead_stride_q;
-    ck::index_t nhead_stride_k;
-    ck::index_t nhead_stride_v;
-    ck::index_t nhead_stride_o;
-
-    ck::index_t batch_stride_q;
-    ck::index_t batch_stride_k;
-    ck::index_t batch_stride_v;
-    ck::index_t batch_stride_o;
-  };
-
-  __host__ static constexpr Kargs MakeKargs(
-      const void* q_ptr,
-      const void* k_ptr,
-      const void* v_ptr,
-      void* o_ptr,
-      ck::index_t seqlen_q,
-      ck::index_t seqlen_k,
-      ck::index_t hdim_q,
-      ck::index_t hdim_v,
-      float scale,
-      ck::index_t stride_q,
-      ck::index_t stride_k,
-      ck::index_t stride_v,
-      ck::index_t stride_o,
-      ck::index_t nhead_stride_q,
-      ck::index_t nhead_stride_k,
-      ck::index_t nhead_stride_v,
-      ck::index_t nhead_stride_o,
-      ck::index_t batch_stride_q,
-      ck::index_t batch_stride_k,
-      ck::index_t batch_stride_v,
-      ck::index_t batch_stride_o) {
-    return Kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,
-                 seqlen_q,       seqlen_k,       hdim_q,         hdim_v,
-                 scale,          stride_q,       stride_k,       stride_v,
-                 stride_o,       nhead_stride_q, nhead_stride_k, nhead_stride_v,
-                 nhead_stride_o, batch_stride_q, batch_stride_k, batch_stride_v,
-                 batch_stride_o};
-  }
-
-  __host__ static constexpr auto GridSize(
-      ck::index_t batch_size_,
-      ck::index_t nhead_,
-      ck::index_t seqlen_q_,
-      ck::index_t hdim_v_) {
-    return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
-  }
-
-  __host__ static constexpr auto BlockSize() {
-    return dim3(kBlockSize);
-  }
-
-  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
-    return ck::math::max(
-        FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
-  }
-
-  __device__ void operator()(Kargs kargs) const {
-    using namespace ck;
-    using namespace ck::tile_program;
-    using namespace ck::tile_program::block;
-
-    // allocate LDS
-    __shared__ char smem_ptr[GetSmemSize()];
-
-    // divide problem
-    const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
-        TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
-
-    const index_t i_m0 =
-        __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
-    const index_t i_n1 =
-        __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
-
-    // for simplicity, batch stride we just modify the pointer
-    const QDataType* q_ptr = reinterpret_cast<const QDataType*>(kargs.q_ptr) +
-        i_nhead * kargs.nhead_stride_q + i_batch * kargs.batch_stride_q;
-    const KDataType* k_ptr = reinterpret_cast<const KDataType*>(kargs.k_ptr) +
-        i_nhead * kargs.nhead_stride_k + i_batch * kargs.batch_stride_k;
-    const VDataType* v_ptr = reinterpret_cast<const VDataType*>(kargs.v_ptr) +
-        i_nhead * kargs.nhead_stride_v + i_batch * kargs.batch_stride_v;
-    ODataType* o_ptr = reinterpret_cast<ODataType*>(kargs.o_ptr) +
-        i_nhead * kargs.nhead_stride_o + i_batch * kargs.batch_stride_o;
-
-    // Q/K/V DRAM and DRAM window
-    const auto q_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-        q_ptr,
-        make_tuple(kargs.seqlen_q, kargs.hdim_q),
-        make_tuple(kargs.stride_q, 1),
-        Number<32>{},
-        Number<1>{});
-
-    const auto k_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-        k_ptr,
-        make_tuple(kargs.seqlen_k, kargs.hdim_q),
-        make_tuple(kargs.stride_k, 1),
-        Number<32>{},
-        Number<1>{});
-
-    const auto v_dram = [&]() {
-      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
-        const auto v_dram_tmp =
-            make_naive_tensor_view<AddressSpaceEnum::Global>(
-                v_ptr,
-                make_tuple(kargs.seqlen_k, kargs.hdim_v),
-                make_tuple(kargs.stride_v, 1),
-                Number<32>{},
-                Number<1>{});
-        return transform_tensor_view(
-            v_dram_tmp,
-            make_tuple(
-                make_pass_through_transform(kargs.hdim_v),
-                make_pass_through_transform(kargs.seqlen_k)),
-            make_tuple(Sequence<1>{}, Sequence<0>{}),
-            make_tuple(Sequence<0>{}, Sequence<1>{}));
-      } else {
-        return make_naive_tensor_view<AddressSpaceEnum::Global>(
-            v_ptr,
-            make_tuple(kargs.hdim_v, kargs.seqlen_k),
-            make_tuple(kargs.stride_v, 1),
-            Number<32>{},
-            Number<1>{});
-      }
-    }();
-
-    auto q_dram_window = make_tile_window(
-        q_dram,
-        [&]() {
-          if constexpr (FmhaPipeline::kQLoadOnce)
-            return make_tuple(
-                Number<FmhaPipeline::kM0>{},
-                Number<FmhaPipeline::kK0BlockLength>{});
-          else
-            return make_tuple(
-                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
-        }(),
-        {i_m0, 0});
-
-    auto k_dram_window = make_tile_window(
-        k_dram,
-        make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
-        {0, 0});
-
-    auto v_dram_window = make_tile_window(
-        v_dram,
-        make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-        {i_n1, 0});
-
-    auto o_acc_tile = FmhaPipeline{}(
-        q_dram_window,
-        k_dram_window,
-        v_dram_window,
-        kargs.scale,
-        kargs.seqlen_k / FmhaPipeline::kN0,
-        kargs.hdim_q / FmhaPipeline::kK0,
-        smem_ptr);
-
-    // O DRAM and O DRAM window
-    auto o_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-        o_ptr,
-        make_tuple(kargs.seqlen_q, kargs.hdim_v),
-        make_tuple(kargs.stride_o, 1),
-        Number<32>{},
-        Number<1>{});
-
-    auto o_dram_window = make_tile_window(
-        o_dram,
-        make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-        {i_m0, i_n1});
-
-    EpiloguePipeline{}(o_dram_window, o_acc_tile);
-  }
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 4b255f5730..d6fa248bbf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -1,14 +1,15 @@
 #pragma once
 
+#include <optional>
 #include <sstream>
 #include <stdexcept>
 
-#include "ck/host_utility/device_prop.hpp"
-#include "ck/host_utility/kernel_launch.hpp"
-#include "ck/tensor/tensor_view.hpp"
-#include "ck/tensor_description/cluster_descriptor.hpp"
-#include "ck/tensor_description/tensor_descriptor_helper.hpp"
-#include "ck/utility/common_header.hpp"
+#include <ck/host_utility/device_prop.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
+#include <ck/tensor_description/cluster_descriptor.hpp>
+#include <ck/tensor_description/tensor_descriptor_helper.hpp>
+#include <ck/utility/common_header.hpp>
 
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
@@ -17,8 +18,8 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
-#include "ck_fmha_params.h"
-#include "ck_tiled_fmha_batched_forward_kernel.h"
+#include "ck_tiled_fmha_params.h"
+#include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 
@@ -27,6 +28,7 @@ struct batched_infer_masktype_attnbias_dispatched {
   using QDataType = scalar_t;
   using KDataType = scalar_t;
   using VDataType = scalar_t;
+  using BiasDataType = scalar_t;
   using SaccDataType = float; // data type for first gemm accumulation
   using SMPLComputeDataType = float; // data type for reduction, softmax
   using PDataType = scalar_t; // data type for A matrix of second gemm
@@ -63,6 +65,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           VDataType,
           SaccDataType,
           SMPLComputeDataType,
+          BiasDataType,
           PDataType,
           OaccDataType,
           ODataType,
@@ -75,6 +78,7 @@ struct batched_infer_masktype_attnbias_dispatched {
           VDataType,
           SaccDataType,
           SMPLComputeDataType,
+          BiasDataType,
           PDataType,
           OaccDataType,
           ODataType,
@@ -126,6 +130,17 @@ struct batched_infer_masktype_attnbias_dispatched {
     constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
     constexpr ck::index_t kBlockPerCu = kWarpPerCu / kWarpPerBlock;
 
+    std::optional<
+        std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>>
+        bias;
+
+    if (param.has_attn_bias)
+      bias = std::make_tuple(
+          param.attn_bias_ptr,
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[0]);
+
     auto kargs = FmhaKernel::MakeKargs(
         param.q_ptr,
         param.k_ptr,
@@ -147,7 +162,8 @@ struct batched_infer_masktype_attnbias_dispatched {
         param.q_strides[0], // q, k, v, out tensor batch-dim stride
         param.k_strides[0],
         param.v_strides[0],
-        param.out_strides[0]);
+        param.out_strides[0],
+        bias);
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
new file mode 100644
index 0000000000..334be84bb4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -0,0 +1,456 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
+
+#pragma once
+
+#include <optional>
+#include <type_traits>
+
+#include "ck/tensor/tensor_view.hpp"
+#include "ck/tile_program/tile/tile_window.hpp"
+#include "ck/utility/common_header.hpp"
+
+// S[seqlen_q, seqlen_k] = Q[seqlen_q, hdim_q] * K[seqlen_k, hdim_q]
+// S'[seqlen_q, seqlen_k] = S[seqlen_q, seqlen_k] * Scale[1]
+// S''[seqlen_q, seqlen_k] = S'[seqlen_q, seqlen_k] + Bias[seqlen_q, seqlen_k]
+// P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
+// O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
+
+#define C_LOG2E 1.44269504088896340736 // log2(e)
+
+template <
+    typename TilePartitioner_,
+    typename FmhaPipeline_,
+    typename EpiloguePipeline_>
+struct FmhaFwdKernel {
+  using TilePartitioner = ck::remove_cvref_t<TilePartitioner_>;
+  using FmhaPipeline = ck::remove_cvref_t<FmhaPipeline_>;
+  using EpiloguePipeline = ck::remove_cvref_t<EpiloguePipeline_>;
+  static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
+
+  using QDataType = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
+  using KDataType = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
+  using VDataType = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
+  using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
+  using ODataType = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
+
+  using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
+
+  struct KargsCommon {
+    const QDataType* q_ptr;
+    const KDataType* k_ptr;
+    const VDataType* v_ptr;
+    ODataType* o_ptr;
+
+    ck::index_t seqlen_q;
+    ck::index_t seqlen_k;
+    ck::index_t hdim_q;
+    ck::index_t hdim_v;
+
+    float scale;
+
+    ck::index_t stride_q;
+    ck::index_t stride_k;
+    ck::index_t stride_v;
+    ck::index_t stride_o;
+
+    ck::index_t nhead_stride_q;
+    ck::index_t nhead_stride_k;
+    ck::index_t nhead_stride_v;
+    ck::index_t nhead_stride_o;
+
+    // following attributes are optional
+    const BiasDataType* bias_ptr = nullptr;
+    ck::index_t stride_bias = 0;
+    ck::index_t nhead_stride_bias = 0;
+  };
+
+  struct KargsBatchMode : KargsCommon {
+    ck::index_t batch_stride_q;
+    ck::index_t batch_stride_k;
+    ck::index_t batch_stride_v;
+    ck::index_t batch_stride_o;
+
+    // following attributes are optional
+    ck::index_t batch_stride_bias = 0;
+  };
+
+  struct KargsGroupMode : KargsCommon {
+    const ck::index_t* seqstart_q_ptr;
+    const ck::index_t* seqstart_k_ptr;
+    const ck::index_t* seqlen_k_ptr;
+  };
+
+  __host__ static constexpr void InitKargsCommon(
+      KargsCommon& kargs,
+      const void* q_ptr,
+      const void* k_ptr,
+      const void* v_ptr,
+      void* o_ptr,
+      ck::index_t seqlen_q,
+      ck::index_t seqlen_k,
+      ck::index_t hdim_q,
+      ck::index_t hdim_v,
+      float scale,
+      ck::index_t stride_q,
+      ck::index_t stride_k,
+      ck::index_t stride_v,
+      ck::index_t stride_o,
+      ck::index_t nhead_stride_q,
+      ck::index_t nhead_stride_k,
+      ck::index_t nhead_stride_v,
+      ck::index_t nhead_stride_o) {
+    kargs.q_ptr = reinterpret_cast<const QDataType*>(q_ptr);
+    kargs.k_ptr = reinterpret_cast<const KDataType*>(k_ptr);
+    kargs.v_ptr = reinterpret_cast<const VDataType*>(v_ptr);
+    kargs.o_ptr = reinterpret_cast<ODataType*>(o_ptr);
+
+    kargs.seqlen_q = seqlen_q;
+    kargs.seqlen_k = seqlen_k;
+    kargs.hdim_q = hdim_q;
+    kargs.hdim_v = hdim_v;
+
+    kargs.scale = scale;
+
+    kargs.stride_q = stride_q;
+    kargs.stride_k = stride_k;
+    kargs.stride_v = stride_v;
+    kargs.stride_o = stride_o;
+
+    kargs.nhead_stride_q = nhead_stride_q;
+    kargs.nhead_stride_k = nhead_stride_k;
+    kargs.nhead_stride_v = nhead_stride_v;
+    kargs.nhead_stride_o = nhead_stride_o;
+  }
+
+  __host__ static constexpr void InitKargsCommonBias(
+      KargsCommon& kargs,
+      const void* bias_ptr,
+      ck::index_t stride_bias,
+      ck::index_t nhead_stride_bias) {
+    kargs.bias_ptr = reinterpret_cast<const BiasDataType*>(bias_ptr);
+    kargs.stride_bias = stride_bias;
+    kargs.nhead_stride_bias = nhead_stride_bias;
+  }
+
+  // initialize kernel arguments for batch mode
+  __host__ static constexpr auto MakeKargs(
+      const void* q_ptr,
+      const void* k_ptr,
+      const void* v_ptr,
+      void* o_ptr,
+      ck::index_t seqlen_q,
+      ck::index_t seqlen_k,
+      ck::index_t hdim_q,
+      ck::index_t hdim_v,
+      float scale,
+      ck::index_t stride_q,
+      ck::index_t stride_k,
+      ck::index_t stride_v,
+      ck::index_t stride_o,
+      ck::index_t nhead_stride_q,
+      ck::index_t nhead_stride_k,
+      ck::index_t nhead_stride_v,
+      ck::index_t nhead_stride_o,
+      ck::index_t batch_stride_q,
+      ck::index_t batch_stride_k,
+      ck::index_t batch_stride_v,
+      ck::index_t batch_stride_o,
+      std::optional<
+          std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias =
+          std::nullopt) {
+    KargsBatchMode kargs;
+
+    InitKargsCommon(
+        kargs,
+        q_ptr,
+        k_ptr,
+        v_ptr,
+        o_ptr,
+        seqlen_q,
+        seqlen_k,
+        hdim_q,
+        hdim_v,
+        scale,
+        stride_q,
+        stride_k,
+        stride_v,
+        stride_o,
+        nhead_stride_q,
+        nhead_stride_k,
+        nhead_stride_v,
+        nhead_stride_o);
+
+    kargs.batch_stride_q = batch_stride_q;
+    kargs.batch_stride_k = batch_stride_k;
+    kargs.batch_stride_v = batch_stride_v;
+    kargs.batch_stride_o = batch_stride_o;
+
+    if (bias.has_value()) {
+      InitKargsCommonBias(
+          kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
+
+      kargs.batch_stride_bias = std::get<3>(*bias);
+    }
+
+    return kargs;
+  }
+
+  // initialize kernel arguments for group mode
+  __host__ static constexpr auto MakeKargs(
+      const void* q_ptr,
+      const void* k_ptr,
+      const void* v_ptr,
+      void* o_ptr,
+      const void* seqstart_q_ptr,
+      const void* seqstart_k_ptr,
+      const void* seqlen_k_ptr,
+      ck::index_t hdim_q,
+      ck::index_t hdim_v,
+      float scale,
+      ck::index_t stride_q,
+      ck::index_t stride_k,
+      ck::index_t stride_v,
+      ck::index_t stride_o,
+      ck::index_t nhead_stride_q,
+      ck::index_t nhead_stride_k,
+      ck::index_t nhead_stride_v,
+      ck::index_t nhead_stride_o,
+      std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias =
+          std::nullopt) {
+    KargsGroupMode kargs;
+
+    InitKargsCommon(
+        kargs,
+        q_ptr,
+        k_ptr,
+        v_ptr,
+        o_ptr,
+        -1, // seqlen_q will be updated inside the kernel
+        -1, // seqlen_k will be updated inside the kernel
+        hdim_q,
+        hdim_v,
+        scale,
+        stride_q,
+        stride_k,
+        stride_v,
+        stride_o,
+        nhead_stride_q,
+        nhead_stride_k,
+        nhead_stride_v,
+        nhead_stride_o);
+
+    if (bias.has_value()) {
+      InitKargsCommonBias(
+          kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
+    }
+
+    kargs.seqstart_q_ptr = reinterpret_cast<const ck::index_t*>(seqstart_q_ptr);
+    kargs.seqstart_k_ptr = reinterpret_cast<const ck::index_t*>(seqstart_k_ptr);
+    kargs.seqlen_k_ptr = reinterpret_cast<const ck::index_t*>(seqlen_k_ptr);
+
+    return kargs;
+  }
+
+  __host__ static constexpr auto GridSize(
+      ck::index_t batch_size_,
+      ck::index_t nhead_,
+      ck::index_t seqlen_q_,
+      ck::index_t hdim_v_) {
+    return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
+  }
+
+  __host__ static constexpr auto BlockSize() {
+    return dim3(kBlockSize);
+  }
+
+  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
+    return ck::math::max(
+        FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
+  }
+
+  template <typename Kargs>
+  __device__ void operator()(Kargs kargs) const {
+    using namespace ck;
+    using namespace ck::tile_program;
+    using namespace ck::tile_program::block;
+
+    // allocate LDS
+    __shared__ char smem_ptr[GetSmemSize()];
+
+    // divide problem
+    const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
+        TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
+
+    const index_t i_m0 =
+        __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
+    const index_t i_n1 =
+        __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
+
+    index_t batch_offset_q = 0;
+    index_t batch_offset_k = 0;
+    index_t batch_offset_v = 0;
+    index_t batch_offset_bias = 0;
+    index_t batch_offset_o = 0;
+
+    if constexpr (is_same_v<Kargs, KargsBatchMode>) {
+      batch_offset_q = i_batch * kargs.batch_stride_q;
+      batch_offset_k = i_batch * kargs.batch_stride_k;
+      batch_offset_v = i_batch * kargs.batch_stride_v;
+      batch_offset_bias = i_batch * kargs.batch_stride_bias;
+      batch_offset_o = i_batch * kargs.batch_stride_o;
+    } else { // is_same_v<Kargs, KargsGroupMode>
+      // get starting offset for each work batch
+      const index_t query_start = kargs.seqstart_q_ptr[i_batch];
+      const index_t key_start = kargs.seqstart_k_ptr[i_batch];
+
+      batch_offset_q = query_start * kargs.stride_q;
+      batch_offset_k = key_start * kargs.stride_k;
+      batch_offset_v = key_start * kargs.stride_v;
+      batch_offset_bias = query_start * kargs.stride_bias + key_start;
+      batch_offset_o = query_start * kargs.stride_o;
+
+      // get real # queries & # keys under group mode
+      const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
+      kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
+
+      if (kargs.seqlen_k_ptr != nullptr) {
+        kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
+      } else {
+        const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
+        kargs.seqlen_k =
+            adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
+      }
+    }
+
+    // for simplicity, batch stride we just modify the pointer
+    const QDataType* q_ptr =
+        kargs.q_ptr + i_nhead * kargs.nhead_stride_q + batch_offset_q;
+    const KDataType* k_ptr =
+        kargs.k_ptr + i_nhead * kargs.nhead_stride_k + batch_offset_k;
+    const VDataType* v_ptr =
+        kargs.v_ptr + i_nhead * kargs.nhead_stride_v + batch_offset_v;
+    const BiasDataType* bias_ptr = nullptr;
+    if (kargs.bias_ptr != nullptr) {
+      bias_ptr = kargs.bias_ptr + i_nhead * kargs.nhead_stride_bias +
+          batch_offset_bias;
+    }
+    ODataType* o_ptr =
+        kargs.o_ptr + i_nhead * kargs.nhead_stride_o + batch_offset_o;
+
+    // Q/K/V DRAM and DRAM window
+    const auto q_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+        q_ptr,
+        make_tuple(kargs.seqlen_q, kargs.hdim_q),
+        make_tuple(kargs.stride_q, 1),
+        Number<32>{},
+        Number<1>{});
+
+    const auto k_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+        k_ptr,
+        make_tuple(kargs.seqlen_k, kargs.hdim_q),
+        make_tuple(kargs.stride_k, 1),
+        Number<32>{},
+        Number<1>{});
+
+    const auto v_dram = [&]() {
+      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
+        const auto v_dram_tmp =
+            make_naive_tensor_view<AddressSpaceEnum::Global>(
+                v_ptr,
+                make_tuple(kargs.seqlen_k, kargs.hdim_v),
+                make_tuple(kargs.stride_v, 1),
+                Number<32>{},
+                Number<1>{});
+        return transform_tensor_view(
+            v_dram_tmp,
+            make_tuple(
+                make_pass_through_transform(kargs.hdim_v),
+                make_pass_through_transform(kargs.seqlen_k)),
+            make_tuple(Sequence<1>{}, Sequence<0>{}),
+            make_tuple(Sequence<0>{}, Sequence<1>{}));
+      } else {
+        return make_naive_tensor_view<AddressSpaceEnum::Global>(
+            v_ptr,
+            make_tuple(kargs.hdim_v, kargs.seqlen_k),
+            make_tuple(kargs.stride_v, 1),
+            Number<32>{},
+            Number<1>{});
+      }
+    }();
+
+    auto q_dram_window = make_tile_window(
+        q_dram,
+        [&]() {
+          if constexpr (FmhaPipeline::kQLoadOnce)
+            return make_tuple(
+                Number<FmhaPipeline::kM0>{},
+                Number<FmhaPipeline::kK0BlockLength>{});
+          else
+            return make_tuple(
+                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
+        }(),
+        {i_m0, 0});
+
+    auto k_dram_window = make_tile_window(
+        k_dram,
+        make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
+        {0, 0});
+
+    auto v_dram_window = make_tile_window(
+        v_dram,
+        make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+        {i_n1, 0});
+
+    const auto run_pipeline_with = [&](auto bias_dram_window) {
+      return FmhaPipeline{}(
+          q_dram_window,
+          k_dram_window,
+          v_dram_window,
+          bias_dram_window,
+          kargs.scale,
+          kargs.seqlen_k / FmhaPipeline::kN0,
+          kargs.hdim_q / FmhaPipeline::kK0,
+          smem_ptr);
+    };
+
+    auto o_acc_tile = [&]() {
+      constexpr auto bias_dram_window_lengths =
+          make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
+
+      if (bias_ptr != nullptr) {
+        const auto bias_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+            bias_ptr,
+            make_tuple(kargs.seqlen_q, kargs.seqlen_k),
+            make_tuple(kargs.stride_bias, 1),
+            Number<32>{},
+            Number<1>{});
+
+        auto bias_dram_window =
+            make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
+
+        return run_pipeline_with(bias_dram_window);
+      } else {
+        auto dummy_bias_dram_window =
+            make_null_tile_window(bias_dram_window_lengths);
+
+        return run_pipeline_with(dummy_bias_dram_window);
+      }
+    }();
+
+    // O DRAM and O DRAM window
+    auto o_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
+        o_ptr,
+        make_tuple(kargs.seqlen_q, kargs.hdim_v),
+        make_tuple(kargs.stride_o, 1),
+        Number<32>{},
+        Number<1>{});
+
+    auto o_dram_window = make_tile_window(
+        o_dram,
+        make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
+        {i_m0, i_n1});
+
+    EpiloguePipeline{}(o_dram_window, o_acc_tile);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index f52884e276..478e603ea8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -1,21 +1,175 @@
 #pragma once
 
+#include <optional>
 #include <sstream>
 #include <stdexcept>
 
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck/host_utility/device_prop.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
+#include <ck/tensor_description/cluster_descriptor.hpp>
+#include <ck/tensor_description/tensor_descriptor_helper.hpp>
+#include <ck/utility/common_header.hpp>
 
-#include "ck_fmha_params.h"
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs_default_policy.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+
+#include "ck_fmha_op_helper.h"
+#include "ck_fmha_util.h"
+#include "ck_tiled_fmha_forward_kernel.h"
+#include "ck_tiled_fmha_fwd_epilogue.h"
+#include "ck_tiled_fmha_fwd_tile_partitioner.h"
+#include "ck_tiled_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 struct grouped_infer_masktype_attnbias_dispatched {
-  static void Run(GroupedForwardParams& param, hipStream_t stream){};
+  using QDataType = scalar_t;
+  using KDataType = scalar_t;
+  using VDataType = scalar_t;
+  using BiasDataType = scalar_t;
+  using SaccDataType = float; // data type for first gemm accumulation
+  using SMPLComputeDataType = float; // data type for reduction, softmax
+  using PDataType = scalar_t; // data type for A matrix of second gemm
+  using OaccDataType = float; // data type for second gemm accumulation
+  using ODataType = scalar_t;
+
+  using VLayout = ck::tensor_layout::gemm::RowMajor;
+
+  using FmhaBlockTileHdim64 = ck::Sequence<128, 64, 32, 64, 32, 64>;
+  using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
+  using FmhaBlockWarps = ck::Sequence<4, 1, 1>;
+  using FmhaWarpTile = ck::Sequence<32, 32, 16>;
+  using FmhaShapeHDim64 = ck::tile_program::TileFmhaShape<
+      FmhaBlockTileHdim64,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      VLayout>;
+  using FmhaShapeHDim128 = ck::tile_program::TileFmhaShape<
+      FmhaBlockTileHdim128,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      FmhaBlockWarps,
+      FmhaWarpTile,
+      VLayout>;
+
+  using FmhaTilePartitionerHDim64 = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
+  using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
+  using FmhaPipelineProblemHDim64 =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          QDataType,
+          KDataType,
+          VDataType,
+          SaccDataType,
+          SMPLComputeDataType,
+          BiasDataType,
+          PDataType,
+          OaccDataType,
+          ODataType,
+          256, // BlockSize
+          FmhaShapeHDim64>;
+  using FmhaPipelineProblemHDim128 =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          QDataType,
+          KDataType,
+          VDataType,
+          SaccDataType,
+          SMPLComputeDataType,
+          BiasDataType,
+          PDataType,
+          OaccDataType,
+          ODataType,
+          256, // BlockSize
+          FmhaShapeHDim128>;
+
+  using FmhaPipelineHDim64 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+      FmhaPipelineProblemHDim64>;
+  using FmhaPipelineHDim128 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+      FmhaPipelineProblemHDim128>;
+
+  using FmhaEpilogue =
+      FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
+  using FmhaKernelHDim64 = FmhaFwdKernel<
+      FmhaTilePartitionerHDim64,
+      FmhaPipelineHDim64,
+      FmhaEpilogue>;
+  using FmhaKernelHDim128 = FmhaFwdKernel<
+      FmhaTilePartitionerHDim128,
+      FmhaPipelineHDim128,
+      FmhaEpilogue>;
+
+#ifndef GROUPED_INFER_HEADDIM_SWITCH
+#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)  \
+  [&] {                                                          \
+    if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64) {             \
+      using FmhaKernel = FmhaKernelHDim64;                       \
+      __VA_ARGS__();                                             \
+    } else if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128) {     \
+      using FmhaKernel = FmhaKernelHDim128;                      \
+      __VA_ARGS__();                                             \
+    } else {                                                     \
+      throw std::runtime_error("Head-dim sizes not supported!"); \
+    }                                                            \
+  }()
+#endif
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    GROUPED_INFER_HEADDIM_SWITCH(
+        param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
+    dim3 kGridSize = FmhaKernel::GridSize(1, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+
+    constexpr ck::index_t kWarpPerCu = 8; // 2 warps per SIMD
+    constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
+    constexpr ck::index_t kBlockPerCu = kWarpPerCu / kWarpPerBlock;
+
+    std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias;
+
+    if (param.has_attn_bias) {
+      bias = std::make_tuple(
+          param.attn_bias_ptr,
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[1]);
+    };
+
+    auto kargs = FmhaKernel::MakeKargs(
+        param.q_ptr,
+        param.k_ptr,
+        param.v_ptr,
+        param.out_ptr,
+        param.seqstart_q_dev_ptr,
+        param.seqstart_k_dev_ptr,
+        param.seqlen_k_dev_ptr,
+        param.K, // hdim_q
+        param.Kv, // hdim_v
+        param.scale,
+        param.q_strides[1], // q, k, v, out tensor seq-dim stride
+        param.k_strides[1],
+        param.v_strides[1],
+        param.out_strides[1],
+        param.q_strides[2], // q, k, v, out tensor head-dim stride
+        param.k_strides[2],
+        param.v_strides[2],
+        param.out_strides[2],
+        bias);
 
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(
-      GroupedForwardParams& param,
-      hipStream_t stream){};
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
new file mode 100644
index 0000000000..e07f711ac6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -0,0 +1,207 @@
+#pragma once
+
+#include <array>
+#include <cstdint>
+
+struct BatchedInferParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+
+  // BMHK mode strides
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> out_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* out_ptr;
+};
+
+struct BatchedForwardParams : public BatchedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // completely contiguous
+  void* logsumexp_ptr;
+};
+
+struct GroupedInferParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  int max_seqlen_q;
+
+  void* seqstart_q_dev_ptr;
+  void* seqstart_k_dev_ptr;
+  void* seqlen_k_dev_ptr;
+
+  float scale;
+  bool has_attn_bias;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* out_ptr;
+};
+
+struct GroupedForwardParams : public GroupedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // completely contiguous
+  std::vector<void*> logsumexp_ptrs;
+
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
+};
+
+struct BatchedBackwardParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+  bool bias_has_grad;
+
+  bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
+
+  // BMHK mode strides, last-dim contiguous
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+  std::array<int, 4> out_strides;
+
+  std::array<int, 4> tmp_grad_k_strides;
+  std::array<int, 4> tmp_grad_v_strides;
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+  const void* grad_out_ptr;
+  const void* out_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* grad_q_ptr;
+  void* grad_k_ptr;
+  void* grad_v_ptr;
+  void* grad_bias_ptr;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // BHM mode lengths, completely contiguous
+  const void* logsumexp_ptr;
+};
+
+struct GroupedBackwardParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  int max_seqlen_q;
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+  bool has_attn_bias;
+  bool bias_has_grad;
+
+  bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::array<int, 3> tmp_grad_k_strides;
+  std::array<int, 3> tmp_grad_v_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<const void*> grad_out_ptrs;
+  std::vector<const void*> out_ptrs;
+
+  // used by the light_v2 kernel
+  // TODO use these as workspace
+  std::vector<void*> ydotdy_ptrs;
+
+  uint8_t custom_mask_type;
+
+  std::vector<void*> grad_q_ptrs;
+  std::vector<void*> grad_k_ptrs;
+  std::vector<void*> grad_v_ptrs;
+  std::vector<void*> grad_bias_ptrs;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // BHM mode lengths, completely contiguous
+  std::vector<const void*> logsumexp_ptrs;
+
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
+};

From 17ca15e11447b46beb9aaedf82fa08bf59f08a4d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 27 Nov 2023 17:53:30 +0000
Subject: [PATCH 242/837] Remove the using of has_attn_bias as template for
 ck-tiled infer

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 12 ++---
 .../ck_tiled_fmha_batched_infer_fp16.cpp      | 54 +++++--------------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 10 ++--
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      | 54 +++++--------------
 ...led_fmha_batched_infer_fp16_masktype_0.cpp |  7 +++
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |  8 ---
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |  8 ---
 ...led_fmha_batched_infer_fp16_masktype_1.cpp |  7 +++
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |  8 ---
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |  8 ---
 ...led_fmha_batched_infer_fp16_masktype_2.cpp |  7 +++
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |  8 ---
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |  8 ---
 ...led_fmha_grouped_infer_fp16_masktype_0.cpp |  7 +++
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |  8 ---
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |  8 ---
 ...led_fmha_grouped_infer_fp16_masktype_1.cpp |  7 +++
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |  8 ---
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |  8 ---
 ...led_fmha_grouped_infer_fp16_masktype_2.cpp |  7 +++
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |  8 ---
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |  8 ---
 22 files changed, 79 insertions(+), 189 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index d6fa248bbf..543a7ac7f2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -18,12 +18,12 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
-#include "ck_tiled_fmha_params.h"
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
+#include "ck_tiled_fmha_params.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+template <typename scalar_t, int32_t custom_mask_type>
 struct batched_infer_masktype_attnbias_dispatched {
   using QDataType = scalar_t;
   using KDataType = scalar_t;
@@ -175,12 +175,10 @@ struct batched_infer_masktype_attnbias_dispatched {
   };
 };
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+template <typename scalar_t, int32_t custom_mask_type>
 void run_batched_infer_masktype_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_infer_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
+  batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(
+      param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 5814b73914..bb4fa6d913 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -7,52 +7,26 @@
 
 extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+    0>(BatchedForwardParams& param, hipStream_t stream);
 
 extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+    1>(BatchedForwardParams& param, hipStream_t stream);
 
 extern template void run_batched_infer_masktype_attnbias_dispatched<
     ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+    2>(BatchedForwardParams& param, hipStream_t stream);
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+  if (param.custom_mask_type == 0)
+    run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
+        param, stream);
+  else if (param.custom_mask_type == 1)
+    run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
+        param, stream);
+  else if (param.custom_mask_type == 2)
+    run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
+        param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 478e603ea8..b58bcfafb3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -25,7 +25,7 @@
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+template <typename scalar_t, int32_t custom_mask_type>
 struct grouped_infer_masktype_attnbias_dispatched {
   using QDataType = scalar_t;
   using KDataType = scalar_t;
@@ -172,12 +172,10 @@ struct grouped_infer_masktype_attnbias_dispatched {
   };
 };
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
+template <typename scalar_t, int32_t custom_mask_type>
 void run_grouped_infer_masktype_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_infer_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
+  grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(
+      param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 009571c976..3954ee4ff9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -7,52 +7,26 @@
 
 extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+    0>(GroupedForwardParams& param, hipStream_t stream);
 
 extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+    1>(GroupedForwardParams& param, hipStream_t stream);
 
 extern template void run_grouped_infer_masktype_attnbias_dispatched<
     ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+    2>(GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+  if (param.custom_mask_type == 0)
+    run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
+        param, stream);
+  else if (param.custom_mask_type == 1)
+    run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
+        param, stream);
+  else if (param.custom_mask_type == 2)
+    run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
+        param, stream);
+  else
+    throw std::runtime_error("Invalid custom_mask_type value");
 };
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..2915b07ed3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
+    BatchedForwardParams& param,
+    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index e9959f2375..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 6c46ed45f7..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..8d7f2bbf8d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
+    BatchedForwardParams& param,
+    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index aefdd2804d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 61b94d6ad3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..b608b89399
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
+    BatchedForwardParams& param,
+    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 720a9c2fc5..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 75daaaa078..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp
new file mode 100644
index 0000000000..8117f8b580
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
+    GroupedForwardParams& param,
+    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 96d0f992e6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index adeee9880a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp
new file mode 100644
index 0000000000..d1b93e5837
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
+    GroupedForwardParams& param,
+    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index f3843a8ed5..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index bae1535a38..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp
new file mode 100644
index 0000000000..246b90a774
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
+    GroupedForwardParams& param,
+    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 768082654f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index ac11a4eeab..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);

From 0cf0d3df720fdee6578476c0fc895c046f53cd96 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 29 Nov 2023 16:00:16 +0000
Subject: [PATCH 243/837] Add clang-format file to control clang-format-10

---
 .clang-format | 80 ++++++++++++++++++++++++++-------------------------
 1 file changed, 41 insertions(+), 39 deletions(-)

diff --git a/.clang-format b/.clang-format
index 6d0ab740db..22f2674966 100644
--- a/.clang-format
+++ b/.clang-format
@@ -1,80 +1,81 @@
 ---
-AccessModifierOffset: -1
-AlignAfterOpenBracket: AlwaysBreak
-AlignConsecutiveAssignments: false
+Language:        Cpp
+AccessModifierOffset: 0
+AlignAfterOpenBracket: Align
+AlignConsecutiveAssignments: true
 AlignConsecutiveDeclarations: false
 AlignEscapedNewlinesLeft: true
-AlignOperands:   false
-AlignTrailingComments: false
-AllowAllParametersOfDeclarationOnNextLine: false
-AllowShortBlocksOnASingleLine: false
-AllowShortCaseLabelsOnASingleLine: false
-AllowShortFunctionsOnASingleLine: Empty
+AlignOperands:   true
+AlignTrailingComments: true
+AllowAllParametersOfDeclarationOnNextLine: true
+AllowShortBlocksOnASingleLine: true
+AllowShortCaseLabelsOnASingleLine: true
+AllowShortFunctionsOnASingleLine: All
 AllowShortIfStatementsOnASingleLine: false
 AllowShortLoopsOnASingleLine: false
+AlwaysBreakAfterDefinitionReturnType: None
 AlwaysBreakAfterReturnType: None
-AlwaysBreakBeforeMultilineStrings: true
+AlwaysBreakBeforeMultilineStrings: false
 AlwaysBreakTemplateDeclarations: true
 BinPackArguments: false
 BinPackParameters: false
-BraceWrapping:
-  AfterClass:      false
-  AfterControlStatement: false
-  AfterEnum:       false
-  AfterFunction:   false
+BraceWrapping:   
+  AfterClass:      true
+  AfterControlStatement: true
+  AfterEnum:       true
+  AfterFunction:   true
   AfterNamespace:  false
-  AfterObjCDeclaration: false
-  AfterStruct:     false
-  AfterUnion:      false
-  BeforeCatch:     false
-  BeforeElse:      false
+  AfterObjCDeclaration: true
+  AfterStruct:     true
+  AfterUnion:      true
+  BeforeCatch:     true
+  BeforeElse:      true
   IndentBraces:    false
 BreakBeforeBinaryOperators: None
-BreakBeforeBraces: Attach
+BreakBeforeBraces: Custom
 BreakBeforeTernaryOperators: true
 BreakConstructorInitializersBeforeComma: false
-BreakAfterJavaFieldAnnotations: false
-BreakStringLiterals: false
-ColumnLimit:     80
+ColumnLimit:     100
 CommentPragmas:  '^ IWYU pragma:'
-#CompactNamespaces: false
 ConstructorInitializerAllOnOneLineOrOnePerLine: true
 ConstructorInitializerIndentWidth: 4
 ContinuationIndentWidth: 4
 Cpp11BracedListStyle: true
 DerivePointerAlignment: false
 DisableFormat:   false
-ForEachMacros:   [ FOR_EACH_RANGE, FOR_EACH, ]
-IncludeCategories:
-  - Regex:           '^<.*\.h(pp)?>'
-    Priority:        1
-  - Regex:           '^<.*'
+ExperimentalAutoDetectBinPacking: false
+ForEachMacros:   [ foreach, Q_FOREACH, BOOST_FOREACH ]
+IncludeCategories: 
+  - Regex:           '^"(llvm|llvm-c|clang|clang-c)/'
     Priority:        2
-  - Regex:           '.*'
+  - Regex:           '^(<|"(gtest|isl|json)/)'
     Priority:        3
-IndentCaseLabels: true
-IndentWidth:     2
+  - Regex:           '.*'
+    Priority:        1
+IndentCaseLabels: false
+IndentWidth:     4
 IndentWrappedFunctionNames: false
-KeepEmptyLinesAtTheStartOfBlocks: false
+KeepEmptyLinesAtTheStartOfBlocks: true
 MacroBlockBegin: ''
 MacroBlockEnd:   ''
 MaxEmptyLinesToKeep: 1
 NamespaceIndentation: None
 ObjCBlockIndentWidth: 2
 ObjCSpaceAfterProperty: false
-ObjCSpaceBeforeProtocolList: false
-PenaltyBreakBeforeFirstCallParameter: 1
+ObjCSpaceBeforeProtocolList: true
+PenaltyBreakBeforeFirstCallParameter: 19
 PenaltyBreakComment: 300
 PenaltyBreakFirstLessLess: 120
 PenaltyBreakString: 1000
 PenaltyExcessCharacter: 1000000
-PenaltyReturnTypeOnItsOwnLine: 2000000
+PenaltyReturnTypeOnItsOwnLine: 60
 PointerAlignment: Left
 ReflowComments:  true
-SortIncludes:    true
+SortIncludes:    false
 SpaceAfterCStyleCast: false
+# SpaceAfterTemplateKeyword: true
 SpaceBeforeAssignmentOperators: true
-SpaceBeforeParens: ControlStatements
+SpaceBeforeParens: Never
 SpaceInEmptyParentheses: false
 SpacesBeforeTrailingComments: 1
 SpacesInAngles:  false
@@ -86,3 +87,4 @@ Standard:        Cpp11
 TabWidth:        8
 UseTab:          Never
 ...
+

From 00a407069b53daab1416059c658e6852e83cdb88 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 29 Nov 2023 17:41:55 +0000
Subject: [PATCH 244/837] Update to have ck-tiled group mode pass the
 unit-tests

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 297 +++---
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 931 ++++++++++--------
 .../hip_fmha/ck_tiled_fmha_fwd_epilogue.h     |  40 +-
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |  83 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 285 +++---
 5 files changed, 851 insertions(+), 785 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 543a7ac7f2..4f8598d7c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -4,12 +4,12 @@
 #include <sstream>
 #include <stdexcept>
 
+#include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
 #include <ck/tensor_description/cluster_descriptor.hpp>
 #include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
+#include <ck/tensor/tensor_view.hpp>
 
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
@@ -24,161 +24,154 @@
 #include "ck_tiled_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type>
-struct batched_infer_masktype_attnbias_dispatched {
-  using QDataType = scalar_t;
-  using KDataType = scalar_t;
-  using VDataType = scalar_t;
-  using BiasDataType = scalar_t;
-  using SaccDataType = float; // data type for first gemm accumulation
-  using SMPLComputeDataType = float; // data type for reduction, softmax
-  using PDataType = scalar_t; // data type for A matrix of second gemm
-  using OaccDataType = float; // data type for second gemm accumulation
-  using ODataType = scalar_t;
-
-  using VLayout = ck::tensor_layout::gemm::RowMajor;
-
-  using FmhaBlockTileHdim64 = ck::Sequence<128, 64, 32, 64, 32, 64>;
-  using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
-  using FmhaBlockWarps = ck::Sequence<4, 1, 1>;
-  using FmhaWarpTile = ck::Sequence<32, 32, 16>;
-  using FmhaShapeHDim64 = ck::tile_program::TileFmhaShape<
-      FmhaBlockTileHdim64,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      VLayout>;
-  using FmhaShapeHDim128 = ck::tile_program::TileFmhaShape<
-      FmhaBlockTileHdim128,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      VLayout>;
-
-  using FmhaTilePartitionerHDim64 = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
-  using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
-  using FmhaPipelineProblemHDim64 =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          QDataType,
-          KDataType,
-          VDataType,
-          SaccDataType,
-          SMPLComputeDataType,
-          BiasDataType,
-          PDataType,
-          OaccDataType,
-          ODataType,
-          256, // BlockSize
-          FmhaShapeHDim64>;
-  using FmhaPipelineProblemHDim128 =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          QDataType,
-          KDataType,
-          VDataType,
-          SaccDataType,
-          SMPLComputeDataType,
-          BiasDataType,
-          PDataType,
-          OaccDataType,
-          ODataType,
-          256, // BlockSize
-          FmhaShapeHDim128>;
-
-  using FmhaPipelineHDim64 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-      FmhaPipelineProblemHDim64>;
-  using FmhaPipelineHDim128 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-      FmhaPipelineProblemHDim128>;
-
-  using FmhaEpilogue =
-      FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
-  using FmhaKernelHDim64 = FmhaFwdKernel<
-      FmhaTilePartitionerHDim64,
-      FmhaPipelineHDim64,
-      FmhaEpilogue>;
-  using FmhaKernelHDim128 = FmhaFwdKernel<
-      FmhaTilePartitionerHDim128,
-      FmhaPipelineHDim128,
-      FmhaEpilogue>;
+struct batched_infer_masktype_attnbias_dispatched
+{
+    using QDataType           = scalar_t;
+    using KDataType           = scalar_t;
+    using VDataType           = scalar_t;
+    using BiasDataType        = scalar_t;
+    using SaccDataType        = float;    // data type for first gemm accumulation
+    using SMPLComputeDataType = float;    // data type for reduction, softmax
+    using PDataType           = scalar_t; // data type for A matrix of second gemm
+    using OaccDataType        = float;    // data type for second gemm accumulation
+    using ODataType           = scalar_t;
+
+    using VLayout = ck::tensor_layout::gemm::RowMajor;
+
+    using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
+    using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
+    using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
+    using FmhaWarpTile         = ck::Sequence<32, 32, 16>;
+    using FmhaShapeHDim64      = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim64,
+                                                            FmhaBlockWarps,
+                                                            FmhaWarpTile,
+                                                            FmhaBlockWarps,
+                                                            FmhaWarpTile,
+                                                            VLayout>;
+    using FmhaShapeHDim128     = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim128,
+                                                             FmhaBlockWarps,
+                                                             FmhaWarpTile,
+                                                             FmhaBlockWarps,
+                                                             FmhaWarpTile,
+                                                             VLayout>;
+
+    using FmhaTilePartitionerHDim64  = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
+    using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
+    using FmhaPipelineProblemHDim64 =
+        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                          KDataType,
+                                                          VDataType,
+                                                          SaccDataType,
+                                                          SMPLComputeDataType,
+                                                          BiasDataType,
+                                                          PDataType,
+                                                          OaccDataType,
+                                                          ODataType,
+                                                          256, // BlockSize
+                                                          FmhaShapeHDim64>;
+    using FmhaPipelineProblemHDim128 =
+        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                          KDataType,
+                                                          VDataType,
+                                                          SaccDataType,
+                                                          SMPLComputeDataType,
+                                                          BiasDataType,
+                                                          PDataType,
+                                                          OaccDataType,
+                                                          ODataType,
+                                                          256, // BlockSize
+                                                          FmhaShapeHDim128>;
+
+    using FmhaPipelineHDim64 =
+        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim64>;
+    using FmhaPipelineHDim128 =
+        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim128>;
+
+    using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
+
+    // ToDo: define NeedPadding according to runtime lengths
+    static constexpr bool NeedPadding = true;
+
+    using FmhaKernelHDim64 =
+        FmhaFwdKernel<FmhaTilePartitionerHDim64, FmhaPipelineHDim64, FmhaEpilogue, NeedPadding>;
+    using FmhaKernelHDim128 =
+        FmhaFwdKernel<FmhaTilePartitionerHDim128, FmhaPipelineHDim128, FmhaEpilogue, NeedPadding>;
 
 #ifndef BATCHED_INFER_HEADDIM_SWITCH
-#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)  \
-  [&] {                                                          \
-    if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64) {             \
-      using FmhaKernel = FmhaKernelHDim64;                       \
-      __VA_ARGS__();                                             \
-    } else if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128) {     \
-      using FmhaKernel = FmhaKernelHDim128;                      \
-      __VA_ARGS__();                                             \
-    } else {                                                     \
-      throw std::runtime_error("Head-dim sizes not supported!"); \
-    }                                                            \
-  }()
+#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)        \
+    [&] {                                                              \
+        if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64)                  \
+        {                                                              \
+            using FmhaKernel = FmhaKernelHDim64;                       \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128)            \
+        {                                                              \
+            using FmhaKernel = FmhaKernelHDim128;                      \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else                                                           \
+        {                                                              \
+            throw std::runtime_error("Head-dim sizes not supported!"); \
+        }                                                              \
+    }()
 #endif
 
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    BATCHED_INFER_HEADDIM_SWITCH(
-        param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
-  };
-
-  template <typename FmhaKernel>
-  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
-    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
-    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-
-    constexpr ck::index_t kWarpPerCu = 8; // 2 warps per SIMD
-    constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
-    constexpr ck::index_t kBlockPerCu = kWarpPerCu / kWarpPerBlock;
-
-    std::optional<
-        std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>>
-        bias;
-
-    if (param.has_attn_bias)
-      bias = std::make_tuple(
-          param.attn_bias_ptr,
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[0]);
-
-    auto kargs = FmhaKernel::MakeKargs(
-        param.q_ptr,
-        param.k_ptr,
-        param.v_ptr,
-        param.out_ptr,
-        param.M, // seqlen_q
-        param.N, // seqlen_k
-        param.K, // hdim_q
-        param.Kv, // hdim_v
-        param.scale,
-        param.q_strides[1], // q, k, v, out tensor seq-dim stride
-        param.k_strides[1],
-        param.v_strides[1],
-        param.out_strides[1],
-        param.q_strides[2], // q, k, v, out tensor head-dim stride
-        param.k_strides[2],
-        param.v_strides[2],
-        param.out_strides[2],
-        param.q_strides[0], // q, k, v, out tensor batch-dim stride
-        param.k_strides[0],
-        param.v_strides[0],
-        param.out_strides[0],
-        bias);
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
-  };
+    static void Run(BatchedForwardParams& param, hipStream_t stream)
+    {
+        BATCHED_INFER_HEADDIM_SWITCH(
+            param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
+    };
+
+    template <typename FmhaKernel>
+    static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream)
+    {
+        dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+        constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+
+        constexpr ck::index_t kWarpPerCu    = 8; // 2 warps per SIMD
+        constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
+        constexpr ck::index_t kBlockPerCu   = kWarpPerCu / kWarpPerBlock;
+
+        std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias;
+
+        if(param.has_attn_bias)
+            bias = std::make_tuple(param.attn_bias_ptr,
+                                   param.attn_bias_strides[2],
+                                   param.attn_bias_strides[1],
+                                   param.attn_bias_strides[0]);
+
+        auto kargs =
+            FmhaKernel::MakeKargs(param.q_ptr,
+                                  param.k_ptr,
+                                  param.v_ptr,
+                                  param.out_ptr,
+                                  param.M,  // seqlen_q
+                                  param.N,  // seqlen_k
+                                  param.K,  // hdim_q
+                                  param.Kv, // hdim_v
+                                  param.scale,
+                                  param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                                  param.k_strides[1],
+                                  param.v_strides[1],
+                                  param.out_strides[1],
+                                  param.q_strides[2], // q, k, v, out tensor head-dim stride
+                                  param.k_strides[2],
+                                  param.v_strides[2],
+                                  param.out_strides[2],
+                                  param.q_strides[0], // q, k, v, out tensor batch-dim stride
+                                  param.k_strides[0],
+                                  param.v_strides[0],
+                                  param.out_strides[0],
+                                  bias);
+
+        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
+    };
 };
 
 template <typename scalar_t, int32_t custom_mask_type>
-void run_batched_infer_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream) {
-  batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(
-      param, stream);
+void run_batched_infer_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
+{
+    batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 334be84bb4..9759c98324 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -1,6 +1,3 @@
-// SPDX-License-Identifier: MIT
-// Copyright (c) 2018-2023, Advanced Micro Devices, Inc. All rights reserved.
-
 #pragma once
 
 #include <optional>
@@ -18,439 +15,517 @@
 
 #define C_LOG2E 1.44269504088896340736 // log2(e)
 
-template <
-    typename TilePartitioner_,
-    typename FmhaPipeline_,
-    typename EpiloguePipeline_>
-struct FmhaFwdKernel {
-  using TilePartitioner = ck::remove_cvref_t<TilePartitioner_>;
-  using FmhaPipeline = ck::remove_cvref_t<FmhaPipeline_>;
-  using EpiloguePipeline = ck::remove_cvref_t<EpiloguePipeline_>;
-  static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
-
-  using QDataType = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
-  using KDataType = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
-  using VDataType = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
-  using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
-  using ODataType = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
-
-  using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
-
-  struct KargsCommon {
-    const QDataType* q_ptr;
-    const KDataType* k_ptr;
-    const VDataType* v_ptr;
-    ODataType* o_ptr;
-
-    ck::index_t seqlen_q;
-    ck::index_t seqlen_k;
-    ck::index_t hdim_q;
-    ck::index_t hdim_v;
-
-    float scale;
-
-    ck::index_t stride_q;
-    ck::index_t stride_k;
-    ck::index_t stride_v;
-    ck::index_t stride_o;
-
-    ck::index_t nhead_stride_q;
-    ck::index_t nhead_stride_k;
-    ck::index_t nhead_stride_v;
-    ck::index_t nhead_stride_o;
-
-    // following attributes are optional
-    const BiasDataType* bias_ptr = nullptr;
-    ck::index_t stride_bias = 0;
-    ck::index_t nhead_stride_bias = 0;
-  };
-
-  struct KargsBatchMode : KargsCommon {
-    ck::index_t batch_stride_q;
-    ck::index_t batch_stride_k;
-    ck::index_t batch_stride_v;
-    ck::index_t batch_stride_o;
-
-    // following attributes are optional
-    ck::index_t batch_stride_bias = 0;
-  };
-
-  struct KargsGroupMode : KargsCommon {
-    const ck::index_t* seqstart_q_ptr;
-    const ck::index_t* seqstart_k_ptr;
-    const ck::index_t* seqlen_k_ptr;
-  };
-
-  __host__ static constexpr void InitKargsCommon(
-      KargsCommon& kargs,
-      const void* q_ptr,
-      const void* k_ptr,
-      const void* v_ptr,
-      void* o_ptr,
-      ck::index_t seqlen_q,
-      ck::index_t seqlen_k,
-      ck::index_t hdim_q,
-      ck::index_t hdim_v,
-      float scale,
-      ck::index_t stride_q,
-      ck::index_t stride_k,
-      ck::index_t stride_v,
-      ck::index_t stride_o,
-      ck::index_t nhead_stride_q,
-      ck::index_t nhead_stride_k,
-      ck::index_t nhead_stride_v,
-      ck::index_t nhead_stride_o) {
-    kargs.q_ptr = reinterpret_cast<const QDataType*>(q_ptr);
-    kargs.k_ptr = reinterpret_cast<const KDataType*>(k_ptr);
-    kargs.v_ptr = reinterpret_cast<const VDataType*>(v_ptr);
-    kargs.o_ptr = reinterpret_cast<ODataType*>(o_ptr);
-
-    kargs.seqlen_q = seqlen_q;
-    kargs.seqlen_k = seqlen_k;
-    kargs.hdim_q = hdim_q;
-    kargs.hdim_v = hdim_v;
-
-    kargs.scale = scale;
-
-    kargs.stride_q = stride_q;
-    kargs.stride_k = stride_k;
-    kargs.stride_v = stride_v;
-    kargs.stride_o = stride_o;
-
-    kargs.nhead_stride_q = nhead_stride_q;
-    kargs.nhead_stride_k = nhead_stride_k;
-    kargs.nhead_stride_v = nhead_stride_v;
-    kargs.nhead_stride_o = nhead_stride_o;
-  }
-
-  __host__ static constexpr void InitKargsCommonBias(
-      KargsCommon& kargs,
-      const void* bias_ptr,
-      ck::index_t stride_bias,
-      ck::index_t nhead_stride_bias) {
-    kargs.bias_ptr = reinterpret_cast<const BiasDataType*>(bias_ptr);
-    kargs.stride_bias = stride_bias;
-    kargs.nhead_stride_bias = nhead_stride_bias;
-  }
-
-  // initialize kernel arguments for batch mode
-  __host__ static constexpr auto MakeKargs(
-      const void* q_ptr,
-      const void* k_ptr,
-      const void* v_ptr,
-      void* o_ptr,
-      ck::index_t seqlen_q,
-      ck::index_t seqlen_k,
-      ck::index_t hdim_q,
-      ck::index_t hdim_v,
-      float scale,
-      ck::index_t stride_q,
-      ck::index_t stride_k,
-      ck::index_t stride_v,
-      ck::index_t stride_o,
-      ck::index_t nhead_stride_q,
-      ck::index_t nhead_stride_k,
-      ck::index_t nhead_stride_v,
-      ck::index_t nhead_stride_o,
-      ck::index_t batch_stride_q,
-      ck::index_t batch_stride_k,
-      ck::index_t batch_stride_v,
-      ck::index_t batch_stride_o,
-      std::optional<
-          std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias =
-          std::nullopt) {
-    KargsBatchMode kargs;
-
-    InitKargsCommon(
-        kargs,
-        q_ptr,
-        k_ptr,
-        v_ptr,
-        o_ptr,
-        seqlen_q,
-        seqlen_k,
-        hdim_q,
-        hdim_v,
-        scale,
-        stride_q,
-        stride_k,
-        stride_v,
-        stride_o,
-        nhead_stride_q,
-        nhead_stride_k,
-        nhead_stride_v,
-        nhead_stride_o);
-
-    kargs.batch_stride_q = batch_stride_q;
-    kargs.batch_stride_k = batch_stride_k;
-    kargs.batch_stride_v = batch_stride_v;
-    kargs.batch_stride_o = batch_stride_o;
-
-    if (bias.has_value()) {
-      InitKargsCommonBias(
-          kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
-
-      kargs.batch_stride_bias = std::get<3>(*bias);
+template <typename TilePartitioner_,
+          typename FmhaPipeline_,
+          typename EpiloguePipeline_,
+          bool NeedPadding>
+struct FmhaFwdKernel
+{
+    using TilePartitioner                   = ck::remove_cvref_t<TilePartitioner_>;
+    using FmhaPipeline                      = ck::remove_cvref_t<FmhaPipeline_>;
+    using EpiloguePipeline                  = ck::remove_cvref_t<EpiloguePipeline_>;
+    static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
+
+    using QDataType    = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
+    using KDataType    = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
+    using VDataType    = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
+    using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
+    using ODataType    = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
+
+    using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
+
+    struct KargsCommon
+    {
+        const QDataType* q_ptr;
+        const KDataType* k_ptr;
+        const VDataType* v_ptr;
+        ODataType* o_ptr;
+
+        ck::index_t seqlen_q;
+        ck::index_t seqlen_k;
+        ck::index_t hdim_q;
+        ck::index_t hdim_v;
+
+        float scale;
+
+        ck::index_t stride_q;
+        ck::index_t stride_k;
+        ck::index_t stride_v;
+        ck::index_t stride_o;
+
+        ck::index_t nhead_stride_q;
+        ck::index_t nhead_stride_k;
+        ck::index_t nhead_stride_v;
+        ck::index_t nhead_stride_o;
+
+        // following attributes are optional
+        const BiasDataType* bias_ptr  = nullptr;
+        ck::index_t stride_bias       = 0;
+        ck::index_t nhead_stride_bias = 0;
+    };
+
+    struct KargsBatchMode : KargsCommon
+    {
+        ck::index_t batch_stride_q;
+        ck::index_t batch_stride_k;
+        ck::index_t batch_stride_v;
+        ck::index_t batch_stride_o;
+
+        // following attributes are optional
+        ck::index_t batch_stride_bias = 0;
+    };
+
+    struct KargsGroupMode : KargsCommon
+    {
+        const int32_t* seqstart_q_ptr;
+        const int32_t* seqstart_k_ptr;
+        const int32_t* seqlen_k_ptr;
+    };
+
+    __host__ static constexpr void InitKargsCommon(KargsCommon& kargs,
+                                                   const void* q_ptr,
+                                                   const void* k_ptr,
+                                                   const void* v_ptr,
+                                                   void* o_ptr,
+                                                   ck::index_t seqlen_q,
+                                                   ck::index_t seqlen_k,
+                                                   ck::index_t hdim_q,
+                                                   ck::index_t hdim_v,
+                                                   float scale,
+                                                   ck::index_t stride_q,
+                                                   ck::index_t stride_k,
+                                                   ck::index_t stride_v,
+                                                   ck::index_t stride_o,
+                                                   ck::index_t nhead_stride_q,
+                                                   ck::index_t nhead_stride_k,
+                                                   ck::index_t nhead_stride_v,
+                                                   ck::index_t nhead_stride_o)
+    {
+        kargs.q_ptr = reinterpret_cast<const QDataType*>(q_ptr);
+        kargs.k_ptr = reinterpret_cast<const KDataType*>(k_ptr);
+        kargs.v_ptr = reinterpret_cast<const VDataType*>(v_ptr);
+        kargs.o_ptr = reinterpret_cast<ODataType*>(o_ptr);
+
+        kargs.seqlen_q = seqlen_q;
+        kargs.seqlen_k = seqlen_k;
+        kargs.hdim_q   = hdim_q;
+        kargs.hdim_v   = hdim_v;
+
+        kargs.scale = scale;
+
+        kargs.stride_q = stride_q;
+        kargs.stride_k = stride_k;
+        kargs.stride_v = stride_v;
+        kargs.stride_o = stride_o;
+
+        kargs.nhead_stride_q = nhead_stride_q;
+        kargs.nhead_stride_k = nhead_stride_k;
+        kargs.nhead_stride_v = nhead_stride_v;
+        kargs.nhead_stride_o = nhead_stride_o;
+    }
+
+    __host__ static constexpr void InitKargsCommonBias(KargsCommon& kargs,
+                                                       const void* bias_ptr,
+                                                       ck::index_t stride_bias,
+                                                       ck::index_t nhead_stride_bias)
+    {
+        kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(bias_ptr);
+        kargs.stride_bias       = stride_bias;
+        kargs.nhead_stride_bias = nhead_stride_bias;
+    }
+
+    // initialize kernel arguments for batch mode
+    __host__ static constexpr auto
+    MakeKargs(const void* q_ptr,
+              const void* k_ptr,
+              const void* v_ptr,
+              void* o_ptr,
+              ck::index_t seqlen_q,
+              ck::index_t seqlen_k,
+              ck::index_t hdim_q,
+              ck::index_t hdim_v,
+              float scale,
+              ck::index_t stride_q,
+              ck::index_t stride_k,
+              ck::index_t stride_v,
+              ck::index_t stride_o,
+              ck::index_t nhead_stride_q,
+              ck::index_t nhead_stride_k,
+              ck::index_t nhead_stride_v,
+              ck::index_t nhead_stride_o,
+              ck::index_t batch_stride_q,
+              ck::index_t batch_stride_k,
+              ck::index_t batch_stride_v,
+              ck::index_t batch_stride_o,
+              std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias =
+                  std::nullopt)
+    {
+        KargsBatchMode kargs;
+
+        InitKargsCommon(kargs,
+                        q_ptr,
+                        k_ptr,
+                        v_ptr,
+                        o_ptr,
+                        seqlen_q,
+                        seqlen_k,
+                        hdim_q,
+                        hdim_v,
+                        scale,
+                        stride_q,
+                        stride_k,
+                        stride_v,
+                        stride_o,
+                        nhead_stride_q,
+                        nhead_stride_k,
+                        nhead_stride_v,
+                        nhead_stride_o);
+
+        kargs.batch_stride_q = batch_stride_q;
+        kargs.batch_stride_k = batch_stride_k;
+        kargs.batch_stride_v = batch_stride_v;
+        kargs.batch_stride_o = batch_stride_o;
+
+        if(bias.has_value())
+        {
+            InitKargsCommonBias(kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
+
+            kargs.batch_stride_bias = std::get<3>(*bias);
+        }
+
+        return kargs;
     }
 
-    return kargs;
-  }
-
-  // initialize kernel arguments for group mode
-  __host__ static constexpr auto MakeKargs(
-      const void* q_ptr,
-      const void* k_ptr,
-      const void* v_ptr,
-      void* o_ptr,
-      const void* seqstart_q_ptr,
-      const void* seqstart_k_ptr,
-      const void* seqlen_k_ptr,
-      ck::index_t hdim_q,
-      ck::index_t hdim_v,
-      float scale,
-      ck::index_t stride_q,
-      ck::index_t stride_k,
-      ck::index_t stride_v,
-      ck::index_t stride_o,
-      ck::index_t nhead_stride_q,
-      ck::index_t nhead_stride_k,
-      ck::index_t nhead_stride_v,
-      ck::index_t nhead_stride_o,
-      std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias =
-          std::nullopt) {
-    KargsGroupMode kargs;
-
-    InitKargsCommon(
-        kargs,
-        q_ptr,
-        k_ptr,
-        v_ptr,
-        o_ptr,
-        -1, // seqlen_q will be updated inside the kernel
-        -1, // seqlen_k will be updated inside the kernel
-        hdim_q,
-        hdim_v,
-        scale,
-        stride_q,
-        stride_k,
-        stride_v,
-        stride_o,
-        nhead_stride_q,
-        nhead_stride_k,
-        nhead_stride_v,
-        nhead_stride_o);
-
-    if (bias.has_value()) {
-      InitKargsCommonBias(
-          kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
+    // initialize kernel arguments for group mode
+    __host__ static constexpr auto
+    MakeKargs(const void* q_ptr,
+              const void* k_ptr,
+              const void* v_ptr,
+              void* o_ptr,
+              const void* seqstart_q_ptr,
+              const void* seqstart_k_ptr,
+              const void* seqlen_k_ptr,
+              ck::index_t hdim_q,
+              ck::index_t hdim_v,
+              float scale,
+              ck::index_t stride_q,
+              ck::index_t stride_k,
+              ck::index_t stride_v,
+              ck::index_t stride_o,
+              ck::index_t nhead_stride_q,
+              ck::index_t nhead_stride_k,
+              ck::index_t nhead_stride_v,
+              ck::index_t nhead_stride_o,
+              std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias = std::nullopt)
+    {
+        KargsGroupMode kargs;
+
+        InitKargsCommon(kargs,
+                        q_ptr,
+                        k_ptr,
+                        v_ptr,
+                        o_ptr,
+                        -1, // seqlen_q will be updated inside the kernel
+                        -1, // seqlen_k will be updated inside the kernel
+                        hdim_q,
+                        hdim_v,
+                        scale,
+                        stride_q,
+                        stride_k,
+                        stride_v,
+                        stride_o,
+                        nhead_stride_q,
+                        nhead_stride_k,
+                        nhead_stride_v,
+                        nhead_stride_o);
+
+        if(bias.has_value())
+        {
+            InitKargsCommonBias(kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
+        }
+
+        kargs.seqstart_q_ptr = reinterpret_cast<const int32_t*>(seqstart_q_ptr);
+        kargs.seqstart_k_ptr = reinterpret_cast<const int32_t*>(seqstart_k_ptr);
+        kargs.seqlen_k_ptr   = reinterpret_cast<const int32_t*>(seqlen_k_ptr);
+
+        return kargs;
     }
 
-    kargs.seqstart_q_ptr = reinterpret_cast<const ck::index_t*>(seqstart_q_ptr);
-    kargs.seqstart_k_ptr = reinterpret_cast<const ck::index_t*>(seqstart_k_ptr);
-    kargs.seqlen_k_ptr = reinterpret_cast<const ck::index_t*>(seqlen_k_ptr);
-
-    return kargs;
-  }
-
-  __host__ static constexpr auto GridSize(
-      ck::index_t batch_size_,
-      ck::index_t nhead_,
-      ck::index_t seqlen_q_,
-      ck::index_t hdim_v_) {
-    return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
-  }
-
-  __host__ static constexpr auto BlockSize() {
-    return dim3(kBlockSize);
-  }
-
-  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
-    return ck::math::max(
-        FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
-  }
-
-  template <typename Kargs>
-  __device__ void operator()(Kargs kargs) const {
-    using namespace ck;
-    using namespace ck::tile_program;
-    using namespace ck::tile_program::block;
-
-    // allocate LDS
-    __shared__ char smem_ptr[GetSmemSize()];
-
-    // divide problem
-    const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
-        TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
-
-    const index_t i_m0 =
-        __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
-    const index_t i_n1 =
-        __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
-
-    index_t batch_offset_q = 0;
-    index_t batch_offset_k = 0;
-    index_t batch_offset_v = 0;
-    index_t batch_offset_bias = 0;
-    index_t batch_offset_o = 0;
-
-    if constexpr (is_same_v<Kargs, KargsBatchMode>) {
-      batch_offset_q = i_batch * kargs.batch_stride_q;
-      batch_offset_k = i_batch * kargs.batch_stride_k;
-      batch_offset_v = i_batch * kargs.batch_stride_v;
-      batch_offset_bias = i_batch * kargs.batch_stride_bias;
-      batch_offset_o = i_batch * kargs.batch_stride_o;
-    } else { // is_same_v<Kargs, KargsGroupMode>
-      // get starting offset for each work batch
-      const index_t query_start = kargs.seqstart_q_ptr[i_batch];
-      const index_t key_start = kargs.seqstart_k_ptr[i_batch];
-
-      batch_offset_q = query_start * kargs.stride_q;
-      batch_offset_k = key_start * kargs.stride_k;
-      batch_offset_v = key_start * kargs.stride_v;
-      batch_offset_bias = query_start * kargs.stride_bias + key_start;
-      batch_offset_o = query_start * kargs.stride_o;
-
-      // get real # queries & # keys under group mode
-      const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
-      kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
-
-      if (kargs.seqlen_k_ptr != nullptr) {
-        kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
-      } else {
-        const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
-        kargs.seqlen_k =
-            adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
-      }
+    __host__ static constexpr auto GridSize(ck::index_t batch_size_,
+                                            ck::index_t nhead_,
+                                            ck::index_t seqlen_q_,
+                                            ck::index_t hdim_v_)
+    {
+        return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
     }
 
-    // for simplicity, batch stride we just modify the pointer
-    const QDataType* q_ptr =
-        kargs.q_ptr + i_nhead * kargs.nhead_stride_q + batch_offset_q;
-    const KDataType* k_ptr =
-        kargs.k_ptr + i_nhead * kargs.nhead_stride_k + batch_offset_k;
-    const VDataType* v_ptr =
-        kargs.v_ptr + i_nhead * kargs.nhead_stride_v + batch_offset_v;
-    const BiasDataType* bias_ptr = nullptr;
-    if (kargs.bias_ptr != nullptr) {
-      bias_ptr = kargs.bias_ptr + i_nhead * kargs.nhead_stride_bias +
-          batch_offset_bias;
+    __host__ static constexpr auto BlockSize() { return dim3(kBlockSize); }
+
+    __host__ __device__ static constexpr ck::index_t GetSmemSize()
+    {
+        return ck::math::max(FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
     }
-    ODataType* o_ptr =
-        kargs.o_ptr + i_nhead * kargs.nhead_stride_o + batch_offset_o;
-
-    // Q/K/V DRAM and DRAM window
-    const auto q_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-        q_ptr,
-        make_tuple(kargs.seqlen_q, kargs.hdim_q),
-        make_tuple(kargs.stride_q, 1),
-        Number<32>{},
-        Number<1>{});
-
-    const auto k_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-        k_ptr,
-        make_tuple(kargs.seqlen_k, kargs.hdim_q),
-        make_tuple(kargs.stride_k, 1),
-        Number<32>{},
-        Number<1>{});
-
-    const auto v_dram = [&]() {
-      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
-        const auto v_dram_tmp =
-            make_naive_tensor_view<AddressSpaceEnum::Global>(
-                v_ptr,
-                make_tuple(kargs.seqlen_k, kargs.hdim_v),
-                make_tuple(kargs.stride_v, 1),
+
+    template <typename Kargs>
+    __device__ void operator()(Kargs kargs) const
+    {
+        using namespace ck;
+        using namespace ck::tile_program;
+        using namespace ck::tile_program::block;
+
+        // allocate LDS
+        __shared__ char smem_ptr[GetSmemSize()];
+
+        // divide problem
+        const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
+            TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
+
+        const index_t i_m0 = __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
+        const index_t i_n1 = __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
+
+        index_t batch_offset_q    = 0;
+        index_t batch_offset_k    = 0;
+        index_t batch_offset_v    = 0;
+        index_t batch_offset_bias = 0;
+        index_t batch_offset_o    = 0;
+
+        if constexpr(ck::is_same_v<Kargs, KargsBatchMode>)
+        {
+            batch_offset_q    = i_batch * kargs.batch_stride_q;
+            batch_offset_k    = i_batch * kargs.batch_stride_k;
+            batch_offset_v    = i_batch * kargs.batch_stride_v;
+            batch_offset_bias = i_batch * kargs.batch_stride_bias;
+            batch_offset_o    = i_batch * kargs.batch_stride_o;
+        }
+        else
+        { // ck::is_same_v<Kargs, KargsGroupMode>
+            // get starting offset for each work batch
+            const index_t query_start = kargs.seqstart_q_ptr[i_batch];
+            const index_t key_start   = kargs.seqstart_k_ptr[i_batch];
+
+            batch_offset_q = query_start * kargs.stride_q;
+            batch_offset_k = key_start * kargs.stride_k;
+            if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
+            {
+                batch_offset_v = key_start * kargs.stride_v;
+            }
+            else
+            {
+                batch_offset_v = key_start;
+            }
+            batch_offset_bias = query_start * kargs.stride_bias + key_start;
+            batch_offset_o    = query_start * kargs.stride_o;
+
+            // get real # queries & # keys under group mode
+            const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
+            kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
+
+            // # of required blocks is different in each groups, terminate unnecessary
+            // blocks earlier
+            if(kargs.seqlen_q <= i_m0)
+            {
+                return;
+            }
+
+            if(kargs.seqlen_k_ptr != nullptr)
+            {
+                kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
+            }
+            else
+            {
+                const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
+                kargs.seqlen_k = adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
+            }
+        }
+
+        // for simplicity, batch stride we just modify the pointer
+        const QDataType* q_ptr = kargs.q_ptr + i_nhead * kargs.nhead_stride_q + batch_offset_q;
+        const KDataType* k_ptr = kargs.k_ptr + i_nhead * kargs.nhead_stride_k + batch_offset_k;
+        const VDataType* v_ptr = kargs.v_ptr + i_nhead * kargs.nhead_stride_v + batch_offset_v;
+        const BiasDataType* bias_ptr = nullptr;
+        if(kargs.bias_ptr != nullptr)
+        {
+            bias_ptr = kargs.bias_ptr + i_nhead * kargs.nhead_stride_bias + batch_offset_bias;
+        }
+        ODataType* o_ptr = kargs.o_ptr + i_nhead * kargs.nhead_stride_o + batch_offset_o;
+
+        // Q/K/V DRAM and DRAM window
+        const auto q_dram = [&]() {
+            const auto q_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                q_ptr,
+                make_tuple(kargs.seqlen_q, kargs.hdim_q),
+                make_tuple(kargs.stride_q, 1),
+                Number<32>{},
+                Number<1>{});
+
+            return pad_tensor_view(q_dram_naive,
+                                   make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
+                                   Sequence<NeedPadding, false>{});
+        }();
+        const auto k_dram = [&]() {
+            const auto k_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                k_ptr,
+                make_tuple(kargs.seqlen_k, kargs.hdim_q),
+                make_tuple(kargs.stride_k, 1),
                 Number<32>{},
                 Number<1>{});
-        return transform_tensor_view(
-            v_dram_tmp,
-            make_tuple(
-                make_pass_through_transform(kargs.hdim_v),
-                make_pass_through_transform(kargs.seqlen_k)),
-            make_tuple(Sequence<1>{}, Sequence<0>{}),
-            make_tuple(Sequence<0>{}, Sequence<1>{}));
-      } else {
-        return make_naive_tensor_view<AddressSpaceEnum::Global>(
-            v_ptr,
-            make_tuple(kargs.hdim_v, kargs.seqlen_k),
-            make_tuple(kargs.stride_v, 1),
-            Number<32>{},
-            Number<1>{});
-      }
-    }();
-
-    auto q_dram_window = make_tile_window(
-        q_dram,
-        [&]() {
-          if constexpr (FmhaPipeline::kQLoadOnce)
-            return make_tuple(
-                Number<FmhaPipeline::kM0>{},
-                Number<FmhaPipeline::kK0BlockLength>{});
-          else
-            return make_tuple(
-                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
-        }(),
-        {i_m0, 0});
-
-    auto k_dram_window = make_tile_window(
-        k_dram,
-        make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
-        {0, 0});
-
-    auto v_dram_window = make_tile_window(
-        v_dram,
-        make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-        {i_n1, 0});
-
-    const auto run_pipeline_with = [&](auto bias_dram_window) {
-      return FmhaPipeline{}(
-          q_dram_window,
-          k_dram_window,
-          v_dram_window,
-          bias_dram_window,
-          kargs.scale,
-          kargs.seqlen_k / FmhaPipeline::kN0,
-          kargs.hdim_q / FmhaPipeline::kK0,
-          smem_ptr);
-    };
 
-    auto o_acc_tile = [&]() {
-      constexpr auto bias_dram_window_lengths =
-          make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
-
-      if (bias_ptr != nullptr) {
-        const auto bias_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-            bias_ptr,
-            make_tuple(kargs.seqlen_q, kargs.seqlen_k),
-            make_tuple(kargs.stride_bias, 1),
-            Number<32>{},
-            Number<1>{});
-
-        auto bias_dram_window =
-            make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
-
-        return run_pipeline_with(bias_dram_window);
-      } else {
-        auto dummy_bias_dram_window =
-            make_null_tile_window(bias_dram_window_lengths);
-
-        return run_pipeline_with(dummy_bias_dram_window);
-      }
-    }();
-
-    // O DRAM and O DRAM window
-    auto o_dram = make_naive_tensor_view<AddressSpaceEnum::Global>(
-        o_ptr,
-        make_tuple(kargs.seqlen_q, kargs.hdim_v),
-        make_tuple(kargs.stride_o, 1),
-        Number<32>{},
-        Number<1>{});
-
-    auto o_dram_window = make_tile_window(
-        o_dram,
-        make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-        {i_m0, i_n1});
-
-    EpiloguePipeline{}(o_dram_window, o_acc_tile);
-  }
+            return pad_tensor_view(k_dram_naive,
+                                   make_tuple(Number<FmhaPipeline::kN0>{}, Number<1>{}),
+                                   Sequence<NeedPadding, false>{});
+        }();
+        const auto v_dram = [&]() {
+            if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
+            {
+                const auto v_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                    v_ptr,
+                    make_tuple(kargs.seqlen_k, kargs.hdim_v),
+                    make_tuple(kargs.stride_v, 1),
+                    Number<32>{},
+                    Number<1>{});
+
+                const auto v_dram_transposed =
+                    transform_tensor_view(v_dram_naive,
+                                          make_tuple(make_pass_through_transform(kargs.seqlen_k),
+                                                     make_pass_through_transform(kargs.hdim_v)),
+                                          make_tuple(Sequence<1>{}, Sequence<0>{}),
+                                          make_tuple(Sequence<0>{}, Sequence<1>{}));
+
+                /// FIXME: The return value of
+                /// v_dram_naive.GetTensorDescriptor().GetLength() is same as
+                ///   v_dram_transposed.GetTensorDescriptor().GetLength(). Replace
+                ///   following if-clause by pad_tensor_view() call after fixing this
+                ///   issue.
+                if constexpr(!NeedPadding)
+                {
+                    return v_dram_transposed;
+                }
+                else
+                {
+                    const index_t pad_length =
+                        FmhaPipeline::kK1 *
+                            ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kK1) -
+                        kargs.seqlen_k;
+
+                    return transform_tensor_view(
+                        v_dram_transposed,
+                        make_tuple(make_pass_through_transform(kargs.hdim_v),
+                                   make_right_pad_transform(kargs.seqlen_k, pad_length)),
+                        make_tuple(Sequence<0>{}, Sequence<1>{}),
+                        make_tuple(Sequence<0>{}, Sequence<1>{}));
+                }
+            }
+            else
+            {
+                const auto v_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                    v_ptr,
+                    make_tuple(kargs.hdim_v, kargs.seqlen_k),
+                    make_tuple(kargs.stride_v, 1),
+                    Number<32>{},
+                    Number<1>{});
+
+                return pad_tensor_view(v_dram_naive,
+                                       make_tuple(Number<1>{}, Number<FmhaPipeline::kK1>{}),
+                                       Sequence<false, NeedPadding>{});
+            }
+        }();
+
+        auto q_dram_window = make_tile_window(
+            q_dram,
+            [&]() {
+                if constexpr(FmhaPipeline::kQLoadOnce)
+                    return make_tuple(Number<FmhaPipeline::kM0>{},
+                                      Number<FmhaPipeline::kK0BlockLength>{});
+                else
+                    return make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
+            }(),
+            {i_m0, 0});
+
+        auto k_dram_window = make_tile_window(
+            k_dram, make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}), {0, 0});
+
+        auto v_dram_window =
+            make_tile_window(v_dram,
+                             make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+                             {i_n1, 0});
+
+        const auto run_pipeline_with = [&](auto bias_dram_window) {
+            const auto s_mask = [&]() {
+                if constexpr(NeedPadding)
+                {
+                    return [&](index_t /* m */, index_t n) {
+                        const bool is_out_of_bound = !(n < kargs.seqlen_k);
+                        return is_out_of_bound;
+                    };
+                }
+                else
+                {
+                    return NullMask{};
+                }
+            }();
+
+            return FmhaPipeline{}(q_dram_window,
+                                  k_dram_window,
+                                  v_dram_window,
+                                  bias_dram_window,
+                                  s_mask,
+                                  kargs.scale,
+                                  ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
+                                  ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
+                                  smem_ptr);
+        };
+
+        auto o_acc_tile = [&]() {
+            constexpr auto bias_dram_window_lengths =
+                make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
+
+            if(bias_ptr != nullptr)
+            {
+                const auto bias_dram = [&]() {
+                    const auto bias_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                        bias_ptr,
+                        make_tuple(kargs.seqlen_q, kargs.seqlen_k),
+                        make_tuple(kargs.stride_bias, 1),
+                        Number<32>{},
+                        Number<1>{});
+
+                    return pad_tensor_view(bias_dram_naive,
+                                           bias_dram_window_lengths,
+                                           Sequence<NeedPadding, NeedPadding>{});
+                }();
+
+                auto bias_dram_window =
+                    make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
+
+                return run_pipeline_with(bias_dram_window);
+            }
+            else
+            {
+                auto dummy_bias_dram_window = make_null_tile_window(bias_dram_window_lengths);
+
+                return run_pipeline_with(dummy_bias_dram_window);
+            }
+        }();
+
+        // O DRAM and O DRAM window
+        auto o_dram = [&]() {
+            const auto o_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                o_ptr,
+                make_tuple(kargs.seqlen_q, kargs.hdim_v),
+                make_tuple(kargs.stride_o, 1),
+                Number<32>{},
+                Number<1>{});
+
+            return pad_tensor_view(o_dram_naive,
+                                   make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
+                                   Sequence<NeedPadding, false>{});
+        }();
+
+        auto o_dram_window =
+            make_tile_window(o_dram,
+                             make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
+                             {i_m0, i_n1});
+
+        EpiloguePipeline{}(o_dram_window, o_acc_tile);
+    }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
index 4073424fc2..2289b09db3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
@@ -1,34 +1,32 @@
 #pragma once
 
+#include "ck/utility/common_header.hpp"
 #include "ck/tile_program/tile/store_tile.hpp"
 #include "ck/tile_program/tile/tile_elementwise.hpp"
-#include "ck/utility/common_header.hpp"
 
 template <typename OaccDataType_, typename ODataType_>
-struct FmhaFwdEpilogueProblem {
-  using OaccDataType = ck::remove_cvref_t<OaccDataType_>;
-  using ODataType = ck::remove_cvref_t<ODataType_>;
+struct FmhaFwdEpilogueProblem
+{
+    using OaccDataType = ck::remove_cvref_t<OaccDataType_>;
+    using ODataType    = ck::remove_cvref_t<ODataType_>;
 };
 
 template <typename Problem_, typename Policy_ = void>
-struct FmhaFwdEpilogue {
-  using Problem = ck::remove_cvref_t<Problem_>;
-  using OaccDataType = ck::remove_cvref_t<typename Problem::OaccDataType>;
-  using ODataType = ck::remove_cvref_t<typename Problem::ODataType>;
+struct FmhaFwdEpilogue
+{
+    using Problem      = ck::remove_cvref_t<Problem_>;
+    using OaccDataType = ck::remove_cvref_t<typename Problem::OaccDataType>;
+    using ODataType    = ck::remove_cvref_t<typename Problem::ODataType>;
 
-  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
-    return 0;
-  }
+    __host__ __device__ static constexpr ck::index_t GetSmemSize() { return 0; }
 
-  template <typename ODramWindowTmp, typename OAccTile>
-  __device__ auto operator()(
-      ODramWindowTmp& o_dram_window_tmp,
-      const OAccTile& o_acc_tile) {
-    using namespace ck;
-    using namespace ck::tile_program;
+    template <typename ODramWindowTmp, typename OAccTile>
+    __device__ auto operator()(ODramWindowTmp& o_dram_window_tmp, const OAccTile& o_acc_tile)
+    {
+        using namespace ck;
+        using namespace ck::tile_program;
 
-    const auto o =
-        tile_elementwise_in(type_convert<ODataType, OaccDataType>, o_acc_tile);
-    store_tile(o_dram_window_tmp, o);
-  }
+        const auto o = tile_elementwise_in(type_convert<ODataType, OaccDataType>, o_acc_tile);
+        store_tile(o_dram_window_tmp, o);
+    }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
index 113037ce3c..5d95c96f7f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
@@ -1,46 +1,51 @@
 #pragma once
 
+#include "ck/utility/common_header.hpp"
 #include "ck/tile_program/tile/store_tile.hpp"
 #include "ck/tile_program/tile/tile_elementwise.hpp"
-#include "ck/utility/common_header.hpp"
 
 template <typename BlockFmhaShape_>
-struct FmhaFwdTilePartitioner {
-  using BlockFmhaShape = ck::remove_cvref_t<BlockFmhaShape_>;
-
-  static constexpr ck::index_t kM0 = BlockFmhaShape::kM0;
-  static constexpr ck::index_t kN0 = BlockFmhaShape::kN0;
-  static constexpr ck::index_t kK0 = BlockFmhaShape::kK0;
-  static constexpr ck::index_t kN1 = BlockFmhaShape::kN1;
-  static constexpr ck::index_t kK1 = BlockFmhaShape::kK1;
-
-  __host__ static constexpr auto GridSize(
-      ck::index_t batch_size_,
-      ck::index_t nhead_,
-      ck::index_t seqlen_q_,
-      ck::index_t hdim_v_) {
-    // TODO: this may need tuning
-    return dim3((seqlen_q_ / kM0) * (hdim_v_ / kN1), batch_size_, nhead_);
-  }
-
-  __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v) {
-    using namespace ck;
-
-    // const index_t num_tile_m0 = seqlen_q / kM0;
-    const index_t num_tile_n1 = hdim_v / kN1;
-
-    const index_t i_block = blockIdx.x;
-    const index_t i_batch = blockIdx.y;
-    const index_t i_nhead = blockIdx.z;
-
-    const auto f = [](index_t dividend, index_t divisor) {
-      index_t quotient = dividend / divisor;
-      index_t modulus = dividend - quotient * divisor;
-      return ck::make_tuple(quotient, modulus);
-    };
-
-    const auto [i_tile_m, i_tile_n] = f(i_block, num_tile_n1);
-
-    return ck::make_tuple(i_tile_m, i_tile_n, i_nhead, i_batch);
-  }
+struct FmhaFwdTilePartitioner
+{
+    using BlockFmhaShape = ck::remove_cvref_t<BlockFmhaShape_>;
+
+    static constexpr ck::index_t kM0 = BlockFmhaShape::kM0;
+    static constexpr ck::index_t kN0 = BlockFmhaShape::kN0;
+    static constexpr ck::index_t kK0 = BlockFmhaShape::kK0;
+    static constexpr ck::index_t kN1 = BlockFmhaShape::kN1;
+    static constexpr ck::index_t kK1 = BlockFmhaShape::kK1;
+
+    __host__ static constexpr auto GridSize(ck::index_t batch_size_,
+                                            ck::index_t nhead_,
+                                            ck::index_t seqlen_q_,
+                                            ck::index_t hdim_v_)
+    {
+        // TODO: this may need tuning
+        return dim3(ck::math::integer_divide_ceil(seqlen_q_, kM0) *
+                        ck::math::integer_divide_ceil(hdim_v_, kN1),
+                    batch_size_,
+                    nhead_);
+    }
+
+    __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v)
+    {
+        using namespace ck;
+
+        // const index_t num_tile_m0 = seqlen_q / kM0;
+        const index_t num_tile_n1 = hdim_v / kN1;
+
+        const index_t i_block = blockIdx.x;
+        const index_t i_batch = blockIdx.y;
+        const index_t i_nhead = blockIdx.z;
+
+        const auto f = [](index_t dividend, index_t divisor) {
+            index_t quotient = dividend / divisor;
+            index_t modulus  = dividend - quotient * divisor;
+            return ck::make_tuple(quotient, modulus);
+        };
+
+        const auto [i_tile_m, i_tile_n] = f(i_block, num_tile_n1);
+
+        return ck::make_tuple(i_tile_m, i_tile_n, i_nhead, i_batch);
+    }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index b58bcfafb3..54a4773586 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -4,12 +4,12 @@
 #include <sstream>
 #include <stdexcept>
 
+#include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
 #include <ck/tensor_description/cluster_descriptor.hpp>
 #include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
+#include <ck/tensor/tensor_view.hpp>
 
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
@@ -26,156 +26,151 @@
 #include "ck_tiled_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type>
-struct grouped_infer_masktype_attnbias_dispatched {
-  using QDataType = scalar_t;
-  using KDataType = scalar_t;
-  using VDataType = scalar_t;
-  using BiasDataType = scalar_t;
-  using SaccDataType = float; // data type for first gemm accumulation
-  using SMPLComputeDataType = float; // data type for reduction, softmax
-  using PDataType = scalar_t; // data type for A matrix of second gemm
-  using OaccDataType = float; // data type for second gemm accumulation
-  using ODataType = scalar_t;
-
-  using VLayout = ck::tensor_layout::gemm::RowMajor;
-
-  using FmhaBlockTileHdim64 = ck::Sequence<128, 64, 32, 64, 32, 64>;
-  using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
-  using FmhaBlockWarps = ck::Sequence<4, 1, 1>;
-  using FmhaWarpTile = ck::Sequence<32, 32, 16>;
-  using FmhaShapeHDim64 = ck::tile_program::TileFmhaShape<
-      FmhaBlockTileHdim64,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      VLayout>;
-  using FmhaShapeHDim128 = ck::tile_program::TileFmhaShape<
-      FmhaBlockTileHdim128,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      FmhaBlockWarps,
-      FmhaWarpTile,
-      VLayout>;
-
-  using FmhaTilePartitionerHDim64 = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
-  using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
-  using FmhaPipelineProblemHDim64 =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          QDataType,
-          KDataType,
-          VDataType,
-          SaccDataType,
-          SMPLComputeDataType,
-          BiasDataType,
-          PDataType,
-          OaccDataType,
-          ODataType,
-          256, // BlockSize
-          FmhaShapeHDim64>;
-  using FmhaPipelineProblemHDim128 =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          QDataType,
-          KDataType,
-          VDataType,
-          SaccDataType,
-          SMPLComputeDataType,
-          BiasDataType,
-          PDataType,
-          OaccDataType,
-          ODataType,
-          256, // BlockSize
-          FmhaShapeHDim128>;
-
-  using FmhaPipelineHDim64 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-      FmhaPipelineProblemHDim64>;
-  using FmhaPipelineHDim128 = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-      FmhaPipelineProblemHDim128>;
-
-  using FmhaEpilogue =
-      FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
-  using FmhaKernelHDim64 = FmhaFwdKernel<
-      FmhaTilePartitionerHDim64,
-      FmhaPipelineHDim64,
-      FmhaEpilogue>;
-  using FmhaKernelHDim128 = FmhaFwdKernel<
-      FmhaTilePartitionerHDim128,
-      FmhaPipelineHDim128,
-      FmhaEpilogue>;
+struct grouped_infer_masktype_attnbias_dispatched
+{
+    using QDataType           = scalar_t;
+    using KDataType           = scalar_t;
+    using VDataType           = scalar_t;
+    using BiasDataType        = scalar_t;
+    using SaccDataType        = float;    // data type for first gemm accumulation
+    using SMPLComputeDataType = float;    // data type for reduction, softmax
+    using PDataType           = scalar_t; // data type for A matrix of second gemm
+    using OaccDataType        = float;    // data type for second gemm accumulation
+    using ODataType           = scalar_t;
+
+    using VLayout = ck::tensor_layout::gemm::RowMajor;
+
+    using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
+    using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
+    using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
+    using FmhaWarpTile         = ck::Sequence<32, 32, 16>;
+    using FmhaShapeHDim64      = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim64,
+                                                            FmhaBlockWarps,
+                                                            FmhaWarpTile,
+                                                            FmhaBlockWarps,
+                                                            FmhaWarpTile,
+                                                            VLayout>;
+    using FmhaShapeHDim128     = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim128,
+                                                             FmhaBlockWarps,
+                                                             FmhaWarpTile,
+                                                             FmhaBlockWarps,
+                                                             FmhaWarpTile,
+                                                             VLayout>;
+
+    using FmhaTilePartitionerHDim64  = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
+    using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
+    using FmhaPipelineProblemHDim64 =
+        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                          KDataType,
+                                                          VDataType,
+                                                          SaccDataType,
+                                                          SMPLComputeDataType,
+                                                          BiasDataType,
+                                                          PDataType,
+                                                          OaccDataType,
+                                                          ODataType,
+                                                          256, // BlockSize
+                                                          FmhaShapeHDim64>;
+    using FmhaPipelineProblemHDim128 =
+        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                          KDataType,
+                                                          VDataType,
+                                                          SaccDataType,
+                                                          SMPLComputeDataType,
+                                                          BiasDataType,
+                                                          PDataType,
+                                                          OaccDataType,
+                                                          ODataType,
+                                                          256, // BlockSize
+                                                          FmhaShapeHDim128>;
+
+    using FmhaPipelineHDim64 =
+        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim64>;
+    using FmhaPipelineHDim128 =
+        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim128>;
+
+    using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
+
+    // ToDo: define NeedPadding according to runtime lengths
+    static constexpr bool NeedPadding = true;
+
+    using FmhaKernelHDim64 =
+        FmhaFwdKernel<FmhaTilePartitionerHDim64, FmhaPipelineHDim64, FmhaEpilogue, NeedPadding>;
+    using FmhaKernelHDim128 =
+        FmhaFwdKernel<FmhaTilePartitionerHDim128, FmhaPipelineHDim128, FmhaEpilogue, NeedPadding>;
 
 #ifndef GROUPED_INFER_HEADDIM_SWITCH
-#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)  \
-  [&] {                                                          \
-    if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64) {             \
-      using FmhaKernel = FmhaKernelHDim64;                       \
-      __VA_ARGS__();                                             \
-    } else if (HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128) {     \
-      using FmhaKernel = FmhaKernelHDim128;                      \
-      __VA_ARGS__();                                             \
-    } else {                                                     \
-      throw std::runtime_error("Head-dim sizes not supported!"); \
-    }                                                            \
-  }()
+#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)        \
+    [&] {                                                              \
+        if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64)                  \
+        {                                                              \
+            using FmhaKernel = FmhaKernelHDim64;                       \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128)            \
+        {                                                              \
+            using FmhaKernel = FmhaKernelHDim128;                      \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else                                                           \
+        {                                                              \
+            throw std::runtime_error("Head-dim sizes not supported!"); \
+        }                                                              \
+    }()
 #endif
 
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    GROUPED_INFER_HEADDIM_SWITCH(
-        param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
-  };
-
-  template <typename FmhaKernel>
-  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
-    dim3 kGridSize = FmhaKernel::GridSize(1, param.Hq, param.M, param.Kv);
-    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-
-    constexpr ck::index_t kWarpPerCu = 8; // 2 warps per SIMD
-    constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
-    constexpr ck::index_t kBlockPerCu = kWarpPerCu / kWarpPerBlock;
-
-    std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias;
-
-    if (param.has_attn_bias) {
-      bias = std::make_tuple(
-          param.attn_bias_ptr,
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[1]);
+    static void Run(GroupedForwardParams& param, hipStream_t stream)
+    {
+        GROUPED_INFER_HEADDIM_SWITCH(
+            param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
     };
 
-    auto kargs = FmhaKernel::MakeKargs(
-        param.q_ptr,
-        param.k_ptr,
-        param.v_ptr,
-        param.out_ptr,
-        param.seqstart_q_dev_ptr,
-        param.seqstart_k_dev_ptr,
-        param.seqlen_k_dev_ptr,
-        param.K, // hdim_q
-        param.Kv, // hdim_v
-        param.scale,
-        param.q_strides[1], // q, k, v, out tensor seq-dim stride
-        param.k_strides[1],
-        param.v_strides[1],
-        param.out_strides[1],
-        param.q_strides[2], // q, k, v, out tensor head-dim stride
-        param.k_strides[2],
-        param.v_strides[2],
-        param.out_strides[2],
-        bias);
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
-  };
+    template <typename FmhaKernel>
+    static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream)
+    {
+        dim3 kGridSize = FmhaKernel::GridSize(param.num_batches, param.Hq, param.M, param.Kv);
+        constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+
+        constexpr ck::index_t kWarpPerCu    = 8; // 2 warps per SIMD
+        constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
+        constexpr ck::index_t kBlockPerCu   = kWarpPerCu / kWarpPerBlock;
+
+        std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias;
+
+        if(param.has_attn_bias)
+        {
+            bias = std::make_tuple(
+                param.attn_bias_ptr, param.attn_bias_strides[2], param.attn_bias_strides[1]);
+        };
+
+        auto kargs =
+            FmhaKernel::MakeKargs(param.q_ptr,
+                                  param.k_ptr,
+                                  param.v_ptr,
+                                  param.out_ptr,
+                                  param.seqstart_q_dev_ptr,
+                                  param.seqstart_k_dev_ptr,
+                                  param.seqlen_k_dev_ptr,
+                                  param.K,  // hdim_q
+                                  param.Kv, // hdim_v
+                                  param.scale,
+                                  param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                                  param.k_strides[1],
+                                  param.v_strides[1],
+                                  param.out_strides[1],
+                                  param.q_strides[2], // q, k, v, out tensor head-dim stride
+                                  param.k_strides[2],
+                                  param.v_strides[2],
+                                  param.out_strides[2],
+                                  bias);
+
+        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
+    };
 };
 
 template <typename scalar_t, int32_t custom_mask_type>
-void run_grouped_infer_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream) {
-  grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(
-      param, stream);
+void run_grouped_infer_masktype_attnbias_dispatched(GroupedForwardParams& param, hipStream_t stream)
+{
+    grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(param, stream);
 };

From dd67c06587292d0dfffc6af26c0d0d5b8fbffafe Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 29 Nov 2023 18:54:47 +0000
Subject: [PATCH 245/837] Add runtime setting for NeedPadding for ck-tiled
 batched infer

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 79 ++++++++-----------
 1 file changed, 35 insertions(+), 44 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 4f8598d7c8..38ab8ad4c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -55,59 +55,19 @@ struct batched_infer_masktype_attnbias_dispatched
                                                              FmhaWarpTile,
                                                              VLayout>;
 
-    using FmhaTilePartitionerHDim64  = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
-    using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
-    using FmhaPipelineProblemHDim64 =
-        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                          KDataType,
-                                                          VDataType,
-                                                          SaccDataType,
-                                                          SMPLComputeDataType,
-                                                          BiasDataType,
-                                                          PDataType,
-                                                          OaccDataType,
-                                                          ODataType,
-                                                          256, // BlockSize
-                                                          FmhaShapeHDim64>;
-    using FmhaPipelineProblemHDim128 =
-        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                          KDataType,
-                                                          VDataType,
-                                                          SaccDataType,
-                                                          SMPLComputeDataType,
-                                                          BiasDataType,
-                                                          PDataType,
-                                                          OaccDataType,
-                                                          ODataType,
-                                                          256, // BlockSize
-                                                          FmhaShapeHDim128>;
-
-    using FmhaPipelineHDim64 =
-        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim64>;
-    using FmhaPipelineHDim128 =
-        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim128>;
-
     using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
 
-    // ToDo: define NeedPadding according to runtime lengths
-    static constexpr bool NeedPadding = true;
-
-    using FmhaKernelHDim64 =
-        FmhaFwdKernel<FmhaTilePartitionerHDim64, FmhaPipelineHDim64, FmhaEpilogue, NeedPadding>;
-    using FmhaKernelHDim128 =
-        FmhaFwdKernel<FmhaTilePartitionerHDim128, FmhaPipelineHDim128, FmhaEpilogue, NeedPadding>;
-
 #ifndef BATCHED_INFER_HEADDIM_SWITCH
 #define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)        \
     [&] {                                                              \
         if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64)                  \
         {                                                              \
-            using FmhaKernel = FmhaKernelHDim64;                       \
+            using FmhaShape = FmhaShapeHDim64;                         \
             __VA_ARGS__();                                             \
         }                                                              \
         else if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128)            \
         {                                                              \
-            using FmhaKernel = FmhaKernelHDim128;                      \
+            using FmhaShape = FmhaShapeHDim128;                        \
             __VA_ARGS__();                                             \
         }                                                              \
         else                                                           \
@@ -119,8 +79,39 @@ struct batched_infer_masktype_attnbias_dispatched
 
     static void Run(BatchedForwardParams& param, hipStream_t stream)
     {
-        BATCHED_INFER_HEADDIM_SWITCH(
-            param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
+        BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+            using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+            using FmhaPipelineProblem =
+                ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                                  KDataType,
+                                                                  VDataType,
+                                                                  SaccDataType,
+                                                                  SMPLComputeDataType,
+                                                                  BiasDataType,
+                                                                  PDataType,
+                                                                  OaccDataType,
+                                                                  ODataType,
+                                                                  256, // BlockSize
+                                                                  FmhaShape>;
+
+            using FmhaPipeline =
+                ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+            if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
+            {
+                constexpr bool NeedPadding = false;
+                using FmhaKernel =
+                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue, NeedPadding>;
+                RunWithKernel<FmhaKernel>(param, stream);
+            }
+            else
+            {
+                constexpr bool NeedPadding = true;
+                using FmhaKernel =
+                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue, NeedPadding>;
+                RunWithKernel<FmhaKernel>(param, stream);
+            }
+        });
     };
 
     template <typename FmhaKernel>

From c3ddb79e89f669b2c77779213907e96eeeb665c6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 29 Nov 2023 19:39:37 +0000
Subject: [PATCH 246/837] Split NeedPadding into MNeedPadding and NNeedPadding

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 44 +++++++++--
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 17 +++--
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 75 ++++++++-----------
 3 files changed, 78 insertions(+), 58 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 38ab8ad4c8..3492f61f35 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -99,18 +99,48 @@ struct batched_infer_masktype_attnbias_dispatched
 
             if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
             {
-                constexpr bool NeedPadding = false;
-                using FmhaKernel =
-                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue, NeedPadding>;
+                constexpr bool MNeedPadding = false;
+                constexpr bool NNeedPadding = false;
+                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
+                                                 FmhaPipeline,
+                                                 FmhaEpilogue,
+                                                 MNeedPadding,
+                                                 NNeedPadding>;
                 RunWithKernel<FmhaKernel>(param, stream);
             }
-            else
+            else if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 != 0)
             {
-                constexpr bool NeedPadding = true;
-                using FmhaKernel =
-                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue, NeedPadding>;
+                constexpr bool MNeedPadding = false;
+                constexpr bool NNeedPadding = true;
+                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
+                                                 FmhaPipeline,
+                                                 FmhaEpilogue,
+                                                 MNeedPadding,
+                                                 NNeedPadding>;
                 RunWithKernel<FmhaKernel>(param, stream);
             }
+            else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 == 0)
+            {
+                constexpr bool MNeedPadding = true;
+                constexpr bool NNeedPadding = false;
+                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
+                                                 FmhaPipeline,
+                                                 FmhaEpilogue,
+                                                 MNeedPadding,
+                                                 NNeedPadding>;
+                RunWithKernel<FmhaKernel>(param, stream);
+            }
+            else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 != 0)
+            {
+                constexpr bool MNeedPadding = true;
+                constexpr bool NNeedPadding = true;
+                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
+                                                 FmhaPipeline,
+                                                 FmhaEpilogue,
+                                                 MNeedPadding,
+                                                 NNeedPadding>;
+                RunWithKernel<FmhaKernel>(param, stream);
+            };
         });
     };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 9759c98324..e2b048546b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -18,7 +18,8 @@
 template <typename TilePartitioner_,
           typename FmhaPipeline_,
           typename EpiloguePipeline_,
-          bool NeedPadding>
+          bool MNeedPadding,
+          bool NNeedPadding>
 struct FmhaFwdKernel
 {
     using TilePartitioner                   = ck::remove_cvref_t<TilePartitioner_>;
@@ -360,7 +361,7 @@ struct FmhaFwdKernel
 
             return pad_tensor_view(q_dram_naive,
                                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
-                                   Sequence<NeedPadding, false>{});
+                                   Sequence<MNeedPadding, false>{});
         }();
         const auto k_dram = [&]() {
             const auto k_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
@@ -372,7 +373,7 @@ struct FmhaFwdKernel
 
             return pad_tensor_view(k_dram_naive,
                                    make_tuple(Number<FmhaPipeline::kN0>{}, Number<1>{}),
-                                   Sequence<NeedPadding, false>{});
+                                   Sequence<NNeedPadding, false>{});
         }();
         const auto v_dram = [&]() {
             if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
@@ -396,7 +397,7 @@ struct FmhaFwdKernel
                 ///   v_dram_transposed.GetTensorDescriptor().GetLength(). Replace
                 ///   following if-clause by pad_tensor_view() call after fixing this
                 ///   issue.
-                if constexpr(!NeedPadding)
+                if constexpr(!NNeedPadding)
                 {
                     return v_dram_transposed;
                 }
@@ -426,7 +427,7 @@ struct FmhaFwdKernel
 
                 return pad_tensor_view(v_dram_naive,
                                        make_tuple(Number<1>{}, Number<FmhaPipeline::kK1>{}),
-                                       Sequence<false, NeedPadding>{});
+                                       Sequence<false, NNeedPadding>{});
             }
         }();
 
@@ -451,7 +452,7 @@ struct FmhaFwdKernel
 
         const auto run_pipeline_with = [&](auto bias_dram_window) {
             const auto s_mask = [&]() {
-                if constexpr(NeedPadding)
+                if constexpr(NNeedPadding)
                 {
                     return [&](index_t /* m */, index_t n) {
                         const bool is_out_of_bound = !(n < kargs.seqlen_k);
@@ -491,7 +492,7 @@ struct FmhaFwdKernel
 
                     return pad_tensor_view(bias_dram_naive,
                                            bias_dram_window_lengths,
-                                           Sequence<NeedPadding, NeedPadding>{});
+                                           Sequence<MNeedPadding, NNeedPadding>{});
                 }();
 
                 auto bias_dram_window =
@@ -518,7 +519,7 @@ struct FmhaFwdKernel
 
             return pad_tensor_view(o_dram_naive,
                                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
-                                   Sequence<NeedPadding, false>{});
+                                   Sequence<MNeedPadding, false>{});
         }();
 
         auto o_dram_window =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 54a4773586..b52086fd7d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -57,59 +57,24 @@ struct grouped_infer_masktype_attnbias_dispatched
                                                              FmhaWarpTile,
                                                              VLayout>;
 
-    using FmhaTilePartitionerHDim64  = FmhaFwdTilePartitioner<FmhaShapeHDim64>;
-    using FmhaTilePartitionerHDim128 = FmhaFwdTilePartitioner<FmhaShapeHDim128>;
-    using FmhaPipelineProblemHDim64 =
-        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                          KDataType,
-                                                          VDataType,
-                                                          SaccDataType,
-                                                          SMPLComputeDataType,
-                                                          BiasDataType,
-                                                          PDataType,
-                                                          OaccDataType,
-                                                          ODataType,
-                                                          256, // BlockSize
-                                                          FmhaShapeHDim64>;
-    using FmhaPipelineProblemHDim128 =
-        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                          KDataType,
-                                                          VDataType,
-                                                          SaccDataType,
-                                                          SMPLComputeDataType,
-                                                          BiasDataType,
-                                                          PDataType,
-                                                          OaccDataType,
-                                                          ODataType,
-                                                          256, // BlockSize
-                                                          FmhaShapeHDim128>;
-
-    using FmhaPipelineHDim64 =
-        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim64>;
-    using FmhaPipelineHDim128 =
-        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblemHDim128>;
-
     using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
 
-    // ToDo: define NeedPadding according to runtime lengths
-    static constexpr bool NeedPadding = true;
-
-    using FmhaKernelHDim64 =
-        FmhaFwdKernel<FmhaTilePartitionerHDim64, FmhaPipelineHDim64, FmhaEpilogue, NeedPadding>;
-    using FmhaKernelHDim128 =
-        FmhaFwdKernel<FmhaTilePartitionerHDim128, FmhaPipelineHDim128, FmhaEpilogue, NeedPadding>;
+    // This is the default setting, the effective setting should be done according to M/N size of
+    // each batch
+    static constexpr bool MNeedPadding = true;
+    static constexpr bool NNeedPadding = true;
 
 #ifndef GROUPED_INFER_HEADDIM_SWITCH
 #define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)        \
     [&] {                                                              \
         if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64)                  \
         {                                                              \
-            using FmhaKernel = FmhaKernelHDim64;                       \
+            using FmhaShape = FmhaShapeHDim64;                         \
             __VA_ARGS__();                                             \
         }                                                              \
         else if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128)            \
         {                                                              \
-            using FmhaKernel = FmhaKernelHDim128;                      \
+            using FmhaShape = FmhaShapeHDim128;                        \
             __VA_ARGS__();                                             \
         }                                                              \
         else                                                           \
@@ -121,8 +86,32 @@ struct grouped_infer_masktype_attnbias_dispatched
 
     static void Run(GroupedForwardParams& param, hipStream_t stream)
     {
-        GROUPED_INFER_HEADDIM_SWITCH(
-            param.K, param.Kv, [&] { RunWithKernel<FmhaKernel>(param, stream); });
+        GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+            using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+            using FmhaPipelineProblem =
+                ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                                  KDataType,
+                                                                  VDataType,
+                                                                  SaccDataType,
+                                                                  SMPLComputeDataType,
+                                                                  BiasDataType,
+                                                                  PDataType,
+                                                                  OaccDataType,
+                                                                  ODataType,
+                                                                  256, // BlockSize
+                                                                  FmhaShape>;
+
+            using FmhaPipeline =
+                ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+            using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner,
+                                             FmhaPipeline,
+                                             FmhaEpilogue,
+                                             MNeedPadding,
+                                             NNeedPadding>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+        });
     };
 
     template <typename FmhaKernel>

From aebe8ea1ee067b28f13761e0b80047e8d537886c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 30 Nov 2023 14:51:49 +0000
Subject: [PATCH 247/837] Add temporary scripts for ck-tiled verification and
 benchmarking

---
 tests/test_forward_ck_tiled.py                | 643 ++++++++++++++++++
 third_party/composable_kernel_tiled           |   2 +-
 .../benchmark_mem_eff_attention_ck_tiled.py   | 315 +++++++++
 ...benchmark_mem_eff_attn_decoder_ck_tiled.py | 206 ++++++
 4 files changed, 1165 insertions(+), 1 deletion(-)
 create mode 100644 tests/test_forward_ck_tiled.py
 create mode 100644 xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
 create mode 100644 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
new file mode 100644
index 0000000000..f295887e94
--- /dev/null
+++ b/tests/test_forward_ck_tiled.py
@@ -0,0 +1,643 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_types = [torch.float16, torch.bfloat16]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
+    fmha.ck.BwOp,
+]
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    for B in op._TEST_BATCH_SIZES:
+        for Mq in [32, 256]:
+            for Mkv in [32, 64, 256, 1024]:
+                for K in op._TEST_K:
+                    shapes.append((B, Mq, Mkv, 1, K, K))
+        Mq = 256
+        Mkv = 128
+        K = 32
+        H = 1
+        # Weird values of parameters
+        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
+            shapes.append((B, M, Mkv, H, K, K))
+            shapes.append((B, Mq, M, H, K, K))
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
+            if _K <= op.SUPPORTED_MAX_K:
+                shapes.append((B, Mq, Mkv, H, _K, _K))
+        # Different value for K / Kv
+        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+            for _K in [32, 36, 64, 256 + 8]:
+                shapes.append((B, Mq, Mkv, H, K, _K))
+                shapes.append((B, Mq, Mkv, H, _K, K))
+        # Exotic sizes
+        for K in op._TEST_K:
+            shapes.append((B, 16, 1024, H, K, K))
+            shapes.append((B, 1024, 16, H, K, K))
+        # Some number of heads
+        for H in [3, 5, 12]:
+            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Filter-out not supported shapes
+    shapes = [
+        shape
+        for shape in shapes
+        if len(
+            op.shape_not_supported_reasons(
+                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
+            )
+        )
+        == 0
+    ]
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        found_count = 0
+        while found_count < 20:
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
+                continue
+            found_count += 1
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def make_id(op, device, dtype, bias_type, *shape):
+    return (
+        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+        f"-{'-'.join([str(s) for s in shape])}"
+    )
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+    return {
+        "argvalues": combination,
+        "ids": [make_id(*c) for c in combination],
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
+)
+
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias, dtype=dtype)
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
+
+    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=dtype,
+            )
+        else:
+            attn_bias_tensor = attn_bias.to(dtype=dtype)
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
+            # make sure it also works if the first columns are partially masked out
+            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        if fmt == "BMK":
+            attn_bias = attn_bias[:, 0]
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
+    tensor_with_grad: Optional[torch.Tensor] = None
+    if isinstance(attn_bias, torch.Tensor):
+        tensor_with_grad = attn_bias
+    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+        tensor_with_grad = attn_bias._bias
+    if tensor_with_grad is not None:
+        grad = tensor_with_grad.grad
+        if clear:
+            tensor_with_grad.grad = None
+        return grad
+    return None
+
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("packed", [False, True])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_forward(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed,
+    fmt,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    if bias_type is not None and bias_type is not type(None):
+        if bias_type is not torch.Tensor and bias_type is not fmha.attn_bias.BlockDiagonalMask:
+            pytest.skip("only three bias types are supported by ck-tiled!")
+
+    if dtype is torch.bfloat16:
+        pytest.skip("bfloat16 is currently not supported by ck-tiled!")
+
+    if not (k == kv and (kv == 64 or kv == 128)):
+        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
+
+    if packed and not (k == kv and q_len == kv_len):
+        pytest.skip(
+            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
+        )
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
+        pytest.skip("BMK incompatible with this bias")
+
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+    )
+
+    if packed:
+        c = torch.stack([query, key, value], 2)
+        if fmt == "BMK":
+            # bm3hk -> 3bhmk -> 3Bmk
+            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
+            query, key, value = c[0], c[1], c[2]
+            # Re-create bias in the right format
+            attn_bias = create_attn_bias(
+                bias_type=bias_type,
+                batch_size=batch_size,
+                num_heads=h,
+                q_len=q_len,
+                kv_len=kv_len,
+                device=device,
+                dtype=dtype,
+                requires_grad=False,
+                fmt=fmt,
+                op=op,
+            )
+        else:
+            # bm3hk -> 3 x bmhk
+            query, key, value = xformers.ops.unbind(c, 2)
+        assert not query.is_contiguous()
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 0a7174ad86..bcd11b3880 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 0a7174ad864cda7f59c1e8f5ccefee3359c88978
+Subproject commit bcd11b3880733d3a5603b04ff8f5e1fa5876293f
diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
new file mode 100644
index 0000000000..a008bc2227
--- /dev/null
+++ b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
@@ -0,0 +1,315 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+import itertools
+import random
+from functools import partial
+
+import torch
+from torch.utils import benchmark
+from xformers.benchmarks.utils import benchmark_main_helper
+
+import xformers.ops
+import xformers.ops.fmha as fmha
+
+torch.backends.cuda.matmul.allow_tf32 = False
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    bias_requires_grad: bool = False,
+):
+    NoneType = type(None)
+    if bias_type is NoneType:
+        return None
+    if bias_type is torch.Tensor:
+        attn_bias = torch.randn((1, 1, q_len, kv_len), device=device, dtype=dtype)
+        return attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return bias_type()
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def ref_attention_bmk(q, k, v, attn_bias=None, p=0.0):
+    if isinstance(attn_bias, xformers.ops.AttentionMask):
+        attn_bias = (
+            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
+            .to(q)
+            .squeeze()
+        )
+    q = q * (1.0 / q.shape[-1] ** 0.5)
+    if attn_bias is None:
+        attn = q @ k.transpose(-2, -1)
+    else:
+        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
+        # but faster, and is what is used in PyTorch now
+        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
+    attn = attn.softmax(-1)
+    if p > 0:
+        attn = torch.nn.functional.dropout(attn, p=p)
+    return attn @ v
+
+
+def ref_attention(q, k, v, attn_bias, p=0.0):
+    assert q.ndim == 4
+    B, M, H, K = q.shape
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, torch.Tensor):
+        attn_bias = attn_bias.reshape(B * H, M, M)
+    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias, p)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+min_run_time = 0.5
+device = torch.device("cuda")
+
+NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
+SHAPES = [
+    # ViT
+    ##(384, 197, 1, 88),
+    ##(384, 197, 1, 80),
+    ##(384, 197, 1, 64),
+    ##(1024, 197, 1, 88),
+    ##(1024, 197, 1, 80),
+    (1024, 197, 1, 64),
+    # ViT-Huge
+    ##(32 * 16, 197, 1, 80),
+    ##(32, 197, 16, 80),
+    ##(32, 197, 16, 64),
+    (32, 197, 16, 128),
+    # ViT-Giant
+    ##(16 * 16, 197, 1, 88),
+    ##(16, 197, 16, 88),
+    (16, 197, 16, 64),
+    (16, 197, 16, 128),
+    # FB models
+    (1024, 82, 8, 64),
+    (150, 256, 16, 64),
+    (64, 256, 12, 64),
+    # Stable diffusion (https://github.com/huggingface/diffusers/pull/532)
+    ##(1, 4096, 16, 40),  # 512x512
+    ##(1, 16384, 16, 40),  # 1024x1024
+    ##(1, 4096, 16, 80),
+    #(1, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
+    # + bs4
+    ##(4, 4096, 16, 40),
+    #(4, 16384, 16, 40),  // disabled on MI250 due to big memory requirement
+    ##(4, 4096, 16, 80),
+    #(4, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
+    # ParlAI model
+    #(256, 4096, 16, 64), // disabled on MI250 due to big memory requirement
+    # Zetta B M H K
+    (8, 2048, 20, 128),
+    # LLaMa 70b - mp=8/16
+    *sorted(itertools.product([1, 2], [2048, 4096, 8192], [4, 8], [128])),
+    *sorted(
+        ##itertools.product([16], [128, 512, 1024], [16], [16, 32, 64, 128, 160, 256])
+        ## disabled K/Kv bigger than 128
+        itertools.product([16], [128, 512, 1024], [16], [64, 128])
+    ),
+]
+
+OPS = [
+    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
+    #(xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
+    # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
+    # and its performance varies a lot between runs.
+    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
+]
+
+
+def product_dict(**kwargs):
+    keys = kwargs.keys()
+    vals = kwargs.values()
+    for instance in itertools.product(*vals):
+        yield dict(zip(keys, instance))
+
+
+CASES = list(
+    product_dict(
+        shape=SHAPES,
+        num_threads=NUM_THREADS,
+        dropout_p=[0.0],
+        attn_bias_cfg=[(type(None), False)],
+        dtype=[torch.half],
+    )
+)
+
+# Add more cases with some variations
+for c in CASES.copy():
+    c = c.copy()
+    c.update(
+        random.Random(str(c["shape"])).choice(
+            [
+                ##{"dropout_p": 0.3},
+                {"attn_bias_cfg": (torch.Tensor, False)},
+                ##{"attn_bias_cfg": (torch.Tensor, True)},
+                ##{"dtype": torch.bfloat16},
+                ##{"dtype": torch.float},
+            ]
+        )
+    )
+    CASES.append(c)
+
+
+def create_tensors(shape, dtype, requires_grad=False):
+    B, M, H, K = shape
+    qkv = torch.rand(
+        [B, M, 3, H, K], device=device, dtype=dtype, requires_grad=requires_grad
+    )
+    q, k, v = xformers.ops.unbind(qkv, 2)
+    return qkv, q, k, v
+
+def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+    B, M, H, K = shape
+    _, q, k, v = create_tensors(shape, dtype)
+    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
+    if attn_bias_requires_grad:
+        return
+    bias = create_attn_bias(
+        attn_bias_type,
+        batch_size=B,
+        num_heads=H,
+        q_len=M,
+        kv_len=M,
+        device=device,
+        dtype=dtype,
+        bias_requires_grad=attn_bias_requires_grad,
+    )
+    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+
+    dtype_str = {
+        torch.bfloat16: "b16",
+        torch.half: "f16",
+        torch.float: "f32",
+    }[dtype]
+    sub_label = (
+        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
+        f"BiasT={attn_bias_type.__name__}"
+    )
+
+    has_run = False
+    for fw_op, bw_op in OPS:
+        if not fw_op.supports(inp):
+            continue
+
+        yield benchmark.Timer(
+            stmt="fn(q, k, v, attn_bias, p)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": inp.attn_bias,
+                "p": dropout_p,
+                "fn": partial(
+                    xformers.ops.memory_efficient_attention, op=(fw_op, bw_op)
+                ),
+            },
+            label=f"attention (attn_bias={attn_bias_type})",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+        has_run = True
+
+    if not has_run:
+        return
+
+    yield benchmark.Timer(
+        stmt="fn(q, k, v, attn_bias, p)",
+        globals={
+            "q": q,
+            "k": k,
+            "v": v,
+            "attn_bias": inp.attn_bias,
+            "p": dropout_p,
+            "fn": ref_attention,
+        },
+        label=f"attention (attn_bias={attn_bias_type})",
+        description="eager",
+        sub_label=sub_label,
+        num_threads=num_threads,
+    )
+
+
+def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+    B, M, H, K = shape
+    _, q, k, v = create_tensors(shape, dtype, requires_grad=True)
+
+    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
+    bias = create_attn_bias(
+        attn_bias_type,
+        batch_size=B,
+        num_heads=H,
+        q_len=M,
+        kv_len=M,
+        device=device,
+        dtype=dtype,
+        bias_requires_grad=attn_bias_requires_grad,
+    )
+    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+
+    dtype_str = {
+        torch.bfloat16: "b16",
+        torch.half: "f16",
+        torch.float: "f32",
+    }[dtype]
+    sub_label = (
+        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
+        f"BiasT={attn_bias_type.__name__}, BiasGrad={attn_bias_requires_grad}"
+    )
+
+    has_run = False
+    for fw_op, bw_op in OPS:
+        if not fw_op.supports(inp) or not bw_op.supports(inp):
+            continue
+        has_run = True
+        out = xformers.ops.memory_efficient_attention(
+            inp.query, inp.key, inp.value, inp.attn_bias, inp.p, op=(fw_op, bw_op)
+        )
+        grad_benchmark = torch.ones_like(q)
+
+        yield benchmark.Timer(
+            stmt="out.backward(grad, retain_graph=True)",
+            globals={
+                "out": out,
+                "grad": grad_benchmark,
+            },
+            label=f"attention backward (attn_bias={attn_bias_type})",
+            description=bw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+        del out
+
+    if not has_run:
+        return
+    yield benchmark.Timer(
+        stmt="out.backward(grad, retain_graph=True)",
+        globals={
+            "out": ref_attention(q, k, v, inp.attn_bias, dropout_p),
+            "grad": grad_benchmark,
+        },
+        label=f"attention backward (attn_bias={attn_bias_type})",
+        description="vanilla",
+        sub_label=sub_label,
+        num_threads=num_threads,
+    )
+
+benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
+##benchmark_main_helper(mem_eff_attention_bw, CASES, min_run_time=min_run_time)
diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
new file mode 100644
index 0000000000..0aea1b7c40
--- /dev/null
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
@@ -0,0 +1,206 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+import itertools
+from functools import partial
+
+import torch
+from torch.utils import benchmark
+from utils import benchmark_main_helper
+
+import xformers.ops
+import xformers.ops.fmha as fmha
+import xformers.profiler.slow_ops_profiler
+
+torch.backends.cuda.matmul.allow_tf32 = False
+
+# Run with
+#  python xformers/benchmarks/benchmark_mem_eff_attn_decoder.py --omit-baselines --quiet
+# The baselines for these benchmarks are really slow because there is
+# so much padding in the inputs, so there is no point running them.
+
+
+def ref_attention_bmk(q, k, v, attn_bias=None):
+    if isinstance(attn_bias, xformers.ops.AttentionMask):
+        attn_bias = (
+            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
+            .to(q)
+            .squeeze()
+        )
+    q = q * (1.0 / q.shape[-1] ** 0.5)
+    if attn_bias is None:
+        attn = q @ k.transpose(-2, -1)
+    else:
+        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
+        # but faster, and is what is used in PyTorch now
+        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
+    attn = attn.softmax(-1)
+    return attn @ v
+
+
+def ref_attention(q, k, v, attn_bias):
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+min_run_time = 0.5
+device = torch.device("cuda")
+
+NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
+
+OPS = [
+    xformers.ops.fmha.ck.FwOp,
+    ##xformers.ops.fmha.ck_decoder.FwOp
+]
+
+KV_SHAPES = [
+    # list of n_keys, padding_length, batchsize
+    (2, 64, 3),
+    (32, 1024, 500),  
+    (1000, 1024, 2),
+    (8000, 8192, 1),
+    (240, 256, 32),
+    (2048, 2 * 1024, 4),
+    (4096 * 2, 8 * 1024, 1),
+]
+
+N_HEADS = [8, 16, 64]
+
+
+def product_dict(**kwargs):
+    keys = kwargs.keys()
+    vals = kwargs.values()
+    for instance in itertools.product(*vals):
+        yield dict(zip(keys, instance))
+
+
+CASES = list(
+    product_dict(
+        kv_shape=KV_SHAPES,
+        n_heads=N_HEADS,
+        num_threads=NUM_THREADS,
+        multiquery=[True, False],
+    )
+)
+
+def get_memory_traffic(op, q, k, v, bias):
+    # mem_size = ( batch_size * seq_len * 1 * dim_per_head * 2 (K/V) + 
+    #              batch_size * 1 * num_heads * dim_per_head (Q) + 
+    #              batch_size * seq_len * num_heads * dim_per_head (attn_output) ) * bytes_per_element
+    out = xformers.ops.memory_efficient_attention_forward(q, k, v, bias, op=op)
+    dtype = q.dtype
+    multiquery = k.stride(2) == 0
+    n_heads = q.shape[-2]
+    dim_per_head = q.shape[-1]
+    kv_seqlen = bias.k_seqinfo.seqlen_py
+    bytes_per_element = 4 if dtype is torch.float32 else 2 if dtype in (torch.float16, torch.bfloat16) else None
+    mem_size = 0
+    mem_size += q.numel() * bytes_per_element # Q
+    for s in kv_seqlen: # len(kv_seqlen) == batch_size
+        mem_size += s * (1 if multiquery else n_heads) * dim_per_head * bytes_per_element * 2 # K, V
+    mem_size += out.numel() * bytes_per_element # attn_output
+    return mem_size
+
+def mem_eff_attention_decoder(
+    kv_shape, n_heads: int, num_threads: int, multiquery: bool
+):
+    n_keys, padding, B = kv_shape
+    torch.manual_seed(42)
+    k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
+    K = 128
+    dtype = torch.float16
+    q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
+    if multiquery:
+        k = torch.rand(
+            1, B * padding, 1, K, device=device, dtype=dtype
+        ).expand(1, B * padding, n_heads, K)
+        v = torch.rand(
+            1, B * padding, 1, K, device=device, dtype=dtype
+        ).expand(1, B * padding, n_heads, K)
+    else:
+        k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
+        v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
+
+    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+        q_seqlen=[1] * B,
+        kv_seqlen=k_seqlen,
+    )
+
+    sub_label = f"{B}batch-{k_seqlen[0]}keys-{n_heads}heads"
+    if multiquery:
+        sub_label += "-mq"
+
+    has_run = False
+
+    for fw_op in OPS:
+        inp = fmha.Inputs(q, k, v, attn_bias=bias)
+        if (skip_reasons := fw_op.not_supported_reasons(inp)):
+            print(f"Skip benchmark: {skip_reasons=}")
+            continue
+
+        fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
+
+        yield benchmark.Timer(
+            stmt=f"fn(q, k, v, attn_bias)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": bias,
+                "fn": fn,
+            },
+            label="attention",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+
+        graph = torch.cuda.CUDAGraph()
+        with torch.cuda.graph(graph):
+            fn(q, k, v, bias)
+        yield benchmark.Timer(
+            stmt="graph.replay()",
+            globals={
+                "graph": graph,
+            },
+            label="cuda graphed attention",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+
+        has_run = True
+
+    if not has_run:
+        return
+
+    RUN_BASELINES = False
+    if RUN_BASELINES:
+        yield benchmark.Timer(
+            stmt="fn(q, k, v, attn_bias)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": bias,
+                "fn": ref_attention,
+            },
+            label="attention",
+            description="eager",
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+
+
+benchmark_main_helper(mem_eff_attention_decoder, CASES, min_run_time=min_run_time)

From 95aed6da9f6f8c81e760ce7fa6790583c5b146c7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 30 Nov 2023 17:20:35 +0000
Subject: [PATCH 248/837] Update to benchmark_mem_eff_attention_ck_tiled.py

---
 xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
index a008bc2227..e9381e88ac 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
@@ -83,14 +83,14 @@ def T(t):
     # ViT
     ##(384, 197, 1, 88),
     ##(384, 197, 1, 80),
-    ##(384, 197, 1, 64),
+    (384, 197, 1, 64),
     ##(1024, 197, 1, 88),
     ##(1024, 197, 1, 80),
     (1024, 197, 1, 64),
     # ViT-Huge
     ##(32 * 16, 197, 1, 80),
     ##(32, 197, 16, 80),
-    ##(32, 197, 16, 64),
+    (32, 197, 16, 64),
     (32, 197, 16, 128),
     # ViT-Giant
     ##(16 * 16, 197, 1, 88),

From 25dbca9da6b2e22e239689634e7c01377bea3664 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 1 Dec 2023 23:54:54 +0000
Subject: [PATCH 249/837] Synchronize with latest feature update from
 feature/fmah-pad-support branch

---
 .gitmodules                                   |   1 +
 third_party/composable_kernel_tiled           |   2 +-
 .../attention_forward_generic_ck_tiled.cpp    | 732 +++++++++---------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 186 +++--
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  63 +-
 .../hip_fmha/ck_tiled_fmha_definitions.h      |  31 +
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 521 ++++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 108 ++-
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  63 +-
 ...led_fmha_batched_infer_fp16_masktype_0.cpp |   7 -
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |   7 +
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   7 +
 ...led_fmha_batched_infer_fp16_masktype_1.cpp |   7 -
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |   7 +
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   7 +
 ...led_fmha_batched_infer_fp16_masktype_2.cpp |   7 -
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |   7 +
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   7 +
 ...led_fmha_grouped_infer_fp16_masktype_0.cpp |   7 -
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |   7 +
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   7 +
 ...led_fmha_grouped_infer_fp16_masktype_1.cpp |   7 -
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |   7 +
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   7 +
 ...led_fmha_grouped_infer_fp16_masktype_2.cpp |   7 -
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |   7 +
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   7 +
 27 files changed, 1070 insertions(+), 763 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp

diff --git a/.gitmodules b/.gitmodules
index bbbf0f1970..bf26780538 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -11,3 +11,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/asroy/ck_tile
+        branch = feature/fmha-pad-support
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index bcd11b3880..08d9e56f2e 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit bcd11b3880733d3a5603b04ff8f5e1fa5876293f
+Subproject commit 08d9e56f2e321016934fb0c44673af4c0754171f
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 8961bb4ead..0c87daa97d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -44,11 +44,10 @@ namespace {
   (Mode BMHK) With all the heads having the same seqlen
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
-efficient_attention_forward_ck(
-    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
-    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
-    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward_ck(
+    const at::Tensor& query,               // [b, seqlen, num_heads_q, K]
+    const at::Tensor& key,                 // [b, seqlen, num_heads_kv, K]
+    const at::Tensor& value,               // [b, seqlen, num_heads_kv, Kv]
     const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
@@ -62,372 +61,381 @@ efficient_attention_forward_ck(
     bool compute_logsumexp,
     int64_t custom_mask_type,
     c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k) {
-  TORCH_CHECK(query.dim() == 4);
-  TORCH_CHECK(key.dim() == 4);
-  TORCH_CHECK(value.dim() == 4);
-
-  // Batch sizes
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // Sequence length
-  TORCH_CHECK(key.size(1) == value.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) % key.size(2) == 0);
-  TORCH_CHECK(key.size(2) == value.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-
-  TORCH_CHECK(query.scalar_type() == key.scalar_type());
-  TORCH_CHECK(query.scalar_type() == value.scalar_type());
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-    TORCH_CHECK(max_seqlen_q_.has_value());
-  };
-
-  // last dim is contiguous, device is kCUDA
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t Hq = query.size(-2);
-  int64_t Hkv = key.size(-2);
-  int64_t K = query.size(-1);
-  int64_t Kv = value.size(-1);
-
-  auto opts = query.options();
-
-  at::Tensor logsumexp;
-
-  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
-
-  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  if (use_dropout) {
-    /*
-    at::PhiloxCudaState rng_engine_inputs;
-    at::CUDAGeneratorImpl* gen =
-        at::get_generator_or_default<at::CUDAGeneratorImpl>(
-            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-    std::lock_guard<std::mutex> lock(gen->mutex_);
-    // if using dropout, we produce 1 random number for each element of the
-    // attention tensor
-    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
-
-    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-    philox_seed = std::get<0>(seeds);
-    philox_offset = std::get<1>(seeds);
-    */
-    throw std::runtime_error(
-        "drop-out is currently not implemented by ck-tiled!");
-  }
-
-  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
+    const c10::optional<at::Tensor>& seqlen_k)
+{
+    TORCH_CHECK(query.dim() == 4);
+    TORCH_CHECK(key.dim() == 4);
+    TORCH_CHECK(value.dim() == 4);
+
+    // Batch sizes
+    TORCH_CHECK(query.size(0) == key.size(0));
+    TORCH_CHECK(query.size(0) == value.size(0));
+
+    // Sequence length
+    TORCH_CHECK(key.size(1) == value.size(1));
+
+    // Num heads
+    TORCH_CHECK(query.size(2) % key.size(2) == 0);
+    TORCH_CHECK(key.size(2) == value.size(2));
+
+    // Embedding per head
+    TORCH_CHECK(query.size(3) == key.size(3));
+
+    TORCH_CHECK(query.scalar_type() == key.scalar_type());
+    TORCH_CHECK(query.scalar_type() == value.scalar_type());
+
+    TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+    if(seqstart_q.has_value())
+    {
+        TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+        TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+        TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
+        TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+        TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+        TORCH_CHECK(max_seqlen_q_.has_value());
+    };
+
+    // last dim is contiguous, device is kCUDA
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+    // at::cuda::CUDAGuard device_guard(query.device());
+    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+    int64_t B   = query.size(0);
+    int64_t M   = query.size(1);
+    int64_t N   = key.size(1);
+    int64_t Hq  = query.size(-2);
+    int64_t Hkv = key.size(-2);
+    int64_t K   = query.size(-1);
+    int64_t Kv  = value.size(-1);
+
+    auto opts = query.options();
+
+    at::Tensor logsumexp;
+
+    at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
 
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(0)),
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.custom_mask_type = custom_mask_type;
-
-    if (p.custom_mask_type != 0)
-      throw std::runtime_error(
-          "causal mask-type is currently not supported by ck-tiled!");
-
-    p.use_dropout = use_dropout;
-    p.philox_seed = philox_seed;
-    p.philox_offset = philox_offset;
-    p.compute_logsumexp = compute_logsumexp;
-
-    // the following parameters are only used by training forward
-    if (p.use_dropout) {
-      // p.dropout_prob = static_cast<float>(dropout_p);
-      throw std::runtime_error(
-          "drop-out is currently not implemented by ck-tiled!");
-    } else
-      p.dropout_prob = 0.0f;
-
-    if (p.compute_logsumexp) {
-      /*
-      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
-      p.logsumexp_ptr = logsumexp.data_ptr();
-      */
-      throw std::runtime_error(
-          "compute logsumexp is currently not implemented by ck-tiled!");
-    } else
-      p.logsumexp_ptr = nullptr;
-  };
-
-  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
+    const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+    int64_t philox_seed;
+    int64_t philox_offset;
+
+    if(use_dropout)
+    {
+        /*
+        at::PhiloxCudaState rng_engine_inputs;
+        at::CUDAGeneratorImpl* gen =
+            at::get_generator_or_default<at::CUDAGeneratorImpl>(
+                c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+        std::lock_guard<std::mutex> lock(gen->mutex_);
+        // if using dropout, we produce 1 random number for each element of the
+        // attention tensor
+        rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
+
+        const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+        philox_seed = std::get<0>(seeds);
+        philox_offset = std::get<1>(seeds);
+        */
+        throw std::runtime_error("drop-out is currently not implemented by ck-tiled!");
     }
 
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.custom_mask_type = custom_mask_type;
-
-    if (p.custom_mask_type != 0)
-      throw std::runtime_error(
-          "causal mask-type is currently not supported by ck-tiled!");
-
-    // max_seqlen_q is used to create logsumexp tensor
-    p.max_seqlen_q = *max_seqlen_q_;
-
-    at::Tensor dev_seqstart_q =
-        at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-    at::Tensor dev_seqstart_k =
-        at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-    at::Tensor dev_seqlen_k;
-
-    p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
-    HIP_CALL_CHECK(hipMemcpyAsync(
-        p.seqstart_q_dev_ptr,
-        seqstart_q->data_ptr(),
-        (p.num_batches + 1) * sizeof(int),
-        hipMemcpyHostToDevice,
-        stream));
-
-    p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
-    HIP_CALL_CHECK(hipMemcpyAsync(
-        p.seqstart_k_dev_ptr,
-        seqstart_k->data_ptr(),
-        (p.num_batches + 1) * sizeof(int),
-        hipMemcpyHostToDevice,
-        stream));
-
-    if (seqlen_k.has_value()) {
-      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-      TORCH_CHECK(seqlen_k->dim() == 1);
-      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
-
-      dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
-
-      p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
-
-      HIP_CALL_CHECK(hipMemcpyAsync(
-          p.seqlen_k_dev_ptr,
-          seqstart_k->data_ptr(),
-          p.num_batches * sizeof(int),
-          hipMemcpyHostToDevice,
-          stream));
-    } else
-      p.seqlen_k_dev_ptr = nullptr;
-
-    p.use_dropout = use_dropout;
-    p.philox_seed = philox_seed;
-    p.philox_offset = philox_offset;
-    p.compute_logsumexp = compute_logsumexp;
-
-    // the following parameters are only used by training forward
-    if (p.use_dropout) {
-      // p.dropout_prob = static_cast<float>(dropout_p);
-      throw std::runtime_error(
-          "drop-out is currently not implemented by ck-tiled!");
-    } else
-      p.dropout_prob = 0.0f;
-
-    if (p.compute_logsumexp) {
-      /*
-      logsumexp = at::empty(
-          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
-      char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-      for (int i = 0; i < p.num_batches; i++) {
-        size_t tmp_logsumexp_offset = get_size_in_bytes(
-            static_cast<size_t>(i) * Hq * p.max_seqlen_q,
-            logsumexp.scalar_type());
-        p.logsumexp_ptrs.push_back(
-            reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-      };
-      */
-      throw std::runtime_error(
-          "compute logsumexp is currently not implemented by ck-tiled!");
+    auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+        p.B   = B;
+        p.M   = M;
+        p.N   = N;
+        p.Hq  = Hq;
+        p.Hkv = Hkv;
+        p.K   = K;
+        p.Kv  = Kv;
+
+        if(scale.has_value())
+        {
+            p.scale = float(*scale);
+        }
+        else
+        {
+            p.scale = float(1.0 / std::sqrt(float(K)));
+        }
+
+        p.q_ptr   = query.data_ptr();
+        p.k_ptr   = key.data_ptr();
+        p.v_ptr   = value.data_ptr();
+        p.out_ptr = out.data_ptr();
+
+        p.q_strides   = {static_cast<int>(query.stride(0)),
+                       static_cast<int>(query.stride(1)),
+                       static_cast<int>(query.stride(2)),
+                       static_cast<int>(query.stride(3))};
+        p.k_strides   = {static_cast<int>(key.stride(0)),
+                       static_cast<int>(key.stride(1)),
+                       static_cast<int>(key.stride(2)),
+                       static_cast<int>(key.stride(3))};
+        p.v_strides   = {static_cast<int>(value.stride(0)),
+                       static_cast<int>(value.stride(1)),
+                       static_cast<int>(value.stride(2)),
+                       static_cast<int>(value.stride(3))};
+        p.out_strides = {static_cast<int>(out.stride(0)),
+                         static_cast<int>(out.stride(1)),
+                         static_cast<int>(out.stride(2)),
+                         static_cast<int>(out.stride(3))};
+
+        if(bias.has_value())
+        {
+            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+            p.has_attn_bias = true;
+            p.attn_bias_ptr = bias->data_ptr();
+
+            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
+                                   static_cast<int>(bias_4d_view.stride(1)),
+                                   static_cast<int>(bias_4d_view.stride(2)),
+                                   static_cast<int>(bias_4d_view.stride(3))};
+        }
+        else
+            p.has_attn_bias = false;
+
+        p.custom_mask_type = custom_mask_type;
+
+        p.use_dropout       = use_dropout;
+        p.philox_seed       = philox_seed;
+        p.philox_offset     = philox_offset;
+        p.compute_logsumexp = compute_logsumexp;
+
+        // the following parameters are only used by training forward
+        if(p.use_dropout)
+        {
+            // p.dropout_prob = static_cast<float>(dropout_p);
+            throw std::runtime_error("drop-out is currently not implemented by ck-tiled!");
+        }
+        else
+            p.dropout_prob = 0.0f;
+
+        if(p.compute_logsumexp)
+        {
+            /*
+            logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
+            p.logsumexp_ptr = logsumexp.data_ptr();
+            */
+            throw std::runtime_error("compute logsumexp is currently not implemented by ck-tiled!");
+        }
+        else
+            p.logsumexp_ptr = nullptr;
     };
-  };
-
-  auto inDataType = query.scalar_type();
-
-  if (!seqstart_q.has_value()) { // input is batched
-    BatchedForwardParams batched_forward_params;
-
-    set_batched_forward_params(batched_forward_params);
-
-    if (!batched_forward_params.use_dropout &&
-        !batched_forward_params.compute_logsumexp) {
-      if (inDataType == at::ScalarType::Half) {
-        batched_infer_fp16(batched_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        // batched_infer_bp16(batched_forward_params, stream);
-        throw std::runtime_error("input data-type is not supported!");
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else {
-      /*
-      if (inDataType == at::ScalarType::Half) {
-        batched_forward_fp16(batched_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_forward_bp16(batched_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-      */
-      throw std::runtime_error(
-          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
+
+    auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+        p.num_batches = seqstart_q->size(0) - 1;
+        p.M           = M;
+        p.N           = N;
+        p.Hq          = Hq;
+        p.Hkv         = Hkv;
+        p.K           = K;
+        p.Kv          = Kv;
+
+        if(scale.has_value())
+        {
+            p.scale = float(*scale);
+        }
+        else
+        {
+            p.scale = float(1.0 / std::sqrt(float(K)));
+        }
+
+        p.q_ptr   = query.data_ptr();
+        p.k_ptr   = key.data_ptr();
+        p.v_ptr   = value.data_ptr();
+        p.out_ptr = out.data_ptr();
+
+        p.q_strides   = {static_cast<int>(query.stride(1)),
+                       static_cast<int>(query.stride(2)),
+                       static_cast<int>(query.stride(3))};
+        p.k_strides   = {static_cast<int>(key.stride(1)),
+                       static_cast<int>(key.stride(2)),
+                       static_cast<int>(key.stride(3))};
+        p.v_strides   = {static_cast<int>(value.stride(1)),
+                       static_cast<int>(value.stride(2)),
+                       static_cast<int>(value.stride(3))};
+        p.out_strides = {static_cast<int>(out.stride(1)),
+                         static_cast<int>(out.stride(2)),
+                         static_cast<int>(out.stride(3))};
+
+        if(bias.has_value())
+        {
+            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+            p.has_attn_bias = true;
+            p.attn_bias_ptr = bias->data_ptr();
+
+            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
+                                   static_cast<int>(bias_4d_view.stride(1)),
+                                   static_cast<int>(bias_4d_view.stride(2)),
+                                   static_cast<int>(bias_4d_view.stride(3))};
+        }
+        else
+            p.has_attn_bias = false;
+
+        p.custom_mask_type = custom_mask_type;
+
+        // max_seqlen_q is used to create logsumexp tensor
+        p.max_seqlen_q = *max_seqlen_q_;
+
+        at::Tensor dev_seqstart_q = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+        at::Tensor dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+        at::Tensor dev_seqlen_k;
+
+        p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
+        HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_q_dev_ptr,
+                                      seqstart_q->data_ptr(),
+                                      (p.num_batches + 1) * sizeof(int),
+                                      hipMemcpyHostToDevice,
+                                      stream));
+
+        p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
+        HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_k_dev_ptr,
+                                      seqstart_k->data_ptr(),
+                                      (p.num_batches + 1) * sizeof(int),
+                                      hipMemcpyHostToDevice,
+                                      stream));
+
+        if(seqlen_k.has_value())
+        {
+            TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+            TORCH_CHECK(seqlen_k->dim() == 1);
+            TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+            CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
+
+            dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
+
+            p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
+
+            HIP_CALL_CHECK(hipMemcpyAsync(p.seqlen_k_dev_ptr,
+                                          seqstart_k->data_ptr(),
+                                          p.num_batches * sizeof(int),
+                                          hipMemcpyHostToDevice,
+                                          stream));
+        }
+        else
+            p.seqlen_k_dev_ptr = nullptr;
+
+        p.use_dropout       = use_dropout;
+        p.philox_seed       = philox_seed;
+        p.philox_offset     = philox_offset;
+        p.compute_logsumexp = compute_logsumexp;
+
+        // the following parameters are only used by training forward
+        if(p.use_dropout)
+        {
+            // p.dropout_prob = static_cast<float>(dropout_p);
+            throw std::runtime_error("drop-out is currently not implemented by ck-tiled!");
+        }
+        else
+            p.dropout_prob = 0.0f;
+
+        if(p.compute_logsumexp)
+        {
+            /*
+            logsumexp = at::empty(
+                {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+            char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+
+            for (int i = 0; i < p.num_batches; i++) {
+              size_t tmp_logsumexp_offset = get_size_in_bytes(
+                  static_cast<size_t>(i) * Hq * p.max_seqlen_q,
+                  logsumexp.scalar_type());
+              p.logsumexp_ptrs.push_back(
+                  reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+            };
+            */
+            throw std::runtime_error("compute logsumexp is currently not implemented by ck-tiled!");
+        };
     };
-  } else { // input is grouped
-    GroupedForwardParams grouped_forward_params;
-
-    set_grouped_forward_params(grouped_forward_params);
-
-    if (!grouped_forward_params.use_dropout &&
-        !grouped_forward_params.compute_logsumexp) {
-      if (inDataType == at::ScalarType::Half) {
-        grouped_infer_fp16(grouped_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        // grouped_infer_bp16(grouped_forward_params, stream);
-        throw std::runtime_error("input data-type is not supported!");
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else {
-      /*
-      if (inDataType == at::ScalarType::Half) {
-        grouped_forward_fp16(grouped_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_forward_bp16(grouped_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-      */
-      throw std::runtime_error(
-          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
+
+    auto inDataType = query.scalar_type();
+
+    if(!seqstart_q.has_value())
+    { // input is batched
+        BatchedForwardParams batched_forward_params;
+
+        set_batched_forward_params(batched_forward_params);
+
+        if(!batched_forward_params.use_dropout && !batched_forward_params.compute_logsumexp)
+        {
+            if(inDataType == at::ScalarType::Half)
+            {
+                batched_infer_fp16(batched_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                // batched_infer_bp16(batched_forward_params, stream);
+                throw std::runtime_error("input data-type is not supported!");
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+        }
+        else
+        {
+            /*
+            if (inDataType == at::ScalarType::Half) {
+              batched_forward_fp16(batched_forward_params, stream);
+            } else if (inDataType == at::ScalarType::BFloat16) {
+              batched_forward_bp16(batched_forward_params, stream);
+            } else
+              throw std::runtime_error("input data-type is not supported!");
+            */
+            throw std::runtime_error(
+                "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
+        };
+    }
+    else
+    { // input is grouped
+        GroupedForwardParams grouped_forward_params;
+
+        set_grouped_forward_params(grouped_forward_params);
+
+        if(!grouped_forward_params.use_dropout && !grouped_forward_params.compute_logsumexp)
+        {
+            if(inDataType == at::ScalarType::Half)
+            {
+                grouped_infer_fp16(grouped_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                // grouped_infer_bp16(grouped_forward_params, stream);
+                throw std::runtime_error("input data-type is not supported!");
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+        }
+        else
+        {
+            /*
+            if (inDataType == at::ScalarType::Half) {
+              grouped_forward_fp16(grouped_forward_params, stream);
+            } else if (inDataType == at::ScalarType::BFloat16) {
+              grouped_forward_bp16(grouped_forward_params, stream);
+            } else
+              throw std::runtime_error("input data-type is not supported!");
+            */
+            throw std::runtime_error(
+                "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
+        };
     };
-  };
 
-  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
-      TORCH_FN(efficient_attention_forward_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m)
+{
+    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
+           TORCH_FN(efficient_attention_forward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 3492f61f35..5fd39201ea 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -22,8 +22,9 @@
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
+#include "ck_tiled_fmha_definitions.h"
 
-template <typename scalar_t, int32_t custom_mask_type>
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 struct batched_infer_masktype_attnbias_dispatched
 {
     using QDataType           = scalar_t;
@@ -38,6 +39,9 @@ struct batched_infer_masktype_attnbias_dispatched
 
     using VLayout = ck::tensor_layout::gemm::RowMajor;
 
+    static constexpr auto masktype = static_cast<CausalMaskType>(custom_mask_type);
+    using FmhaCausalMask           = typename CausalMaskPredicate<masktype>::predicate;
+
     using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
     using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
     using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
@@ -77,68 +81,64 @@ struct batched_infer_masktype_attnbias_dispatched
     }()
 #endif
 
+    template <bool kM0NeedPadding, bool kN0K1NeedPadding, typename FmhaShape>
+    using FmhaPipelineProblemTemp =
+        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                          KDataType,
+                                                          VDataType,
+                                                          SaccDataType,
+                                                          SMPLComputeDataType,
+                                                          BiasDataType,
+                                                          PDataType,
+                                                          OaccDataType,
+                                                          ODataType,
+                                                          256, // BlockSize
+                                                          FmhaShape,
+                                                          false, // kIsGroupMode
+                                                          kM0NeedPadding,
+                                                          kN0K1NeedPadding,
+                                                          has_attn_bias,
+                                                          FmhaCausalMask>;
+
     static void Run(BatchedForwardParams& param, hipStream_t stream)
     {
         BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
             using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-            using FmhaPipelineProblem =
-                ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                                  KDataType,
-                                                                  VDataType,
-                                                                  SaccDataType,
-                                                                  SMPLComputeDataType,
-                                                                  BiasDataType,
-                                                                  PDataType,
-                                                                  OaccDataType,
-                                                                  ODataType,
-                                                                  256, // BlockSize
-                                                                  FmhaShape>;
-
-            using FmhaPipeline =
-                ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
 
             if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
             {
-                constexpr bool MNeedPadding = false;
-                constexpr bool NNeedPadding = false;
-                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
-                                                 FmhaPipeline,
-                                                 FmhaEpilogue,
-                                                 MNeedPadding,
-                                                 NNeedPadding>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<false, false, FmhaShape>;
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
                 RunWithKernel<FmhaKernel>(param, stream);
             }
             else if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 != 0)
             {
-                constexpr bool MNeedPadding = false;
-                constexpr bool NNeedPadding = true;
-                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
-                                                 FmhaPipeline,
-                                                 FmhaEpilogue,
-                                                 MNeedPadding,
-                                                 NNeedPadding>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<false, true, FmhaShape>;
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
                 RunWithKernel<FmhaKernel>(param, stream);
             }
             else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 == 0)
             {
-                constexpr bool MNeedPadding = true;
-                constexpr bool NNeedPadding = false;
-                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
-                                                 FmhaPipeline,
-                                                 FmhaEpilogue,
-                                                 MNeedPadding,
-                                                 NNeedPadding>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<true, false, FmhaShape>;
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
                 RunWithKernel<FmhaKernel>(param, stream);
             }
             else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 != 0)
             {
-                constexpr bool MNeedPadding = true;
-                constexpr bool NNeedPadding = true;
-                using FmhaKernel            = FmhaFwdKernel<FmhaTilePartitioner,
-                                                 FmhaPipeline,
-                                                 FmhaEpilogue,
-                                                 MNeedPadding,
-                                                 NNeedPadding>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<true, true, FmhaShape>;
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
                 RunWithKernel<FmhaKernel>(param, stream);
             };
         });
@@ -147,6 +147,67 @@ struct batched_infer_masktype_attnbias_dispatched
     template <typename FmhaKernel>
     static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream)
     {
+        const auto kargs = [&] {
+            if constexpr(FmhaKernel::kSupportsBias)
+            {
+                std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias;
+
+                bias = std::make_tuple(param.attn_bias_ptr,
+                                       param.attn_bias_strides[2],
+                                       param.attn_bias_strides[1],
+                                       param.attn_bias_strides[0]);
+
+                return FmhaKernel::MakeKargs(
+                    param.q_ptr,
+                    param.k_ptr,
+                    param.v_ptr,
+                    param.out_ptr,
+                    param.M,  // seqlen_q
+                    param.N,  // seqlen_k
+                    param.K,  // hdim_q
+                    param.Kv, // hdim_v
+                    param.scale,
+                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                    param.k_strides[1],
+                    param.v_strides[1],
+                    param.out_strides[1],
+                    param.q_strides[2], // q, k, v, out tensor head-dim stride
+                    param.k_strides[2],
+                    param.v_strides[2],
+                    param.out_strides[2],
+                    param.q_strides[0], // q, k, v, out tensor batch-dim stride
+                    param.k_strides[0],
+                    param.v_strides[0],
+                    param.out_strides[0],
+                    bias);
+            }
+            else
+            {
+                return FmhaKernel::MakeKargs(
+                    param.q_ptr,
+                    param.k_ptr,
+                    param.v_ptr,
+                    param.out_ptr,
+                    param.M,  // seqlen_q
+                    param.N,  // seqlen_k
+                    param.K,  // hdim_q
+                    param.Kv, // hdim_v
+                    param.scale,
+                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                    param.k_strides[1],
+                    param.v_strides[1],
+                    param.out_strides[1],
+                    param.q_strides[2], // q, k, v, out tensor head-dim stride
+                    param.k_strides[2],
+                    param.v_strides[2],
+                    param.out_strides[2],
+                    param.q_strides[0], // q, k, v, out tensor batch-dim stride
+                    param.k_strides[0],
+                    param.v_strides[0],
+                    param.out_strides[0]);
+            };
+        }();
+
         dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
         constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
 
@@ -154,45 +215,14 @@ struct batched_infer_masktype_attnbias_dispatched
         constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
         constexpr ck::index_t kBlockPerCu   = kWarpPerCu / kWarpPerBlock;
 
-        std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias;
-
-        if(param.has_attn_bias)
-            bias = std::make_tuple(param.attn_bias_ptr,
-                                   param.attn_bias_strides[2],
-                                   param.attn_bias_strides[1],
-                                   param.attn_bias_strides[0]);
-
-        auto kargs =
-            FmhaKernel::MakeKargs(param.q_ptr,
-                                  param.k_ptr,
-                                  param.v_ptr,
-                                  param.out_ptr,
-                                  param.M,  // seqlen_q
-                                  param.N,  // seqlen_k
-                                  param.K,  // hdim_q
-                                  param.Kv, // hdim_v
-                                  param.scale,
-                                  param.q_strides[1], // q, k, v, out tensor seq-dim stride
-                                  param.k_strides[1],
-                                  param.v_strides[1],
-                                  param.out_strides[1],
-                                  param.q_strides[2], // q, k, v, out tensor head-dim stride
-                                  param.k_strides[2],
-                                  param.v_strides[2],
-                                  param.out_strides[2],
-                                  param.q_strides[0], // q, k, v, out tensor batch-dim stride
-                                  param.k_strides[0],
-                                  param.v_strides[0],
-                                  param.out_strides[0],
-                                  bias);
-
         (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
             StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
     };
 };
 
-template <typename scalar_t, int32_t custom_mask_type>
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void run_batched_infer_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
 {
-    batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(param, stream);
+    batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+        param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index bb4fa6d913..6dc443a7f1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -5,28 +5,43 @@
 #include "ck_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
-        param, stream);
-  else if (param.custom_mask_type == 1)
-    run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
-        param, stream);
-  else if (param.custom_mask_type == 2)
-    run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
-        param, stream);
-  else
-    throw std::runtime_error("Invalid custom_mask_type value");
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 1)
+            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 2)
+            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
new file mode 100644
index 0000000000..b4cbdbce23
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -0,0 +1,31 @@
+#pragma once
+
+#include <ck/tile_program/block_tile/block_masking_specialization.hpp>
+
+enum struct CausalMaskType
+{
+    MaskDisabled,
+    MaskUpperTriangleFromTopLeft,
+    MaskUpperTriangleFromBottomRight
+};
+
+template <CausalMaskType type>
+struct CausalMaskPredicate;
+
+template <>
+struct CausalMaskPredicate<CausalMaskType::MaskDisabled>
+{
+    using predicate = ck::tile_program::block::MaskDisabledPredicate;
+};
+
+template <>
+struct CausalMaskPredicate<CausalMaskType::MaskUpperTriangleFromTopLeft>
+{
+    using predicate = ck::tile_program::block::MaskUpperTriangleFromTopLeftPredicate;
+};
+
+template <>
+struct CausalMaskPredicate<CausalMaskType::MaskUpperTriangleFromBottomRight>
+{
+    using predicate = ck::tile_program::block::MaskUpperTriangleFromBottomRightPredicate;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index e2b048546b..169458efe8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -3,9 +3,9 @@
 #include <optional>
 #include <type_traits>
 
+#include "ck/utility/common_header.hpp"
 #include "ck/tensor/tensor_view.hpp"
 #include "ck/tile_program/tile/tile_window.hpp"
-#include "ck/utility/common_header.hpp"
 
 // S[seqlen_q, seqlen_k] = Q[seqlen_q, hdim_q] * K[seqlen_k, hdim_q]
 // S'[seqlen_q, seqlen_k] = S[seqlen_q, seqlen_k] * Scale[1]
@@ -15,11 +15,7 @@
 
 #define C_LOG2E 1.44269504088896340736 // log2(e)
 
-template <typename TilePartitioner_,
-          typename FmhaPipeline_,
-          typename EpiloguePipeline_,
-          bool MNeedPadding,
-          bool NNeedPadding>
+template <typename TilePartitioner_, typename FmhaPipeline_, typename EpiloguePipeline_>
 struct FmhaFwdKernel
 {
     using TilePartitioner                   = ck::remove_cvref_t<TilePartitioner_>;
@@ -35,8 +31,58 @@ struct FmhaFwdKernel
 
     using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
 
-    struct KargsCommon
+    static constexpr bool kIsGroupMode     = FmhaPipeline::kIsGroupMode;
+    static constexpr bool kM0NeedPadding   = FmhaPipeline::kM0NeedPadding;
+    static constexpr bool kN0K1NeedPadding = FmhaPipeline::kN0K1NeedPadding;
+    static constexpr bool kSupportsBias    = FmhaPipeline::kSupportsBias;
+
+    using C0MatrixMask = ck::tile_program::block::C0MatrixMask_impl<
+        ck::remove_cvref_t<typename FmhaPipeline::BlockFmhaMask>>;
+
+    private:
+    struct EmptyKargs
     {
+    };
+
+    struct CommonKargs
+    {
+        __host__ constexpr CommonKargs(const void* q_ptr_,
+                                       const void* k_ptr_,
+                                       const void* v_ptr_,
+                                       void* o_ptr_,
+                                       ck::index_t seqlen_q_,
+                                       ck::index_t seqlen_k_,
+                                       ck::index_t hdim_q_,
+                                       ck::index_t hdim_v_,
+                                       float scale_,
+                                       ck::index_t stride_q_,
+                                       ck::index_t stride_k_,
+                                       ck::index_t stride_v_,
+                                       ck::index_t stride_o_,
+                                       ck::index_t nhead_stride_q_,
+                                       ck::index_t nhead_stride_k_,
+                                       ck::index_t nhead_stride_v_,
+                                       ck::index_t nhead_stride_o_)
+            : q_ptr{reinterpret_cast<const QDataType*>(q_ptr_)},
+              k_ptr{reinterpret_cast<const KDataType*>(k_ptr_)},
+              v_ptr{reinterpret_cast<const VDataType*>(v_ptr_)},
+              o_ptr{reinterpret_cast<ODataType*>(o_ptr_)},
+              seqlen_q{seqlen_q_},
+              seqlen_k{seqlen_k_},
+              hdim_q{hdim_q_},
+              hdim_v{hdim_v_},
+              scale{scale_},
+              stride_q{stride_q_},
+              stride_k{stride_k_},
+              stride_v{stride_v_},
+              stride_o{stride_o_},
+              nhead_stride_q{nhead_stride_q_},
+              nhead_stride_k{nhead_stride_k_},
+              nhead_stride_v{nhead_stride_v_},
+              nhead_stride_o{nhead_stride_o_}
+        {
+        }
+
         const QDataType* q_ptr;
         const KDataType* k_ptr;
         const VDataType* v_ptr;
@@ -58,85 +104,158 @@ struct FmhaFwdKernel
         ck::index_t nhead_stride_k;
         ck::index_t nhead_stride_v;
         ck::index_t nhead_stride_o;
+    };
 
-        // following attributes are optional
+    struct CommonBiasKargs
+    {
         const BiasDataType* bias_ptr  = nullptr;
         ck::index_t stride_bias       = 0;
         ck::index_t nhead_stride_bias = 0;
     };
 
-    struct KargsBatchMode : KargsCommon
+    struct BatchModeBiasKargs : CommonBiasKargs
     {
+        ck::index_t batch_stride_bias = 0;
+    };
+
+    struct BatchModeKargs : CommonKargs,
+                            std::conditional_t<kSupportsBias, BatchModeBiasKargs, EmptyKargs>
+    {
+        __host__ constexpr BatchModeKargs(const void* q_ptr_,
+                                          const void* k_ptr_,
+                                          const void* v_ptr_,
+                                          void* o_ptr_,
+                                          ck::index_t seqlen_q_,
+                                          ck::index_t seqlen_k_,
+                                          ck::index_t hdim_q_,
+                                          ck::index_t hdim_v_,
+                                          float scale_,
+                                          ck::index_t stride_q_,
+                                          ck::index_t stride_k_,
+                                          ck::index_t stride_v_,
+                                          ck::index_t stride_o_,
+                                          ck::index_t nhead_stride_q_,
+                                          ck::index_t nhead_stride_k_,
+                                          ck::index_t nhead_stride_v_,
+                                          ck::index_t nhead_stride_o_,
+                                          ck::index_t batch_stride_q_,
+                                          ck::index_t batch_stride_k_,
+                                          ck::index_t batch_stride_v_,
+                                          ck::index_t batch_stride_o_)
+            : CommonKargs{q_ptr_,
+                          k_ptr_,
+                          v_ptr_,
+                          o_ptr_,
+                          seqlen_q_,
+                          seqlen_k_,
+                          hdim_q_,
+                          hdim_v_,
+                          scale_,
+                          stride_q_,
+                          stride_k_,
+                          stride_v_,
+                          stride_o_,
+                          nhead_stride_q_,
+                          nhead_stride_k_,
+                          nhead_stride_v_,
+                          nhead_stride_o_},
+              batch_stride_q{batch_stride_q_},
+              batch_stride_k{batch_stride_k_},
+              batch_stride_v{batch_stride_v_},
+              batch_stride_o{batch_stride_o_}
+        {
+        }
+
         ck::index_t batch_stride_q;
         ck::index_t batch_stride_k;
         ck::index_t batch_stride_v;
         ck::index_t batch_stride_o;
-
-        // following attributes are optional
-        ck::index_t batch_stride_bias = 0;
     };
 
-    struct KargsGroupMode : KargsCommon
+    struct GroupModeKargs : CommonKargs,
+                            std::conditional_t<kSupportsBias, CommonBiasKargs, EmptyKargs>
     {
+        __host__ constexpr GroupModeKargs(const void* q_ptr_,
+                                          const void* k_ptr_,
+                                          const void* v_ptr_,
+                                          void* o_ptr_,
+                                          const void* seqstart_q_ptr_,
+                                          const void* seqstart_k_ptr_,
+                                          const void* seqlen_k_ptr_,
+                                          ck::index_t hdim_q_,
+                                          ck::index_t hdim_v_,
+                                          float scale_,
+                                          ck::index_t stride_q_,
+                                          ck::index_t stride_k_,
+                                          ck::index_t stride_v_,
+                                          ck::index_t stride_o_,
+                                          ck::index_t nhead_stride_q_,
+                                          ck::index_t nhead_stride_k_,
+                                          ck::index_t nhead_stride_v_,
+                                          ck::index_t nhead_stride_o_)
+            : CommonKargs{q_ptr_,
+                          k_ptr_,
+                          v_ptr_,
+                          o_ptr_,
+                          -1 /* will be updated inside the kernel */,
+                          -1 /* will be updated inside the kernel */,
+                          hdim_q_,
+                          hdim_v_,
+                          scale_,
+                          stride_q_,
+                          stride_k_,
+                          stride_v_,
+                          stride_o_,
+                          nhead_stride_q_,
+                          nhead_stride_k_,
+                          nhead_stride_v_,
+                          nhead_stride_o_},
+              seqstart_q_ptr{reinterpret_cast<const int32_t*>(seqstart_q_ptr_)},
+              seqstart_k_ptr{reinterpret_cast<const int32_t*>(seqstart_k_ptr_)},
+              seqlen_k_ptr{reinterpret_cast<const int32_t*>(seqlen_k_ptr_)}
+        {
+        }
+
         const int32_t* seqstart_q_ptr;
         const int32_t* seqstart_k_ptr;
         const int32_t* seqlen_k_ptr;
     };
 
-    __host__ static constexpr void InitKargsCommon(KargsCommon& kargs,
-                                                   const void* q_ptr,
-                                                   const void* k_ptr,
-                                                   const void* v_ptr,
-                                                   void* o_ptr,
-                                                   ck::index_t seqlen_q,
-                                                   ck::index_t seqlen_k,
-                                                   ck::index_t hdim_q,
-                                                   ck::index_t hdim_v,
-                                                   float scale,
-                                                   ck::index_t stride_q,
-                                                   ck::index_t stride_k,
-                                                   ck::index_t stride_v,
-                                                   ck::index_t stride_o,
-                                                   ck::index_t nhead_stride_q,
-                                                   ck::index_t nhead_stride_k,
-                                                   ck::index_t nhead_stride_v,
-                                                   ck::index_t nhead_stride_o)
-    {
-        kargs.q_ptr = reinterpret_cast<const QDataType*>(q_ptr);
-        kargs.k_ptr = reinterpret_cast<const KDataType*>(k_ptr);
-        kargs.v_ptr = reinterpret_cast<const VDataType*>(v_ptr);
-        kargs.o_ptr = reinterpret_cast<ODataType*>(o_ptr);
-
-        kargs.seqlen_q = seqlen_q;
-        kargs.seqlen_k = seqlen_k;
-        kargs.hdim_q   = hdim_q;
-        kargs.hdim_v   = hdim_v;
-
-        kargs.scale = scale;
-
-        kargs.stride_q = stride_q;
-        kargs.stride_k = stride_k;
-        kargs.stride_v = stride_v;
-        kargs.stride_o = stride_o;
-
-        kargs.nhead_stride_q = nhead_stride_q;
-        kargs.nhead_stride_k = nhead_stride_k;
-        kargs.nhead_stride_v = nhead_stride_v;
-        kargs.nhead_stride_o = nhead_stride_o;
-    }
-
-    __host__ static constexpr void InitKargsCommonBias(KargsCommon& kargs,
-                                                       const void* bias_ptr,
-                                                       ck::index_t stride_bias,
-                                                       ck::index_t nhead_stride_bias)
+    public:
+    using Kargs = std::conditional_t<kIsGroupMode, GroupModeKargs, BatchModeKargs>;
+
+    template <bool Cond = !kIsGroupMode && !kSupportsBias>
+    __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
+                                                                      const void* k_ptr,
+                                                                      const void* v_ptr,
+                                                                      void* o_ptr,
+                                                                      ck::index_t seqlen_q,
+                                                                      ck::index_t seqlen_k,
+                                                                      ck::index_t hdim_q,
+                                                                      ck::index_t hdim_v,
+                                                                      float scale,
+                                                                      ck::index_t stride_q,
+                                                                      ck::index_t stride_k,
+                                                                      ck::index_t stride_v,
+                                                                      ck::index_t stride_o,
+                                                                      ck::index_t nhead_stride_q,
+                                                                      ck::index_t nhead_stride_k,
+                                                                      ck::index_t nhead_stride_v,
+                                                                      ck::index_t nhead_stride_o,
+                                                                      ck::index_t batch_stride_q,
+                                                                      ck::index_t batch_stride_k,
+                                                                      ck::index_t batch_stride_v,
+                                                                      ck::index_t batch_stride_o)
     {
-        kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(bias_ptr);
-        kargs.stride_bias       = stride_bias;
-        kargs.nhead_stride_bias = nhead_stride_bias;
+        return Kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
+                     seqlen_k,       hdim_q,         hdim_v,         scale,          stride_q,
+                     stride_k,       stride_v,       stride_o,       nhead_stride_q, nhead_stride_k,
+                     nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k, batch_stride_v,
+                     batch_stride_o};
     }
 
-    // initialize kernel arguments for batch mode
-    __host__ static constexpr auto
+    template <bool Cond = !kIsGroupMode && kSupportsBias>
+    __host__ static constexpr std::enable_if_t<Cond, Kargs>
     MakeKargs(const void* q_ptr,
               const void* k_ptr,
               const void* v_ptr,
@@ -161,44 +280,65 @@ struct FmhaFwdKernel
               std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias =
                   std::nullopt)
     {
-        KargsBatchMode kargs;
-
-        InitKargsCommon(kargs,
-                        q_ptr,
-                        k_ptr,
-                        v_ptr,
-                        o_ptr,
-                        seqlen_q,
-                        seqlen_k,
-                        hdim_q,
-                        hdim_v,
-                        scale,
-                        stride_q,
-                        stride_k,
-                        stride_v,
-                        stride_o,
-                        nhead_stride_q,
-                        nhead_stride_k,
-                        nhead_stride_v,
-                        nhead_stride_o);
-
-        kargs.batch_stride_q = batch_stride_q;
-        kargs.batch_stride_k = batch_stride_k;
-        kargs.batch_stride_v = batch_stride_v;
-        kargs.batch_stride_o = batch_stride_o;
+        Kargs kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
+                    seqlen_k,       hdim_q,         hdim_v,         scale,          stride_q,
+                    stride_k,       stride_v,       stride_o,       nhead_stride_q, nhead_stride_k,
+                    nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k, batch_stride_v,
+                    batch_stride_o};
 
         if(bias.has_value())
         {
-            InitKargsCommonBias(kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
-
+            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(std::get<0>(*bias));
+            kargs.stride_bias       = std::get<1>(*bias);
+            kargs.nhead_stride_bias = std::get<2>(*bias);
             kargs.batch_stride_bias = std::get<3>(*bias);
         }
 
         return kargs;
     }
 
-    // initialize kernel arguments for group mode
-    __host__ static constexpr auto
+    template <bool Cond = kIsGroupMode && !kSupportsBias>
+    __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
+                                                                      const void* k_ptr,
+                                                                      const void* v_ptr,
+                                                                      void* o_ptr,
+                                                                      const void* seqstart_q_ptr,
+                                                                      const void* seqstart_k_ptr,
+                                                                      const void* seqlen_k_ptr,
+                                                                      ck::index_t hdim_q,
+                                                                      ck::index_t hdim_v,
+                                                                      float scale,
+                                                                      ck::index_t stride_q,
+                                                                      ck::index_t stride_k,
+                                                                      ck::index_t stride_v,
+                                                                      ck::index_t stride_o,
+                                                                      ck::index_t nhead_stride_q,
+                                                                      ck::index_t nhead_stride_k,
+                                                                      ck::index_t nhead_stride_v,
+                                                                      ck::index_t nhead_stride_o)
+    {
+        return Kargs{q_ptr,
+                     k_ptr,
+                     v_ptr,
+                     o_ptr,
+                     seqstart_q_ptr,
+                     seqstart_k_ptr,
+                     seqlen_k_ptr,
+                     hdim_q,
+                     hdim_v,
+                     scale,
+                     stride_q,
+                     stride_k,
+                     stride_v,
+                     stride_o,
+                     nhead_stride_q,
+                     nhead_stride_k,
+                     nhead_stride_v,
+                     nhead_stride_o};
+    }
+
+    template <bool Cond = kIsGroupMode&& kSupportsBias>
+    __host__ static constexpr std::enable_if_t<Cond, Kargs>
     MakeKargs(const void* q_ptr,
               const void* k_ptr,
               const void* v_ptr,
@@ -219,36 +359,32 @@ struct FmhaFwdKernel
               ck::index_t nhead_stride_o,
               std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias = std::nullopt)
     {
-        KargsGroupMode kargs;
-
-        InitKargsCommon(kargs,
-                        q_ptr,
-                        k_ptr,
-                        v_ptr,
-                        o_ptr,
-                        -1, // seqlen_q will be updated inside the kernel
-                        -1, // seqlen_k will be updated inside the kernel
-                        hdim_q,
-                        hdim_v,
-                        scale,
-                        stride_q,
-                        stride_k,
-                        stride_v,
-                        stride_o,
-                        nhead_stride_q,
-                        nhead_stride_k,
-                        nhead_stride_v,
-                        nhead_stride_o);
+        Kargs kargs{q_ptr,
+                    k_ptr,
+                    v_ptr,
+                    o_ptr,
+                    seqstart_q_ptr,
+                    seqstart_k_ptr,
+                    seqlen_k_ptr,
+                    hdim_q,
+                    hdim_v,
+                    scale,
+                    stride_q,
+                    stride_k,
+                    stride_v,
+                    stride_o,
+                    nhead_stride_q,
+                    nhead_stride_k,
+                    nhead_stride_v,
+                    nhead_stride_o};
 
         if(bias.has_value())
         {
-            InitKargsCommonBias(kargs, std::get<0>(*bias), std::get<1>(*bias), std::get<2>(*bias));
+            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(std::get<0>(*bias));
+            kargs.stride_bias       = std::get<1>(*bias);
+            kargs.nhead_stride_bias = std::get<2>(*bias);
         }
 
-        kargs.seqstart_q_ptr = reinterpret_cast<const int32_t*>(seqstart_q_ptr);
-        kargs.seqstart_k_ptr = reinterpret_cast<const int32_t*>(seqstart_k_ptr);
-        kargs.seqlen_k_ptr   = reinterpret_cast<const int32_t*>(seqlen_k_ptr);
-
         return kargs;
     }
 
@@ -267,7 +403,6 @@ struct FmhaFwdKernel
         return ck::math::max(FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
     }
 
-    template <typename Kargs>
     __device__ void operator()(Kargs kargs) const
     {
         using namespace ck;
@@ -290,17 +425,9 @@ struct FmhaFwdKernel
         index_t batch_offset_bias = 0;
         index_t batch_offset_o    = 0;
 
-        if constexpr(ck::is_same_v<Kargs, KargsBatchMode>)
+        if constexpr(kIsGroupMode)
         {
-            batch_offset_q    = i_batch * kargs.batch_stride_q;
-            batch_offset_k    = i_batch * kargs.batch_stride_k;
-            batch_offset_v    = i_batch * kargs.batch_stride_v;
-            batch_offset_bias = i_batch * kargs.batch_stride_bias;
-            batch_offset_o    = i_batch * kargs.batch_stride_o;
-        }
-        else
-        { // ck::is_same_v<Kargs, KargsGroupMode>
-            // get starting offset for each work batch
+            // get starting offset for each batch
             const index_t query_start = kargs.seqstart_q_ptr[i_batch];
             const index_t key_start   = kargs.seqstart_k_ptr[i_batch];
 
@@ -314,20 +441,20 @@ struct FmhaFwdKernel
             {
                 batch_offset_v = key_start;
             }
-            batch_offset_bias = query_start * kargs.stride_bias + key_start;
-            batch_offset_o    = query_start * kargs.stride_o;
+            if constexpr(kSupportsBias)
+            {
+                batch_offset_bias = query_start * kargs.stride_bias + key_start;
+            }
+            else
+            {
+                batch_offset_bias = key_start;
+            }
+            batch_offset_o = query_start * kargs.stride_o;
 
             // get real # queries & # keys under group mode
             const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
             kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
 
-            // # of required blocks is different in each groups, terminate unnecessary
-            // blocks earlier
-            if(kargs.seqlen_q <= i_m0)
-            {
-                return;
-            }
-
             if(kargs.seqlen_k_ptr != nullptr)
             {
                 kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
@@ -338,17 +465,23 @@ struct FmhaFwdKernel
                 kargs.seqlen_k = adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
             }
         }
+        else
+        {
+            batch_offset_q = i_batch * kargs.batch_stride_q;
+            batch_offset_k = i_batch * kargs.batch_stride_k;
+            batch_offset_v = i_batch * kargs.batch_stride_v;
+            if constexpr(kSupportsBias)
+            {
+                batch_offset_bias = i_batch * kargs.batch_stride_bias;
+            }
+            batch_offset_o = i_batch * kargs.batch_stride_o;
+        }
 
         // for simplicity, batch stride we just modify the pointer
         const QDataType* q_ptr = kargs.q_ptr + i_nhead * kargs.nhead_stride_q + batch_offset_q;
         const KDataType* k_ptr = kargs.k_ptr + i_nhead * kargs.nhead_stride_k + batch_offset_k;
         const VDataType* v_ptr = kargs.v_ptr + i_nhead * kargs.nhead_stride_v + batch_offset_v;
-        const BiasDataType* bias_ptr = nullptr;
-        if(kargs.bias_ptr != nullptr)
-        {
-            bias_ptr = kargs.bias_ptr + i_nhead * kargs.nhead_stride_bias + batch_offset_bias;
-        }
-        ODataType* o_ptr = kargs.o_ptr + i_nhead * kargs.nhead_stride_o + batch_offset_o;
+        ODataType* o_ptr       = kargs.o_ptr + i_nhead * kargs.nhead_stride_o + batch_offset_o;
 
         // Q/K/V DRAM and DRAM window
         const auto q_dram = [&]() {
@@ -361,7 +494,7 @@ struct FmhaFwdKernel
 
             return pad_tensor_view(q_dram_naive,
                                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
-                                   Sequence<MNeedPadding, false>{});
+                                   Sequence<kM0NeedPadding, false>{});
         }();
         const auto k_dram = [&]() {
             const auto k_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
@@ -373,7 +506,7 @@ struct FmhaFwdKernel
 
             return pad_tensor_view(k_dram_naive,
                                    make_tuple(Number<FmhaPipeline::kN0>{}, Number<1>{}),
-                                   Sequence<NNeedPadding, false>{});
+                                   Sequence<kN0K1NeedPadding, false>{});
         }();
         const auto v_dram = [&]() {
             if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
@@ -392,16 +525,11 @@ struct FmhaFwdKernel
                                           make_tuple(Sequence<1>{}, Sequence<0>{}),
                                           make_tuple(Sequence<0>{}, Sequence<1>{}));
 
-                /// FIXME: The return value of
-                /// v_dram_naive.GetTensorDescriptor().GetLength() is same as
-                ///   v_dram_transposed.GetTensorDescriptor().GetLength(). Replace
-                ///   following if-clause by pad_tensor_view() call after fixing this
-                ///   issue.
-                if constexpr(!NNeedPadding)
-                {
-                    return v_dram_transposed;
-                }
-                else
+                /// FIXME: The return value of v_dram_naive.GetTensorDescriptor().GetLength() is
+                /// same as
+                ///   v_dram_transposed.GetTensorDescriptor().GetLength(). Replace following
+                ///   if-clause by pad_tensor_view() call after fixing this issue.
+                if constexpr(kN0K1NeedPadding)
                 {
                     const index_t pad_length =
                         FmhaPipeline::kK1 *
@@ -415,6 +543,10 @@ struct FmhaFwdKernel
                         make_tuple(Sequence<0>{}, Sequence<1>{}),
                         make_tuple(Sequence<0>{}, Sequence<1>{}));
                 }
+                else
+                {
+                    return v_dram_transposed;
+                }
             }
             else
             {
@@ -427,7 +559,7 @@ struct FmhaFwdKernel
 
                 return pad_tensor_view(v_dram_naive,
                                        make_tuple(Number<1>{}, Number<FmhaPipeline::kK1>{}),
-                                       Sequence<false, NNeedPadding>{});
+                                       Sequence<false, kN0K1NeedPadding>{});
             }
         }();
 
@@ -451,58 +583,63 @@ struct FmhaFwdKernel
                              {i_n1, 0});
 
         const auto run_pipeline_with = [&](auto bias_dram_window) {
-            const auto s_mask = [&]() {
-                if constexpr(NNeedPadding)
-                {
-                    return [&](index_t /* m */, index_t n) {
-                        const bool is_out_of_bound = !(n < kargs.seqlen_k);
-                        return is_out_of_bound;
-                    };
-                }
-                else
-                {
-                    return NullMask{};
-                }
-            }();
+            C0MatrixMask casual_mask{kargs.seqlen_q, kargs.seqlen_k};
 
             return FmhaPipeline{}(q_dram_window,
                                   k_dram_window,
                                   v_dram_window,
                                   bias_dram_window,
-                                  s_mask,
+                                  casual_mask,
                                   kargs.scale,
                                   ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
                                   ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
                                   smem_ptr);
         };
 
-        auto o_acc_tile = [&]() {
+        /// FIXME: Before C++20, capturing structured binding variables is not supported. Remove
+        /// following copy capture of the 'i_nhead'
+        ///        if compiled in C++20
+        auto o_acc_tile = [&, i_nhead_ = i_nhead]() {
             constexpr auto bias_dram_window_lengths =
                 make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
 
-            if(bias_ptr != nullptr)
+            if constexpr(kSupportsBias)
             {
-                const auto bias_dram = [&]() {
-                    const auto bias_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                        bias_ptr,
-                        make_tuple(kargs.seqlen_q, kargs.seqlen_k),
-                        make_tuple(kargs.stride_bias, 1),
-                        Number<32>{},
-                        Number<1>{});
-
-                    return pad_tensor_view(bias_dram_naive,
-                                           bias_dram_window_lengths,
-                                           Sequence<MNeedPadding, NNeedPadding>{});
-                }();
-
-                auto bias_dram_window =
-                    make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
-
-                return run_pipeline_with(bias_dram_window);
+                if(kargs.bias_ptr != nullptr)
+                {
+                    const BiasDataType* bias_ptr =
+                        kargs.bias_ptr + i_nhead_ * kargs.nhead_stride_bias + batch_offset_bias;
+
+                    const auto bias_dram = [&]() {
+                        const auto bias_dram_naive =
+                            make_naive_tensor_view<AddressSpaceEnum::Global>(
+                                bias_ptr,
+                                make_tuple(kargs.seqlen_q, kargs.seqlen_k),
+                                make_tuple(kargs.stride_bias, 1),
+                                Number<32>{},
+                                Number<1>{});
+
+                        return pad_tensor_view(bias_dram_naive,
+                                               bias_dram_window_lengths,
+                                               Sequence<kM0NeedPadding, kN0K1NeedPadding>{});
+                    }();
+
+                    const auto bias_dram_window =
+                        make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
+
+                    return run_pipeline_with(bias_dram_window);
+                }
+                else
+                {
+                    const auto dummy_bias_dram_window =
+                        make_null_tile_window(bias_dram_window_lengths);
+
+                    return run_pipeline_with(dummy_bias_dram_window);
+                }
             }
             else
             {
-                auto dummy_bias_dram_window = make_null_tile_window(bias_dram_window_lengths);
+                const auto dummy_bias_dram_window = make_null_tile_window(bias_dram_window_lengths);
 
                 return run_pipeline_with(dummy_bias_dram_window);
             }
@@ -519,7 +656,7 @@ struct FmhaFwdKernel
 
             return pad_tensor_view(o_dram_naive,
                                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
-                                   Sequence<MNeedPadding, false>{});
+                                   Sequence<kM0NeedPadding, false>{});
         }();
 
         auto o_dram_window =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index b52086fd7d..4bac3a4338 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -18,14 +18,13 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_util.h"
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
+#include "ck_tiled_fmha_definitions.h"
 
-template <typename scalar_t, int32_t custom_mask_type>
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 struct grouped_infer_masktype_attnbias_dispatched
 {
     using QDataType           = scalar_t;
@@ -40,6 +39,9 @@ struct grouped_infer_masktype_attnbias_dispatched
 
     using VLayout = ck::tensor_layout::gemm::RowMajor;
 
+    static constexpr auto masktype = static_cast<CausalMaskType>(custom_mask_type);
+    using FmhaCausalMask           = typename CausalMaskPredicate<masktype>::predicate;
+
     using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
     using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
     using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
@@ -99,16 +101,17 @@ struct grouped_infer_masktype_attnbias_dispatched
                                                                   OaccDataType,
                                                                   ODataType,
                                                                   256, // BlockSize
-                                                                  FmhaShape>;
+                                                                  FmhaShape,
+                                                                  true, // IsGroupMode
+                                                                  true, // kM0NeedPadding
+                                                                  true, // kN0K1Needpadding
+                                                                  has_attn_bias,
+                                                                  FmhaCausalMask>;
 
             using FmhaPipeline =
                 ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
 
-            using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner,
-                                             FmhaPipeline,
-                                             FmhaEpilogue,
-                                             MNeedPadding,
-                                             NNeedPadding>;
+            using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
             RunWithKernel<FmhaKernel>(param, stream);
         });
@@ -117,6 +120,59 @@ struct grouped_infer_masktype_attnbias_dispatched
     template <typename FmhaKernel>
     static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream)
     {
+        const auto kargs = [&] {
+            if constexpr(FmhaKernel::kSupportsBias)
+            {
+                std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias;
+
+                bias = std::make_tuple(
+                    param.attn_bias_ptr, param.attn_bias_strides[2], param.attn_bias_strides[1]);
+
+                return FmhaKernel::MakeKargs(
+                    param.q_ptr,
+                    param.k_ptr,
+                    param.v_ptr,
+                    param.out_ptr,
+                    param.seqstart_q_dev_ptr,
+                    param.seqstart_k_dev_ptr,
+                    param.seqlen_k_dev_ptr,
+                    param.K,  // hdim_q
+                    param.Kv, // hdim_v
+                    param.scale,
+                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                    param.k_strides[1],
+                    param.v_strides[1],
+                    param.out_strides[1],
+                    param.q_strides[2], // q, k, v, out tensor head-dim stride
+                    param.k_strides[2],
+                    param.v_strides[2],
+                    param.out_strides[2],
+                    bias);
+            }
+            else
+            {
+                return FmhaKernel::MakeKargs(
+                    param.q_ptr,
+                    param.k_ptr,
+                    param.v_ptr,
+                    param.out_ptr,
+                    param.seqstart_q_dev_ptr,
+                    param.seqstart_k_dev_ptr,
+                    param.seqlen_k_dev_ptr,
+                    param.K,  // hdim_q
+                    param.Kv, // hdim_v
+                    param.scale,
+                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                    param.k_strides[1],
+                    param.v_strides[1],
+                    param.out_strides[1],
+                    param.q_strides[2], // q, k, v, out tensor head-dim stride
+                    param.k_strides[2],
+                    param.v_strides[2],
+                    param.out_strides[2]);
+            };
+        }();
+
         dim3 kGridSize = FmhaKernel::GridSize(param.num_batches, param.Hq, param.M, param.Kv);
         constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
 
@@ -124,42 +180,14 @@ struct grouped_infer_masktype_attnbias_dispatched
         constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
         constexpr ck::index_t kBlockPerCu   = kWarpPerCu / kWarpPerBlock;
 
-        std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias;
-
-        if(param.has_attn_bias)
-        {
-            bias = std::make_tuple(
-                param.attn_bias_ptr, param.attn_bias_strides[2], param.attn_bias_strides[1]);
-        };
-
-        auto kargs =
-            FmhaKernel::MakeKargs(param.q_ptr,
-                                  param.k_ptr,
-                                  param.v_ptr,
-                                  param.out_ptr,
-                                  param.seqstart_q_dev_ptr,
-                                  param.seqstart_k_dev_ptr,
-                                  param.seqlen_k_dev_ptr,
-                                  param.K,  // hdim_q
-                                  param.Kv, // hdim_v
-                                  param.scale,
-                                  param.q_strides[1], // q, k, v, out tensor seq-dim stride
-                                  param.k_strides[1],
-                                  param.v_strides[1],
-                                  param.out_strides[1],
-                                  param.q_strides[2], // q, k, v, out tensor head-dim stride
-                                  param.k_strides[2],
-                                  param.v_strides[2],
-                                  param.out_strides[2],
-                                  bias);
-
         (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
             StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
     };
 };
 
-template <typename scalar_t, int32_t custom_mask_type>
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
 void run_grouped_infer_masktype_attnbias_dispatched(GroupedForwardParams& param, hipStream_t stream)
 {
-    grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type>::Run(param, stream);
+    grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+        param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 3954ee4ff9..659fd286b3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -5,28 +5,43 @@
 #include "ck_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  if (param.custom_mask_type == 0)
-    run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
-        param, stream);
-  else if (param.custom_mask_type == 1)
-    run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
-        param, stream);
-  else if (param.custom_mask_type == 2)
-    run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
-        param, stream);
-  else
-    throw std::runtime_error("Invalid custom_mask_type value");
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 1)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 2)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp
deleted file mode 100644
index 2915b07ed3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0.cpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
-    BatchedForwardParams& param,
-    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..8f4c31ab36
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..783fb5e16f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp
deleted file mode 100644
index 8d7f2bbf8d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1.cpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
-    BatchedForwardParams& param,
-    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..7be550de21
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..9276ca53fb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp
deleted file mode 100644
index b608b89399..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2.cpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
-    BatchedForwardParams& param,
-    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..da3f5004e1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..189d295d2a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp
deleted file mode 100644
index 8117f8b580..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0.cpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0>(
-    GroupedForwardParams& param,
-    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..1001507519
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..3b323b7bb1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp
deleted file mode 100644
index d1b93e5837..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1.cpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1>(
-    GroupedForwardParams& param,
-    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..6fad32f783
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..39646e941d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp
deleted file mode 100644
index 246b90a774..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2.cpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2>(
-    GroupedForwardParams& param,
-    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..ba5384e43a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..f6e4a4215b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,7 @@
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);

From 516f2ed0dd3730fdc0b1f067d5f1b44037682c16 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 5 Dec 2023 12:23:55 +0000
Subject: [PATCH 250/837] Fix bug in ck-tiled grouped-mode C++ extension

---
 .../attention_forward_generic_ck_tiled.cpp    |  2 +-
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |  3 +++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 26 ++++++++++---------
 3 files changed, 18 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 0c87daa97d..e392935ce2 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -317,7 +317,7 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
             p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
 
             HIP_CALL_CHECK(hipMemcpyAsync(p.seqlen_k_dev_ptr,
-                                          seqstart_k->data_ptr(),
+                                          seqlen_k->data_ptr(),
                                           p.num_batches * sizeof(int),
                                           hipMemcpyHostToDevice,
                                           stream));
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 169458efe8..41eb3f748f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -464,6 +464,9 @@ struct FmhaFwdKernel
                 const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
                 kargs.seqlen_k = adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
             }
+
+            if(i_m0 >= kargs.seqlen_q)
+                return;
         }
         else
         {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 4bac3a4338..e1ad7b1a8c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -3,6 +3,7 @@
 #include <optional>
 #include <sstream>
 #include <stdexcept>
+#include <iostream>
 
 #include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
@@ -139,14 +140,14 @@ struct grouped_infer_masktype_attnbias_dispatched
                     param.K,  // hdim_q
                     param.Kv, // hdim_v
                     param.scale,
-                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                    param.q_strides[0], // q, k, v, out tensor seq-dim stride
+                    param.k_strides[0],
+                    param.v_strides[0],
+                    param.out_strides[0],
+                    param.q_strides[1], // q, k, v, out tensor head-dim stride
                     param.k_strides[1],
                     param.v_strides[1],
                     param.out_strides[1],
-                    param.q_strides[2], // q, k, v, out tensor head-dim stride
-                    param.k_strides[2],
-                    param.v_strides[2],
-                    param.out_strides[2],
                     bias);
             }
             else
@@ -162,18 +163,19 @@ struct grouped_infer_masktype_attnbias_dispatched
                     param.K,  // hdim_q
                     param.Kv, // hdim_v
                     param.scale,
-                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
+                    param.q_strides[0], // q, k, v, out tensor seq-dim stride
+                    param.k_strides[0],
+                    param.v_strides[0],
+                    param.out_strides[0],
+                    param.q_strides[1], // q, k, v, out tensor head-dim stride
                     param.k_strides[1],
                     param.v_strides[1],
-                    param.out_strides[1],
-                    param.q_strides[2], // q, k, v, out tensor head-dim stride
-                    param.k_strides[2],
-                    param.v_strides[2],
-                    param.out_strides[2]);
+                    param.out_strides[1]);
             };
         }();
 
-        dim3 kGridSize = FmhaKernel::GridSize(param.num_batches, param.Hq, param.M, param.Kv);
+        dim3 kGridSize =
+            FmhaKernel::GridSize(param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
         constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
 
         constexpr ck::index_t kWarpPerCu    = 8; // 2 warps per SIMD

From af6964d577a5058301c5726b4a1ac2883c1f9d4e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 5 Dec 2023 18:14:33 +0000
Subject: [PATCH 251/837] Synchronize with latest feature update from
 feature/fmah-pad-support branch

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 08d9e56f2e..ddce91a44b 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 08d9e56f2e321016934fb0c44673af4c0754171f
+Subproject commit ddce91a44b2da6eb74e7e3d7bf14b54930719983

From ee53b8314c3a8f2e2e38a9e9a010b984a61dd0ac Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Dec 2023 12:20:42 +0000
Subject: [PATCH 252/837] Synchronize the latest third_party/composable_kernel
 and update .gitmodules

---
 .gitmodules                   | 4 ----
 third_party/composable_kernel | 2 +-
 2 files changed, 1 insertion(+), 5 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index bf26780538..94eb8135c6 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -8,7 +8,3 @@
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git
-[submodule "third_party/composable_kernel_tiled"]
-	path = third_party/composable_kernel_tiled
-	url = https://github.com/asroy/ck_tile
-        branch = feature/fmha-pad-support
diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 2f93e26f55..5f4e6ec00d 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 2f93e26f55ce0e9839c358c0c713ce8eb3db38a2
+Subproject commit 5f4e6ec00d12654e3897f53b48307434cd25a02f

From a816112d076e33c0c702fcd3e2f1bb64c37ece37 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Dec 2023 14:38:25 +0000
Subject: [PATCH 253/837] Add license declaration and re-format with
 clang-format-10

---
 .../hip_fmha/attention_backward_generic.cpp   | 975 +++++++++---------
 .../hip_fmha/attention_ck_rand_uniform.cpp    | 173 ++--
 .../hip_fmha/attention_forward_decoder.cpp    | 458 ++++----
 .../hip_fmha/attention_forward_generic.cpp    | 729 ++++++-------
 .../attention_forward_generic_ck_tiled.cpp    |   6 +
 .../csrc/attention/hip_fmha/ck_align_switch.h | 298 +++---
 .../hip_fmha/ck_attention_forward_decoder.h   | 880 ++++++++--------
 .../csrc/attention/hip_fmha/ck_bool_switch.h  |  50 +-
 .../ck_fmha_backward_gemm_constants.h         | 350 ++++---
 .../hip_fmha/ck_fmha_batched_backward.h       | 661 ++++++------
 .../ck_fmha_batched_backward_bp16.cpp         | 143 +--
 .../ck_fmha_batched_backward_fp16.cpp         | 140 +--
 .../hip_fmha/ck_fmha_batched_forward.h        | 520 +++++-----
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp |  95 +-
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp |  95 +-
 .../hip_fmha/ck_fmha_batched_infer.h          | 488 +++++----
 .../hip_fmha/ck_fmha_batched_infer_bp16.cpp   |  95 +-
 .../hip_fmha/ck_fmha_batched_infer_fp16.cpp   |  95 +-
 .../hip_fmha/ck_fmha_common_gemm_constants.h  |  34 +-
 .../hip_fmha/ck_fmha_forward_gemm_constants.h |   6 +
 .../hip_fmha/ck_fmha_grouped_backward.h       | 678 ++++++------
 .../ck_fmha_grouped_backward_bp16.cpp         | 149 ++-
 .../ck_fmha_grouped_backward_fp16.cpp         | 146 ++-
 .../hip_fmha/ck_fmha_grouped_forward.h        | 534 +++++-----
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp |  95 +-
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp |  95 +-
 .../hip_fmha/ck_fmha_grouped_infer.h          | 509 ++++-----
 .../hip_fmha/ck_fmha_grouped_infer_bp16.cpp   |  95 +-
 .../hip_fmha/ck_fmha_grouped_infer_fp16.cpp   |  95 +-
 .../hip_fmha/ck_fmha_infer_gemm_constants.h   |   6 +
 .../attention/hip_fmha/ck_fmha_op_helper.h    |  45 +-
 .../csrc/attention/hip_fmha/ck_fmha_params.h  | 382 +++----
 .../csrc/attention/hip_fmha/ck_fmha_test.cpp  |  23 +-
 .../csrc/attention/hip_fmha/ck_fmha_util.h    | 224 ++--
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |   6 +
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |   6 +
 .../hip_fmha/ck_tiled_fmha_definitions.h      |   6 +
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |   6 +
 .../hip_fmha/ck_tiled_fmha_fwd_epilogue.h     |   6 +
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |   6 +
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |   6 +
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |   6 +
 .../attention/hip_fmha/ck_tiled_fmha_params.h | 368 +++----
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._bp16_masktype_0_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_bp16_masktype_0_with_attnbias.cpp |  13 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._bp16_masktype_1_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_bp16_masktype_1_with_attnbias.cpp |  13 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._bp16_masktype_2_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_bp16_masktype_2_with_attnbias.cpp |  13 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._fp16_masktype_0_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_fp16_masktype_0_with_attnbias.cpp |  13 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._fp16_masktype_1_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_fp16_masktype_1_with_attnbias.cpp |  13 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._fp16_masktype_2_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_fp16_masktype_2_with_attnbias.cpp |  13 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |  13 +-
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._forward_bp16_masktype_0_with_attnbias.cpp |  13 +-
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._forward_bp16_masktype_1_with_attnbias.cpp |  13 +-
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._forward_bp16_masktype_2_with_attnbias.cpp |  13 +-
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._forward_fp16_masktype_0_with_attnbias.cpp |  13 +-
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._forward_fp16_masktype_1_with_attnbias.cpp |  13 +-
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._forward_fp16_masktype_2_with_attnbias.cpp |  13 +-
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |  13 +-
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |  13 +-
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |  13 +-
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |  13 +-
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |  13 +-
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |  13 +-
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |  13 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |  13 +-
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |  13 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |  13 +-
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |  13 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |  13 +-
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._bp16_masktype_0_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_bp16_masktype_0_with_attnbias.cpp |  13 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._bp16_masktype_1_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_bp16_masktype_1_with_attnbias.cpp |  13 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._bp16_masktype_2_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_bp16_masktype_2_with_attnbias.cpp |  13 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._fp16_masktype_0_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_fp16_masktype_0_with_attnbias.cpp |  13 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._fp16_masktype_1_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_fp16_masktype_1_with_attnbias.cpp |  13 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |  13 +-
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._fp16_masktype_2_no_attnbias_fp32_grad.cpp |  13 +-
 ...backward_fp16_masktype_2_with_attnbias.cpp |  13 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |  13 +-
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._forward_bp16_masktype_0_with_attnbias.cpp |  13 +-
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._forward_bp16_masktype_1_with_attnbias.cpp |  13 +-
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._forward_bp16_masktype_2_with_attnbias.cpp |  13 +-
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |  13 +-
 ..._forward_fp16_masktype_0_with_attnbias.cpp |  13 +-
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |  13 +-
 ..._forward_fp16_masktype_1_with_attnbias.cpp |  13 +-
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |  13 +-
 ..._forward_fp16_masktype_2_with_attnbias.cpp |  13 +-
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |  13 +-
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |  13 +-
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |  13 +-
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |  13 +-
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |  13 +-
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |  13 +-
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |  13 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |  13 +-
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |  13 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |  13 +-
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |  13 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |  13 +-
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |   6 +
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   6 +
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |   6 +
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   6 +
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |   6 +
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   6 +
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |   6 +
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   6 +
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |   6 +
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   6 +
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |   6 +
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   6 +
 151 files changed, 5789 insertions(+), 5314 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index c513664f26..282b9aabd6 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <cmath>
 #include <cstdlib>
 
@@ -11,23 +17,14 @@
 #include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
-extern void batched_backward_fp16(
-    BatchedBackwardParams& param,
-    hipStream_t stream);
-extern void batched_backward_bp16(
-    BatchedBackwardParams& param,
-    hipStream_t stream);
-extern void grouped_backward_fp16(
-    GroupedBackwardParams& param,
-    hipStream_t stream);
-extern void grouped_backward_bp16(
-    GroupedBackwardParams& param,
-    hipStream_t stream);
+extern void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream);
+extern void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream);
+extern void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream);
+extern void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream);
 
 namespace {
 
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
-efficient_attention_backward_ck(
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> efficient_attention_backward_ck(
     const at::Tensor& grad_out,
     const at::Tensor& query,
     const at::Tensor& key,
@@ -44,523 +41,527 @@ efficient_attention_backward_ck(
     const c10::optional<at::Tensor>& seqlen_k,
     const at::Tensor& logsumexp,
     const at::Tensor& out,
-    double dropout_p, // dropout probability
-    int64_t rng_seed, // seed using for generating random numbers for dropout
+    double dropout_p,   // dropout probability
+    int64_t rng_seed,   // seed using for generating random numbers for dropout
     int64_t rng_offset, // offset into random number sequence
     int64_t custom_mask_type,
-    const c10::optional<double> scale) {
+    const c10::optional<double> scale)
+{
 #ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD
-  TORCH_CHECK(
-      false,
-      "MemoryEfficient build has been disabled at build time with -DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
+    TORCH_CHECK(false,
+                "MemoryEfficient build has been disabled at build time with "
+                "-DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
 #else
-  at::globalContext().alertNotDeterministic(
-      "mem_efficient_attention_backward_cutlass");
-
-  // ndim
-  TORCH_CHECK(query.dim() == grad_out.dim());
-  TORCH_CHECK(query.dim() == key.dim());
-  TORCH_CHECK(query.dim() == value.dim());
-  TORCH_CHECK(query.dim() == 4);
-
-  // batch size
-  TORCH_CHECK(query.size(0) == grad_out.size(0));
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // seqlen
-  TORCH_CHECK(key.size(1) == value.size(1));
-  TORCH_CHECK(query.size(1) == grad_out.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) % key.size(2) == 0);
-  TORCH_CHECK(key.size(2) == value.size(2));
-  TORCH_CHECK(query.size(2) == grad_out.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-  TORCH_CHECK(value.size(3) == grad_out.size(3));
-
-  // CK-FlashAttn requires out, grad_out to have same shapes
-  TORCH_CHECK(out.sizes() == grad_out.sizes());
-  TORCH_CHECK(out.strides() == grad_out.strides());
-
-  // last dim is contiguous, device is CUDA
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  // logsumexp should be completely contiguous
-  CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  TORCH_CHECK(
-      !(seqstart_q.has_value() && bias.has_value()),
-      "seqstart_q + bias not supported");
-
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
-    TORCH_CHECK(max_seqlen_q_.has_value());
-  }
-
-  bool use_fp32_qkv_grad = false;
-
-  if (const char* env_str = std::getenv("USE_FP32_QKV_GRAD")) {
-    use_fp32_qkv_grad = (std::stoi(env_str) > 0) ? true : false;
-  };
-
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t Hq = query.size(2);
-  int64_t Hkv = key.size(2);
-  int64_t K = query.size(3);
-  int64_t Kv = value.size(3);
-
-  auto opts = query.options();
-
-  at::Tensor grad_q, grad_k, grad_v, grad_bias;
-
-  if (query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
-      query.size(2) == key.size(2) &&
-      query.storage().is_alias_of(key.storage()) &&
-      query.storage().is_alias_of(value.storage())) {
-    // Create one big contiguous chunk for grad_q, grad_k, grad_v
-    // This is because q, k and v usually come from a single
-    // output of a linear layer that is chunked.
-    // Creating the gradients with the right layout saves us
-    // a `torch.cat` call in the backward pass
-    at::Tensor chunk;
-    if (use_fp32_qkv_grad)
-      chunk = at::empty({B, M, 3, Hq, K}, opts.dtype(at::kFloat));
-    else
-      chunk = at::empty({B, M, 3, Hq, K}, opts);
-    grad_q = chunk.select(2, 0);
-    grad_k = chunk.select(2, 1);
-    grad_v = chunk.select(2, 2);
-    grad_q.fill_(0);
-  } else if (
-      key.size(3) == value.size(3) &&
-      key.storage().is_alias_of(value.storage())) {
-    // Create one big contiguous chunk for grad_k, grad_v
-    // This is because k and v usually come from a single
-    // output of a linear layer that is chunked.
-    // Creating the gradients with the right layout saves us
-    // a `torch.cat` call in the backward pass
-    at::Tensor chunk;
-    if (use_fp32_qkv_grad)
-      chunk = at::empty({B, N, 2, Hkv, Kv}, opts.dtype(at::kFloat));
-    else
-      chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
-    grad_k = chunk.select(2, 0);
-    grad_v = chunk.select(2, 1);
+    at::globalContext().alertNotDeterministic("mem_efficient_attention_backward_cutlass");
+
+    // ndim
+    TORCH_CHECK(query.dim() == grad_out.dim());
+    TORCH_CHECK(query.dim() == key.dim());
+    TORCH_CHECK(query.dim() == value.dim());
+    TORCH_CHECK(query.dim() == 4);
+
+    // batch size
+    TORCH_CHECK(query.size(0) == grad_out.size(0));
+    TORCH_CHECK(query.size(0) == key.size(0));
+    TORCH_CHECK(query.size(0) == value.size(0));
+
+    // seqlen
+    TORCH_CHECK(key.size(1) == value.size(1));
+    TORCH_CHECK(query.size(1) == grad_out.size(1));
+
+    // Num heads
+    TORCH_CHECK(query.size(2) % key.size(2) == 0);
+    TORCH_CHECK(key.size(2) == value.size(2));
+    TORCH_CHECK(query.size(2) == grad_out.size(2));
+
+    // Embedding per head
+    TORCH_CHECK(query.size(3) == key.size(3));
+    TORCH_CHECK(value.size(3) == grad_out.size(3));
+
+    // CK-FlashAttn requires out, grad_out to have same shapes
+    TORCH_CHECK(out.sizes() == grad_out.sizes());
+    TORCH_CHECK(out.strides() == grad_out.strides());
+
+    // last dim is contiguous, device is CUDA
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+    // logsumexp should be completely contiguous
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
+
+    TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+    TORCH_CHECK(!(seqstart_q.has_value() && bias.has_value()), "seqstart_q + bias not supported");
+
+    if(seqstart_q.has_value())
+    {
+        TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+        TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+        TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
+        TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+        TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
+        TORCH_CHECK(max_seqlen_q_.has_value());
+    }
 
-    if (use_fp32_qkv_grad)
-      grad_q = at::empty_strided(
-          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
-    else
-      grad_q =
-          at::empty_strided(query.sizes(), query.strides(), query.options());
-    grad_q.fill_(0);
-  } else {
-    if (use_fp32_qkv_grad) {
-      grad_q = at::empty_strided(
-          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
-      grad_k = at::empty_strided(
-          key.sizes(), key.strides(), key.options().dtype(at::kFloat));
-      grad_v = at::empty_strided(
-          value.sizes(), value.strides(), value.options().dtype(at::kFloat));
-    } else {
-      grad_q =
-          at::empty_strided(query.sizes(), query.strides(), query.options());
-      grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
-      grad_v =
-          at::empty_strided(value.sizes(), value.strides(), value.options());
+    bool use_fp32_qkv_grad = false;
+
+    if(const char* env_str = std::getenv("USE_FP32_QKV_GRAD"))
+    {
+        use_fp32_qkv_grad = (std::stoi(env_str) > 0) ? true : false;
+    };
+
+    // at::cuda::CUDAGuard device_guard(query.device());
+    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+    int64_t B   = query.size(0);
+    int64_t M   = query.size(1);
+    int64_t N   = key.size(1);
+    int64_t Hq  = query.size(2);
+    int64_t Hkv = key.size(2);
+    int64_t K   = query.size(3);
+    int64_t Kv  = value.size(3);
+
+    auto opts = query.options();
+
+    at::Tensor grad_q, grad_k, grad_v, grad_bias;
+
+    if(query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
+       query.size(2) == key.size(2) && query.storage().is_alias_of(key.storage()) &&
+       query.storage().is_alias_of(value.storage()))
+    {
+        // Create one big contiguous chunk for grad_q, grad_k, grad_v
+        // This is because q, k and v usually come from a single
+        // output of a linear layer that is chunked.
+        // Creating the gradients with the right layout saves us
+        // a `torch.cat` call in the backward pass
+        at::Tensor chunk;
+        if(use_fp32_qkv_grad)
+            chunk = at::empty({B, M, 3, Hq, K}, opts.dtype(at::kFloat));
+        else
+            chunk = at::empty({B, M, 3, Hq, K}, opts);
+        grad_q = chunk.select(2, 0);
+        grad_k = chunk.select(2, 1);
+        grad_v = chunk.select(2, 2);
+        grad_q.fill_(0);
     }
-    grad_q.fill_(0);
-  }
-
-  // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
-  TORCH_CHECK(query.sizes() == grad_q.sizes());
-  TORCH_CHECK(query.strides() == grad_q.strides());
-  TORCH_CHECK(key.sizes() == grad_k.sizes());
-  TORCH_CHECK(key.strides() == grad_k.strides());
-  TORCH_CHECK(value.sizes() == grad_v.sizes());
-  TORCH_CHECK(value.strides() == grad_v.strides());
-
-  const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
-
-  // even it is an output, the grad_bias is required to use the same data-type
-  // as bias in CK-FlashAttn
-  if (bias_requires_grad)
-    grad_bias =
-        at::empty_strided(bias->sizes(), bias->strides(), bias->options());
-
-  bool is_mqa_gqa = (Hq > Hkv);
-
-  at::Tensor tmp_grad_k, tmp_grad_v;
-
-  if (is_mqa_gqa) {
-    // allocate tmp_grad_k/tmp_grad_v which will be reduce to
-    // grad_k/grad_v for returning
-    if (use_fp32_qkv_grad) {
-      tmp_grad_k = at::empty({B, N, Hq, K}, opts.dtype(at::kFloat));
-      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts.dtype(at::kFloat));
-    } else {
-      tmp_grad_k = at::empty({B, N, Hq, K}, opts);
-      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
+    else if(key.size(3) == value.size(3) && key.storage().is_alias_of(value.storage()))
+    {
+        // Create one big contiguous chunk for grad_k, grad_v
+        // This is because k and v usually come from a single
+        // output of a linear layer that is chunked.
+        // Creating the gradients with the right layout saves us
+        // a `torch.cat` call in the backward pass
+        at::Tensor chunk;
+        if(use_fp32_qkv_grad)
+            chunk = at::empty({B, N, 2, Hkv, Kv}, opts.dtype(at::kFloat));
+        else
+            chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
+        grad_k = chunk.select(2, 0);
+        grad_v = chunk.select(2, 1);
+
+        if(use_fp32_qkv_grad)
+            grad_q = at::empty_strided(
+                query.sizes(), query.strides(), query.options().dtype(at::kFloat));
+        else
+            grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+        grad_q.fill_(0);
     }
-  }
-
-  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
-    p.is_mqa_gqa = is_mqa_gqa;
-
-    TORCH_CHECK(p.B == logsumexp.size(0));
-    TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.M == logsumexp.size(2));
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
+    else
+    {
+        if(use_fp32_qkv_grad)
+        {
+            grad_q = at::empty_strided(
+                query.sizes(), query.strides(), query.options().dtype(at::kFloat));
+            grad_k = at::empty_strided(key.sizes(), key.strides(), key.options().dtype(at::kFloat));
+            grad_v = at::empty_strided(
+                value.sizes(), value.strides(), value.options().dtype(at::kFloat));
+        }
+        else
+        {
+            grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+            grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
+            grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
+        }
+        grad_q.fill_(0);
     }
 
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.grad_out_ptr = grad_out.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.grad_q_ptr = grad_q.data_ptr();
-    p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
-    p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(0)),
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (is_mqa_gqa) {
-      p.tmp_grad_k_strides = {
-          static_cast<int>(tmp_grad_k.stride(0)),
-          static_cast<int>(tmp_grad_k.stride(1)),
-          static_cast<int>(tmp_grad_k.stride(2)),
-          static_cast<int>(tmp_grad_k.stride(3))};
-      p.tmp_grad_v_strides = {
-          static_cast<int>(tmp_grad_v.stride(0)),
-          static_cast<int>(tmp_grad_v.stride(1)),
-          static_cast<int>(tmp_grad_v.stride(2)),
-          static_cast<int>(tmp_grad_v.stride(3))};
+    // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
+    TORCH_CHECK(query.sizes() == grad_q.sizes());
+    TORCH_CHECK(query.strides() == grad_q.strides());
+    TORCH_CHECK(key.sizes() == grad_k.sizes());
+    TORCH_CHECK(key.strides() == grad_k.strides());
+    TORCH_CHECK(value.sizes() == grad_v.sizes());
+    TORCH_CHECK(value.strides() == grad_v.strides());
+
+    const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
+
+    // even it is an output, the grad_bias is required to use the same data-type
+    // as bias in CK-FlashAttn
+    if(bias_requires_grad)
+        grad_bias = at::empty_strided(bias->sizes(), bias->strides(), bias->options());
+
+    bool is_mqa_gqa = (Hq > Hkv);
+
+    at::Tensor tmp_grad_k, tmp_grad_v;
+
+    if(is_mqa_gqa)
+    {
+        // allocate tmp_grad_k/tmp_grad_v which will be reduce to
+        // grad_k/grad_v for returning
+        if(use_fp32_qkv_grad)
+        {
+            tmp_grad_k = at::empty({B, N, Hq, K}, opts.dtype(at::kFloat));
+            tmp_grad_v = at::empty({B, N, Hq, Kv}, opts.dtype(at::kFloat));
+        }
+        else
+        {
+            tmp_grad_k = at::empty({B, N, Hq, K}, opts);
+            tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
+        }
     }
 
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+    auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
+        p.B   = B;
+        p.M   = M;
+        p.N   = N;
+        p.Hq  = Hq;
+        p.Hkv = Hkv;
+        p.K   = K;
+        p.Kv  = Kv;
+
+        p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+        p.is_mqa_gqa        = is_mqa_gqa;
+
+        TORCH_CHECK(p.B == logsumexp.size(0));
+        TORCH_CHECK(p.Hq == logsumexp.size(1));
+        TORCH_CHECK(p.M == logsumexp.size(2));
+
+        if(scale.has_value())
+        {
+            p.scale = float(*scale);
+        }
+        else
+        {
+            p.scale = float(1.0 / std::sqrt(float(K)));
+        }
 
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = bias->data_ptr();
+        p.q_ptr        = query.data_ptr();
+        p.k_ptr        = key.data_ptr();
+        p.v_ptr        = value.data_ptr();
+        p.grad_out_ptr = grad_out.data_ptr();
+        p.out_ptr      = out.data_ptr();
+
+        p.grad_q_ptr = grad_q.data_ptr();
+        p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
+        p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
+
+        p.q_strides   = {static_cast<int>(query.stride(0)),
+                       static_cast<int>(query.stride(1)),
+                       static_cast<int>(query.stride(2)),
+                       static_cast<int>(query.stride(3))};
+        p.k_strides   = {static_cast<int>(key.stride(0)),
+                       static_cast<int>(key.stride(1)),
+                       static_cast<int>(key.stride(2)),
+                       static_cast<int>(key.stride(3))};
+        p.v_strides   = {static_cast<int>(value.stride(0)),
+                       static_cast<int>(value.stride(1)),
+                       static_cast<int>(value.stride(2)),
+                       static_cast<int>(value.stride(3))};
+        p.out_strides = {static_cast<int>(out.stride(0)),
+                         static_cast<int>(out.stride(1)),
+                         static_cast<int>(out.stride(2)),
+                         static_cast<int>(out.stride(3))};
+
+        if(is_mqa_gqa)
+        {
+            p.tmp_grad_k_strides = {static_cast<int>(tmp_grad_k.stride(0)),
+                                    static_cast<int>(tmp_grad_k.stride(1)),
+                                    static_cast<int>(tmp_grad_k.stride(2)),
+                                    static_cast<int>(tmp_grad_k.stride(3))};
+            p.tmp_grad_v_strides = {static_cast<int>(tmp_grad_v.stride(0)),
+                                    static_cast<int>(tmp_grad_v.stride(1)),
+                                    static_cast<int>(tmp_grad_v.stride(2)),
+                                    static_cast<int>(tmp_grad_v.stride(3))};
+        }
 
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+        if(bias.has_value())
+        {
+            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
+            p.has_attn_bias = true;
+            p.attn_bias_ptr = bias->data_ptr();
 
-      if (bias_requires_grad)
-        p.grad_bias_ptr = grad_bias.data_ptr();
-    } else {
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = nullptr;
-      p.grad_bias_ptr = nullptr;
-    }
+            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
 
-    p.bias_has_grad = bias_requires_grad;
+            p.attn_bias_strides = {static_cast<int>(bias_4d_view.stride(0)),
+                                   static_cast<int>(bias_4d_view.stride(1)),
+                                   static_cast<int>(bias_4d_view.stride(2)),
+                                   static_cast<int>(bias_4d_view.stride(3))};
 
-    p.custom_mask_type = custom_mask_type;
+            if(bias_requires_grad)
+                p.grad_bias_ptr = grad_bias.data_ptr();
+        }
+        else
+        {
+            p.has_attn_bias = true;
+            p.attn_bias_ptr = nullptr;
+            p.grad_bias_ptr = nullptr;
+        }
 
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.philox_seed = rng_seed;
-    p.philox_offset = rng_offset;
+        p.bias_has_grad = bias_requires_grad;
 
-    p.logsumexp_ptr = logsumexp.data_ptr();
-  };
+        p.custom_mask_type = custom_mask_type;
 
-  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
+        p.dropout_prob  = static_cast<float>(dropout_p);
+        p.philox_seed   = rng_seed;
+        p.philox_offset = rng_offset;
 
-    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
-    p.is_mqa_gqa = is_mqa_gqa;
+        p.logsumexp_ptr = logsumexp.data_ptr();
+    };
 
-    p.max_seqlen_q = *max_seqlen_q_;
+    auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
+        p.num_batches = seqstart_q->size(0) - 1;
+        p.M           = M;
+        p.N           = N;
+        p.Hq          = Hq;
+        p.Hkv         = Hkv;
+        p.K           = K;
+        p.Kv          = Kv;
 
-    TORCH_CHECK(p.num_batches == logsumexp.size(0));
-    TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
+        p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+        p.is_mqa_gqa        = is_mqa_gqa;
 
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
+        p.max_seqlen_q = *max_seqlen_q_;
 
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (is_mqa_gqa) {
-      p.tmp_grad_k_strides = {
-          static_cast<int>(tmp_grad_k.stride(1)),
-          static_cast<int>(tmp_grad_k.stride(2)),
-          static_cast<int>(tmp_grad_k.stride(3))};
-      p.tmp_grad_v_strides = {
-          static_cast<int>(tmp_grad_v.stride(1)),
-          static_cast<int>(tmp_grad_v.stride(2)),
-          static_cast<int>(tmp_grad_v.stride(3))};
-    };
+        TORCH_CHECK(p.num_batches == logsumexp.size(0));
+        TORCH_CHECK(p.Hq == logsumexp.size(1));
+        TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
+
+        if(scale.has_value())
+        {
+            p.scale = float(*scale);
+        }
+        else
+        {
+            p.scale = float(1.0 / std::sqrt(float(K)));
+        }
+
+        p.q_strides   = {static_cast<int>(query.stride(1)),
+                       static_cast<int>(query.stride(2)),
+                       static_cast<int>(query.stride(3))};
+        p.k_strides   = {static_cast<int>(key.stride(1)),
+                       static_cast<int>(key.stride(2)),
+                       static_cast<int>(key.stride(3))};
+        p.v_strides   = {static_cast<int>(value.stride(1)),
+                       static_cast<int>(value.stride(2)),
+                       static_cast<int>(value.stride(3))};
+        p.out_strides = {static_cast<int>(out.stride(1)),
+                         static_cast<int>(out.stride(2)),
+                         static_cast<int>(out.stride(3))};
+
+        if(is_mqa_gqa)
+        {
+            p.tmp_grad_k_strides = {static_cast<int>(tmp_grad_k.stride(1)),
+                                    static_cast<int>(tmp_grad_k.stride(2)),
+                                    static_cast<int>(tmp_grad_k.stride(3))};
+            p.tmp_grad_v_strides = {static_cast<int>(tmp_grad_v.stride(1)),
+                                    static_cast<int>(tmp_grad_v.stride(2)),
+                                    static_cast<int>(tmp_grad_v.stride(3))};
+        };
+
+        if(bias.has_value())
+        {
+            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+            p.has_attn_bias               = true;
+            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
+                                   static_cast<int>(bias_4d_view.stride(1)),
+                                   static_cast<int>(bias_4d_view.stride(2)),
+                                   static_cast<int>(bias_4d_view.stride(3))};
+        }
+        else
+            p.has_attn_bias = false;
+
+        p.bias_has_grad = bias_requires_grad;
 
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+        p.dropout_prob  = static_cast<float>(dropout_p);
+        p.philox_seed   = rng_seed;
+        p.philox_offset = rng_offset;
 
-      p.has_attn_bias = true;
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
+        p.custom_mask_type = custom_mask_type;
 
-    p.bias_has_grad = bias_requires_grad;
+        p.host_seqstart_q.resize(p.num_batches + 1);
+        p.host_seqstart_k.resize(p.num_batches + 1);
 
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.philox_seed = rng_seed;
-    p.philox_offset = rng_offset;
+        for(int i = 0; i < p.host_seqstart_q.size(); i++)
+            p.host_seqstart_q[i] = *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
 
-    p.custom_mask_type = custom_mask_type;
+        for(int i = 0; i < p.host_seqstart_k.size(); i++)
+            p.host_seqstart_k[i] = *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
 
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
+        if(seqlen_k.has_value())
+        {
+            TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+            TORCH_CHECK(seqlen_k->dim() == 1);
+            TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+            CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
 
-    for (int i = 0; i < p.host_seqstart_q.size(); i++)
-      p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
+            p.host_seqlen_k.resize(p.num_batches);
 
-    for (int i = 0; i < p.host_seqstart_k.size(); i++)
-      p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
+            for(int i = 0; i < p.host_seqlen_k.size(); i++)
+                p.host_seqlen_k[i] = *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
+        }
 
-    if (seqlen_k.has_value()) {
-      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-      TORCH_CHECK(seqlen_k->dim() == 1);
-      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
+        char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+        char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+        char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+        char* out_ptr      = reinterpret_cast<char*>(out.data_ptr());
+        char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
+        char* attn_bias_ptr =
+            bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
+
+        char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+
+        char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
+        char* grad_k_ptr = is_mqa_gqa ? reinterpret_cast<char*>(tmp_grad_k.data_ptr())
+                                      : reinterpret_cast<char*>(grad_k.data_ptr());
+        char* grad_v_ptr = is_mqa_gqa ? reinterpret_cast<char*>(tmp_grad_v.data_ptr())
+                                      : reinterpret_cast<char*>(grad_v.data_ptr());
+        char* grad_bias_ptr =
+            bias_requires_grad ? reinterpret_cast<char*>(grad_bias.data_ptr()) : nullptr;
+
+        size_t multiplier = 1;
+
+        if(p.use_fp32_qkv_grad)
+            multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
+                         get_size_in_bytes(1, query.scalar_type());
+
+        std::cout << "qkv-grad precision multiplier is " << multiplier << std::endl;
+
+        for(int i = 0; i < p.num_batches; i++)
+        {
+            size_t tmp_q_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0], query.scalar_type());
+            size_t tmp_k_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0], key.scalar_type());
+            size_t tmp_v_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0], value.scalar_type());
+            size_t tmp_o_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0], out.scalar_type());
+            size_t tmp_logsumexp_offset = get_size_in_bytes(
+                static_cast<size_t>(i) * p.Hq * p.max_seqlen_q, logsumexp.scalar_type());
+
+            size_t tmp_grad_k_offset =
+                is_mqa_gqa ? get_size_in_bytes(static_cast<size_t>(p.host_seqstart_k[i]) *
+                                                   p.tmp_grad_k_strides[0],
+                                               tmp_grad_k.scalar_type())
+                           : tmp_k_offset;
+            size_t tmp_grad_v_offset =
+                is_mqa_gqa ? get_size_in_bytes(static_cast<size_t>(p.host_seqstart_k[i]) *
+                                                   p.tmp_grad_v_strides[0],
+                                               tmp_grad_v.scalar_type())
+                           : tmp_v_offset;
+
+            p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
+            p.grad_q_ptrs.push_back(
+                reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
+
+            p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
+            p.grad_k_ptrs.push_back(
+                reinterpret_cast<void*>(&grad_k_ptr[tmp_grad_k_offset * multiplier]));
+
+            p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
+            p.grad_v_ptrs.push_back(
+                reinterpret_cast<void*>(&grad_v_ptr[tmp_grad_v_offset * multiplier]));
+
+            p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
+            p.grad_out_ptrs.push_back(reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
+
+            p.logsumexp_ptrs.push_back(
+                reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+
+            if(bias.has_value())
+            {
+                size_t tmp_bias_offset = get_size_in_bytes(
+                    static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                        static_cast<size_t>(p.host_seqstart_k[i]) * p.attn_bias_strides[3],
+                    bias->scalar_type());
+
+                p.attn_bias_ptrs.push_back(
+                    reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+
+                if(bias_requires_grad)
+                {
+                    p.grad_bias_ptrs.push_back(
+                        reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
+                }
+            }
+
+            // ToDO: remove this after dev-op fix
+            p.randvals_ptrs.push_back(nullptr);
+        }
+    };
 
-      p.host_seqlen_k.resize(p.num_batches);
+    auto inDataType = query.scalar_type();
 
-      for (int i = 0; i < p.host_seqlen_k.size(); i++)
-        p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
+    if(!seqstart_q.has_value())
+    { // input is batched
+        BatchedBackwardParams batched_backward_params;
+
+        set_batched_backward_params(batched_backward_params);
+
+        if(inDataType == at::ScalarType::Half)
+        {
+            batched_backward_fp16(batched_backward_params, stream);
+        }
+        else if(inDataType == at::ScalarType::BFloat16)
+        {
+            batched_backward_bp16(batched_backward_params, stream);
+        }
+        else
+            throw std::runtime_error("input data-type is not supported");
     }
+    else
+    { // input is grouped
+        GroupedBackwardParams grouped_backward_params;
 
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
-    char* attn_bias_ptr =
-        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-    char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
-    char* grad_k_ptr = is_mqa_gqa
-        ? reinterpret_cast<char*>(tmp_grad_k.data_ptr())
-        : reinterpret_cast<char*>(grad_k.data_ptr());
-    char* grad_v_ptr = is_mqa_gqa
-        ? reinterpret_cast<char*>(tmp_grad_v.data_ptr())
-        : reinterpret_cast<char*>(grad_v.data_ptr());
-    char* grad_bias_ptr = bias_requires_grad
-        ? reinterpret_cast<char*>(grad_bias.data_ptr())
-        : nullptr;
-
-    size_t multiplier = 1;
-
-    if (p.use_fp32_qkv_grad)
-      multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
-          get_size_in_bytes(1, query.scalar_type());
-
-    std::cout << "qkv-grad precision multiplier is " << multiplier << std::endl;
-
-    for (int i = 0; i < p.num_batches; i++) {
-      size_t tmp_q_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
-          query.scalar_type());
-      size_t tmp_k_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
-          key.scalar_type());
-      size_t tmp_v_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
-          value.scalar_type());
-      size_t tmp_o_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
-          out.scalar_type());
-      size_t tmp_logsumexp_offset = get_size_in_bytes(
-          static_cast<size_t>(i) * p.Hq * p.max_seqlen_q,
-          logsumexp.scalar_type());
-
-      size_t tmp_grad_k_offset = is_mqa_gqa
-          ? get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.tmp_grad_k_strides[0],
-                tmp_grad_k.scalar_type())
-          : tmp_k_offset;
-      size_t tmp_grad_v_offset = is_mqa_gqa
-          ? get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.tmp_grad_v_strides[0],
-                tmp_grad_v.scalar_type())
-          : tmp_v_offset;
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-      p.grad_q_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
-
-      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-      p.grad_k_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_k_ptr[tmp_grad_k_offset * multiplier]));
-
-      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-      p.grad_v_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_v_ptr[tmp_grad_v_offset * multiplier]));
-
-      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-      p.grad_out_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
-
-      p.logsumexp_ptrs.push_back(
-          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-
-      if (bias.has_value()) {
-        size_t tmp_bias_offset = get_size_in_bytes(
-            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(
-            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-
-        if (bias_requires_grad) {
-          p.grad_bias_ptrs.push_back(
-              reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
+        set_grouped_backward_params(grouped_backward_params);
+
+        if(inDataType == at::ScalarType::Half)
+        {
+            grouped_backward_fp16(grouped_backward_params, stream);
+        }
+        else if(inDataType == at::ScalarType::BFloat16)
+        {
+            grouped_backward_bp16(grouped_backward_params, stream);
         }
-      }
+        else
+            throw std::runtime_error("input data-type is not supported");
+    }
 
-      // ToDO: remove this after dev-op fix
-      p.randvals_ptrs.push_back(nullptr);
+    if(is_mqa_gqa)
+    {
+        auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
+        auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
+        grad_k               = tmp_grad_k_view.sum(3);
+        grad_v               = tmp_grad_v_view.sum(3);
     }
-  };
-
-  auto inDataType = query.scalar_type();
-
-  if (!seqstart_q.has_value()) { // input is batched
-    BatchedBackwardParams batched_backward_params;
-
-    set_batched_backward_params(batched_backward_params);
-
-    if (inDataType == at::ScalarType::Half) {
-      batched_backward_fp16(batched_backward_params, stream);
-    } else if (inDataType == at::ScalarType::BFloat16) {
-      batched_backward_bp16(batched_backward_params, stream);
-    } else
-      throw std::runtime_error("input data-type is not supported");
-  } else { // input is grouped
-    GroupedBackwardParams grouped_backward_params;
-
-    set_grouped_backward_params(grouped_backward_params);
-
-    if (inDataType == at::ScalarType::Half) {
-      grouped_backward_fp16(grouped_backward_params, stream);
-    } else if (inDataType == at::ScalarType::BFloat16) {
-      grouped_backward_bp16(grouped_backward_params, stream);
-    } else
-      throw std::runtime_error("input data-type is not supported");
-  }
-
-  if (is_mqa_gqa) {
-    auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
-    auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
-    grad_k = tmp_grad_k_view.sum(3);
-    grad_v = tmp_grad_v_view.sum(3);
-  }
-
-  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
+
+    return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 #endif
 } // namespace
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
-      TORCH_FN(efficient_attention_backward_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m)
+{
+    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
+           TORCH_FN(efficient_attention_backward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index ecf73c09b0..a4282834ac 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -26,100 +26,91 @@ namespace {
  * generate a tensor with random uniform values. only used for testing, not much
  * attention is paid to performance
  */
-at::Tensor rand_uniform_int(
-    double dropout_prob,
-    const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
+at::Tensor
+rand_uniform_int(double dropout_prob,
+                 const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
 {
-  int B = out_pattern.size(0);
-  int num_heads = out_pattern.size(1);
-  int M = out_pattern.size(2);
-  int N = out_pattern.size(3);
-
-  // at::cuda::CUDAGuard device_guard(out_pattern.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  at::CUDAGeneratorImpl* gen =
-      at::get_generator_or_default<at::CUDAGeneratorImpl>(
-          c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-  at::PhiloxCudaState rng_engine_inputs;
-  {
-    std::lock_guard<std::mutex> lock(gen->mutex_);
-    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
-  }
-
-  const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-  int64_t philox_seed = std::get<0>(seeds);
-  int64_t philox_offset = std::get<1>(seeds);
-
-  at::Tensor randvals;
-
-  randvals = at::empty(
-      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
-  using DeviceOpInstance = ck::tensor_operation::device::DeviceBatchedDropout<
-      2, // NumDimG
-      ck::half_t,
-      int,
-      ck::half_t,
-      GemmSpec,
-      TensorSpecA,
-      TensorSpecB0,
-      TensorSpecB1,
-      TensorSpecC,
-      256, // BlockSize
-      64, // MPerBlock
-      128, // NPerBlock
-      32, // KPerBlock
-      8, // AK1
-      8, // BK1
-      32, // MPerXDL
-      32, // NPerXDL
-      2, // MXdlPerWave
-      1>; // NXdlPerWave
-
-  const uint64_t seed = 1;
-  const uint64_t offset = 0;
-
-  std::vector<ck::index_t> z_gs_ms_ns_lengths = {B, num_heads, M, N};
-  std::vector<ck::index_t> z_gs_ms_ns_strides = {
-      static_cast<int>(randvals.stride(0)),
-      static_cast<int>(randvals.stride(1)),
-      static_cast<int>(randvals.stride(2)),
-      static_cast<int>(randvals.stride(3))};
-
-  auto dropout_op = DeviceOpInstance();
-  auto dropout_invoker = dropout_op.MakeInvoker();
-
-  auto dropout_arg = dropout_op.MakeArgument(
-      static_cast<int*>(randvals.data_ptr()),
-      z_gs_ms_ns_lengths,
-      z_gs_ms_ns_strides,
-      {philox_seed, philox_offset});
-
-  dropout_invoker.Run(dropout_arg, StreamConfig{stream, false});
-  (void)hipStreamSynchronize(stream);
-
-  return randvals;
+    int B         = out_pattern.size(0);
+    int num_heads = out_pattern.size(1);
+    int M         = out_pattern.size(2);
+    int N         = out_pattern.size(3);
+
+    // at::cuda::CUDAGuard device_guard(out_pattern.device());
+    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+    at::CUDAGeneratorImpl* gen = at::get_generator_or_default<at::CUDAGeneratorImpl>(
+        c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+    at::PhiloxCudaState rng_engine_inputs;
+    {
+        std::lock_guard<std::mutex> lock(gen->mutex_);
+        rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+    }
+
+    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+    int64_t philox_seed   = std::get<0>(seeds);
+    int64_t philox_offset = std::get<1>(seeds);
+
+    at::Tensor randvals;
+
+    randvals = at::empty({B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+
+    static constexpr auto TensorSpecA = ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecB0 =
+        ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecB1 =
+        ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecC = ck::tensor_operation::device::TensorSpecialization::Default;
+
+    using DeviceOpInstance = ck::tensor_operation::device::DeviceBatchedDropout<2, // NumDimG
+                                                                                ck::half_t,
+                                                                                int,
+                                                                                ck::half_t,
+                                                                                GemmSpec,
+                                                                                TensorSpecA,
+                                                                                TensorSpecB0,
+                                                                                TensorSpecB1,
+                                                                                TensorSpecC,
+                                                                                256, // BlockSize
+                                                                                64,  // MPerBlock
+                                                                                128, // NPerBlock
+                                                                                32,  // KPerBlock
+                                                                                8,   // AK1
+                                                                                8,   // BK1
+                                                                                32,  // MPerXDL
+                                                                                32,  // NPerXDL
+                                                                                2,   // MXdlPerWave
+                                                                                1>;  // NXdlPerWave
+
+    const uint64_t seed   = 1;
+    const uint64_t offset = 0;
+
+    std::vector<ck::index_t> z_gs_ms_ns_lengths = {B, num_heads, M, N};
+    std::vector<ck::index_t> z_gs_ms_ns_strides = {static_cast<int>(randvals.stride(0)),
+                                                   static_cast<int>(randvals.stride(1)),
+                                                   static_cast<int>(randvals.stride(2)),
+                                                   static_cast<int>(randvals.stride(3))};
+
+    auto dropout_op      = DeviceOpInstance();
+    auto dropout_invoker = dropout_op.MakeInvoker();
+
+    auto dropout_arg = dropout_op.MakeArgument(static_cast<int*>(randvals.data_ptr()),
+                                               z_gs_ms_ns_lengths,
+                                               z_gs_ms_ns_strides,
+                                               {philox_seed, philox_offset});
+
+    dropout_invoker.Run(dropout_arg, StreamConfig{stream, false});
+    (void)hipStreamSynchronize(stream);
+
+    return randvals;
 } // namespace
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"),
-      TORCH_FN(rand_uniform_int));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m)
+{
+    m.impl(TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"), TORCH_FN(rand_uniform_int));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 42de5a540e..da14882f79 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -1,7 +1,9 @@
 /*
-  TODO: license header
-*/
-
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ATen/Dispatch.h>
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
@@ -11,166 +13,166 @@
 #include "ck_attention_forward_decoder.h"
 
 namespace {
-  constexpr int32_t kThreadsPerWavefront = 64;
-  constexpr int32_t kWavefrontsPerBlock = 16;
-  constexpr int32_t D_H = 4 * kThreadsPerWavefront;
-}
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock  = 16;
+constexpr int32_t D_H                  = 4 * kThreadsPerWavefront;
+} // namespace
 
 namespace {
 
 template <typename c10_t>
 struct c10_to_data_t;
 template <>
-struct c10_to_data_t<float> {
-  using type = float;
+struct c10_to_data_t<float>
+{
+    using type = float;
 };
 
 template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
+struct c10_to_data_t<c10::Half>
+{
+    using type = ck::half_t;
 };
 
 template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
+struct c10_to_data_t<c10::BFloat16>
+{
+    using type = ck::bhalf_t;
 };
-}
+} // namespace
 
 namespace {
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock,
+    AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                         \
+    AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                         \
+    AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+    AT_DISPATCH_SWITCH(                                                              \
+        TYPE, NAME, AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+template <int32_t ThreadsPerWavefront,
+          int32_t WavefrontsPerBlock,
           int32_t T_MAX = 8192,
-          int32_t D_H = 256>
-at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, H, D]
-    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == D_H, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= T_MAX);
-  TORCH_CHECK(cache_K.size(3) <= D_H);
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto H = XQ.size(2);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B, H, M);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = D_H * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-        auto O_acc = O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens ?
-            seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data() : nullptr;
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.size(1),
-            K_acc.size(3),
-            K_acc.size(2) == 1,
-            qk_scale,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-
-  return O;
+          int32_t D_H   = 256>
+at::Tensor&
+efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B, 1, H, D]
+                                                const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+                                                const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+                                                at::optional<at::Tensor> seq_kv_lens, // [B]
+                                                double qk_scale,
+                                                at::Tensor& O)
+{
+    static_assert(4 * ThreadsPerWavefront == D_H, "");
+    static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+    at::OptionalDeviceGuard guard(XQ.device());
+    TORCH_CHECK(XQ.is_cuda());
+    TORCH_CHECK(cache_K.is_cuda());
+    TORCH_CHECK(cache_V.is_cuda());
+
+    TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+    TORCH_CHECK(cache_K.size(1) <= T_MAX);
+    TORCH_CHECK(cache_K.size(3) <= D_H);
+
+    auto B = XQ.size(0);
+    auto M = XQ.size(1);
+    auto H = XQ.size(2);
+
+    TORCH_CHECK(B <= 1024);
+    TORCH_CHECK(M <= 1024);
+    TORCH_CHECK(H <= 1024);
+
+    dim3 blocks(B, H, M);
+    dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+    int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
+    int32_t smem_output  = D_H * sizeof(float) *
+                          threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+    const size_t lds_bytes = max(smem_softmax, smem_output);
+    auto stream            = at::cuda::getCurrentHIPStream().stream();
+
+    AT_DISPATCH_SWITCH_3(
+        at::ScalarType::Half,
+        at::ScalarType::BFloat16,
+        at::ScalarType::Float,
+        XQ.scalar_type(),
+        "efficient_attention_forward_decoder_ck",
+        [&] {
+            using ck_data_t   = c10_to_data_t<scalar_t>::type;
+            using device_op_t = ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
+            auto op           = device_op_t{};
+
+            auto XQ_acc = XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
+            auto K_acc  = cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+            auto V_acc  = cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
+            auto O_acc  = O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
+            auto seq_acc =
+                seq_kv_lens
+                    ? seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data()
+                    : nullptr;
+            auto arg = device_op_t::Argument(
+                reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+                reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+                reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+                seq_acc,
+                XQ_acc.stride(0),
+                XQ_acc.stride(1),
+                XQ_acc.stride(2),
+                K_acc.stride(0),
+                K_acc.stride(1),
+                K_acc.stride(2),
+                K_acc.size(1),
+                K_acc.size(3),
+                K_acc.size(2) == 1,
+                qk_scale,
+                blocks,
+                threads,
+                lds_bytes);
+
+            auto invoker = device_op_t::Invoker{};
+            (void)invoker.Run(arg, {stream});
+        });
+
+    return O;
 }
 
 #undef AT_DISPATCH_CASE_3
 #undef AT_DISPATCH_SWITCH_3
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ, // [B, 1, H, D]
-    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-  return O;
+at::Tensor
+efficient_attention_forward_decoder_ck_impl(const at::Tensor& XQ,      // [B, 1, H, D]
+                                            const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+                                            const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+                                            at::optional<at::Tensor> seq_kv_lens, // [B]
+                                            double qk_scale)
+{
+    auto O = at::empty_like(XQ);
+    efficient_attention_forward_decoder_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
+        XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
+    return O;
 }
 
-at::Tensor efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, H, D]
-    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+at::Tensor
+efficient_attention_forward_decoder_ck(const at::Tensor& XQ,      // [B, 1, H, D]
+                                       const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+                                       const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+                                       at::optional<at::Tensor> seq_kv_lens, // [B]
+                                       double qk_scale)
+{
+    return efficient_attention_forward_decoder_ck_impl<kThreadsPerWavefront, kWavefrontsPerBlock>(
+        XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
 }
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m)
+{
+    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+           TORCH_FN(efficient_attention_forward_decoder_ck));
 }
 
 #ifdef ATTN_FWD_DECODER_MAIN
@@ -206,106 +208,106 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 // clang-format on
 
-static void do_correctness_check() {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t H = 4;
-  auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, H, D}, options);
-  auto K = at::randn({B, 4096, H, D}, options);
-  auto V = at::randn({B, 4096, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
-
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
+static void do_correctness_check()
+{
+    const int32_t D = 4 * kThreadsPerWavefront;
+    const int32_t B = 1;
+    const int32_t H = 4;
+    auto options    = torch::TensorOptions()
+                       .dtype(torch::kFloat32)
+                       .layout(torch::kStrided)
+                       .device(torch::kCUDA, 1)
+                       .requires_grad(false);
+    auto int_options = options.dtype(torch::kInt);
+    auto XQ          = at::randn({B, 1, H, D}, options);
+    auto K           = at::randn({B, 4096, H, D}, options);
+    auto V           = at::randn({B, 4096, H, D}, options);
+    auto seq         = at::randint(63, 128, {B}, int_options);
+    double qk_scale  = 1. / sqrt(D);
+
+    auto result      = efficient_attention_forward_decoder_ck_impl<64, 1>(XQ, K, V, seq, qk_scale);
+    auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(XQ, K, V, seq, qk_scale);
+    auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+    printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
 }
 
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
-      std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block"
-          << std::endl;
-      return 0;
+int main(int argc, char** argv)
+{
+    if(argc == 1)
+    {
+        do_correctness_check();
     }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q = at::rand({batch_size, 1, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_heads, dim_per_head})
-        : at::rand({batch_size, padding, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
-    auto O = at::rand_like(Q);
-
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
+    else
+    {
+        const auto args = std::vector<std::string>(argv + 1, argv + argc);
+        if(args.size() != 7)
+        {
+            std::cout << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+                         "n_wavefronts_per_block"
+                      << std::endl;
+            return 0;
+        }
+        const int32_t n_keys     = std::stoi(args[0]);
+        const int32_t padding    = std::stoi(args[1]);
+        const int32_t batch_size = std::stoi(args[2]);
+        const int32_t n_heads    = std::stoi(args[3]);
+        const int32_t multiquery = (args[4] == "mq");
+        const auto dtype         = (args[5] == "f32")
+                               ? torch::kFloat32
+                               : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+        const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+        const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+        const auto options = torch::TensorOptions()
+                                 .dtype(dtype)
+                                 .layout(torch::kStrided)
+                                 .device(torch::kCUDA, 1)
+                                 .requires_grad(false);
+
+        const auto int_options = options.dtype(torch::kInt);
+        const auto Q           = at::rand({batch_size, 1, n_heads, dim_per_head}, options);
+        const auto K = multiquery ? at::rand({batch_size, padding, 1, dim_per_head}, options)
+                                        .expand({batch_size, padding, n_heads, dim_per_head})
+                                  : at::rand({batch_size, padding, n_heads, dim_per_head}, options);
+        const auto V = at::rand_like(K);
+        auto O       = at::rand_like(Q);
+
+        const auto seq        = at::randint(1, n_keys, {batch_size}, int_options);
+        const double qk_scale = 1. / sqrt(dim_per_head);
+        auto call_ptr =
+            decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront,
+                                                                      kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                                              \
+    case(n):                                                                                    \
+        call_ptr = &efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, (n)>; \
         break;
-    }
+
+        switch(n_wavefronts_per_block)
+        {
+            SWITCH_CASE_SET_CALLPTR(1);
+            SWITCH_CASE_SET_CALLPTR(2);
+            SWITCH_CASE_SET_CALLPTR(4);
+            SWITCH_CASE_SET_CALLPTR(8);
+            SWITCH_CASE_SET_CALLPTR(16);
+
+        default: call_ptr = nullptr; break;
+        }
 #undef SWITCH_CASE_SET_CALLPTR
 
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
+        if(call_ptr)
+        {
+            call_ptr(Q, K, V, seq, qk_scale, O);
+        }
+        else
+        {
+            std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                      << n_wavefronts_per_block << std::endl;
+        }
     }
-  }
-  return 0;
+    return 0;
 }
 
-#endif // MAIN
\ No newline at end of file
+#endif // MAIN
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index aaafa1b3b4..244e134a41 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <cmath>
 #include <mutex>
 
@@ -17,18 +23,10 @@
 #include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
-extern void batched_forward_fp16(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-extern void batched_forward_bp16(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-extern void grouped_forward_fp16(
-    GroupedForwardParams& param,
-    hipStream_t stream);
-extern void grouped_forward_bp16(
-    GroupedForwardParams& param,
-    hipStream_t stream);
+extern void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream);
+extern void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream);
+extern void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream);
+extern void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream);
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
 extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
@@ -42,11 +40,10 @@ namespace {
   (Mode BMHK) With all the heads having the same seqlen
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
-efficient_attention_forward_ck(
-    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
-    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
-    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward_ck(
+    const at::Tensor& query,               // [b, seqlen, num_heads_q, K]
+    const at::Tensor& key,                 // [b, seqlen, num_heads_kv, K]
+    const at::Tensor& value,               // [b, seqlen, num_heads_kv, Kv]
     const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
@@ -60,358 +57,378 @@ efficient_attention_forward_ck(
     bool compute_logsumexp,
     int64_t custom_mask_type,
     c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k) {
-  TORCH_CHECK(query.dim() == 4);
-  TORCH_CHECK(key.dim() == 4);
-  TORCH_CHECK(value.dim() == 4);
-
-  // Batch sizes
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // Sequence length
-  TORCH_CHECK(key.size(1) == value.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) % key.size(2) == 0);
-  TORCH_CHECK(key.size(2) == value.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-
-  TORCH_CHECK(query.scalar_type() == key.scalar_type());
-  TORCH_CHECK(query.scalar_type() == value.scalar_type());
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-    TORCH_CHECK(max_seqlen_q_.has_value());
-  };
-
-  // last dim is contiguous, device is kCUDA
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t Hq = query.size(-2);
-  int64_t Hkv = key.size(-2);
-  int64_t K = query.size(-1);
-  int64_t Kv = value.size(-1);
-
-  auto opts = query.options();
-
-  at::Tensor logsumexp;
-
-  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
-
-  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  if (use_dropout) {
-    at::PhiloxCudaState rng_engine_inputs;
-    at::CUDAGeneratorImpl* gen =
-        at::get_generator_or_default<at::CUDAGeneratorImpl>(
+    const c10::optional<at::Tensor>& seqlen_k)
+{
+    TORCH_CHECK(query.dim() == 4);
+    TORCH_CHECK(key.dim() == 4);
+    TORCH_CHECK(value.dim() == 4);
+
+    // Batch sizes
+    TORCH_CHECK(query.size(0) == key.size(0));
+    TORCH_CHECK(query.size(0) == value.size(0));
+
+    // Sequence length
+    TORCH_CHECK(key.size(1) == value.size(1));
+
+    // Num heads
+    TORCH_CHECK(query.size(2) % key.size(2) == 0);
+    TORCH_CHECK(key.size(2) == value.size(2));
+
+    // Embedding per head
+    TORCH_CHECK(query.size(3) == key.size(3));
+
+    TORCH_CHECK(query.scalar_type() == key.scalar_type());
+    TORCH_CHECK(query.scalar_type() == value.scalar_type());
+
+    TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+    if(seqstart_q.has_value())
+    {
+        TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+        TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+        TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
+        TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+        TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+        TORCH_CHECK(max_seqlen_q_.has_value());
+    };
+
+    // last dim is contiguous, device is kCUDA
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+    // at::cuda::CUDAGuard device_guard(query.device());
+    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+    int64_t B   = query.size(0);
+    int64_t M   = query.size(1);
+    int64_t N   = key.size(1);
+    int64_t Hq  = query.size(-2);
+    int64_t Hkv = key.size(-2);
+    int64_t K   = query.size(-1);
+    int64_t Kv  = value.size(-1);
+
+    auto opts = query.options();
+
+    at::Tensor logsumexp;
+
+    at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
+
+    const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+    int64_t philox_seed;
+    int64_t philox_offset;
+
+    if(use_dropout)
+    {
+        at::PhiloxCudaState rng_engine_inputs;
+        at::CUDAGeneratorImpl* gen = at::get_generator_or_default<at::CUDAGeneratorImpl>(
             c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
 
-    std::lock_guard<std::mutex> lock(gen->mutex_);
-    // if using dropout, we produce 1 random number for each element of the
-    // attention tensor
-    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
-
-    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-    philox_seed = std::get<0>(seeds);
-    philox_offset = std::get<1>(seeds);
-  }
-
-  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
+        std::lock_guard<std::mutex> lock(gen->mutex_);
+        // if using dropout, we produce 1 random number for each element of the
+        // attention tensor
+        rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
 
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(0)),
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.use_dropout = use_dropout;
-    p.philox_seed = philox_seed;
-    p.philox_offset = philox_offset;
-    p.compute_logsumexp = compute_logsumexp;
-
-    // the following parameters are only used by training forward
-    if (p.use_dropout)
-      p.dropout_prob = static_cast<float>(dropout_p);
-    else
-      p.dropout_prob = 0.0f;
-
-    if (p.compute_logsumexp) {
-      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
-      p.logsumexp_ptr = logsumexp.data_ptr();
-    } else
-      p.logsumexp_ptr = nullptr;
-  };
-
-  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
+        const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
 
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      const at::Tensor bias_4d_view =
-          get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.custom_mask_type = custom_mask_type;
-
-    // max_seqlen_q is used to create logsumexp tensor
-    p.max_seqlen_q = *max_seqlen_q_;
-
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
-
-    for (int i = 0; i < p.host_seqstart_q.size(); i++)
-      p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
-
-    for (int i = 0; i < p.host_seqstart_k.size(); i++)
-      p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
-
-    if (seqlen_k.has_value()) {
-      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-      TORCH_CHECK(seqlen_k->dim() == 1);
-      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
-
-      p.host_seqlen_k.resize(p.num_batches);
-
-      for (int i = 0; i < p.host_seqlen_k.size(); i++)
-        p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
+        philox_seed   = std::get<0>(seeds);
+        philox_offset = std::get<1>(seeds);
     }
 
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* attn_bias_ptr =
-        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-    for (int i = 0; i < p.num_batches; i++) {
-      size_t tmp_q_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
-          query.scalar_type());
-      size_t tmp_k_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
-          key.scalar_type());
-      size_t tmp_v_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
-          value.scalar_type());
-      size_t tmp_o_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
-          out.scalar_type());
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-
-      if (bias.has_value()) {
-        size_t tmp_bias_offset = get_size_in_bytes(
-            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(
-            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-      };
-
-      // ToDO: remove this after dev-op fix
-      p.randvals_ptrs.push_back(nullptr);
-    }
+    auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+        p.B   = B;
+        p.M   = M;
+        p.N   = N;
+        p.Hq  = Hq;
+        p.Hkv = Hkv;
+        p.K   = K;
+        p.Kv  = Kv;
+
+        if(scale.has_value())
+        {
+            p.scale = float(*scale);
+        }
+        else
+        {
+            p.scale = float(1.0 / std::sqrt(float(K)));
+        }
+
+        p.q_ptr   = query.data_ptr();
+        p.k_ptr   = key.data_ptr();
+        p.v_ptr   = value.data_ptr();
+        p.out_ptr = out.data_ptr();
+
+        p.q_strides   = {static_cast<int>(query.stride(0)),
+                       static_cast<int>(query.stride(1)),
+                       static_cast<int>(query.stride(2)),
+                       static_cast<int>(query.stride(3))};
+        p.k_strides   = {static_cast<int>(key.stride(0)),
+                       static_cast<int>(key.stride(1)),
+                       static_cast<int>(key.stride(2)),
+                       static_cast<int>(key.stride(3))};
+        p.v_strides   = {static_cast<int>(value.stride(0)),
+                       static_cast<int>(value.stride(1)),
+                       static_cast<int>(value.stride(2)),
+                       static_cast<int>(value.stride(3))};
+        p.out_strides = {static_cast<int>(out.stride(0)),
+                         static_cast<int>(out.stride(1)),
+                         static_cast<int>(out.stride(2)),
+                         static_cast<int>(out.stride(3))};
+
+        if(bias.has_value())
+        {
+            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+            p.has_attn_bias = true;
+            p.attn_bias_ptr = bias->data_ptr();
+
+            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
+                                   static_cast<int>(bias_4d_view.stride(1)),
+                                   static_cast<int>(bias_4d_view.stride(2)),
+                                   static_cast<int>(bias_4d_view.stride(3))};
+        }
+        else
+            p.has_attn_bias = false;
+
+        p.custom_mask_type = custom_mask_type;
+
+        p.use_dropout       = use_dropout;
+        p.philox_seed       = philox_seed;
+        p.philox_offset     = philox_offset;
+        p.compute_logsumexp = compute_logsumexp;
+
+        // the following parameters are only used by training forward
+        if(p.use_dropout)
+            p.dropout_prob = static_cast<float>(dropout_p);
+        else
+            p.dropout_prob = 0.0f;
+
+        if(p.compute_logsumexp)
+        {
+            logsumexp       = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
+            p.logsumexp_ptr = logsumexp.data_ptr();
+        }
+        else
+            p.logsumexp_ptr = nullptr;
+    };
 
-    p.use_dropout = use_dropout;
-    p.philox_seed = philox_seed;
-    p.philox_offset = philox_offset;
-    p.compute_logsumexp = compute_logsumexp;
+    auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+        p.num_batches = seqstart_q->size(0) - 1;
+        p.M           = M;
+        p.N           = N;
+        p.Hq          = Hq;
+        p.Hkv         = Hkv;
+        p.K           = K;
+        p.Kv          = Kv;
+
+        if(scale.has_value())
+        {
+            p.scale = float(*scale);
+        }
+        else
+        {
+            p.scale = float(1.0 / std::sqrt(float(K)));
+        }
+
+        p.q_strides   = {static_cast<int>(query.stride(1)),
+                       static_cast<int>(query.stride(2)),
+                       static_cast<int>(query.stride(3))};
+        p.k_strides   = {static_cast<int>(key.stride(1)),
+                       static_cast<int>(key.stride(2)),
+                       static_cast<int>(key.stride(3))};
+        p.v_strides   = {static_cast<int>(value.stride(1)),
+                       static_cast<int>(value.stride(2)),
+                       static_cast<int>(value.stride(3))};
+        p.out_strides = {static_cast<int>(out.stride(1)),
+                         static_cast<int>(out.stride(2)),
+                         static_cast<int>(out.stride(3))};
+
+        if(bias.has_value())
+        {
+            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+            p.has_attn_bias               = true;
+            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
+                                   static_cast<int>(bias_4d_view.stride(1)),
+                                   static_cast<int>(bias_4d_view.stride(2)),
+                                   static_cast<int>(bias_4d_view.stride(3))};
+        }
+        else
+            p.has_attn_bias = false;
+
+        p.custom_mask_type = custom_mask_type;
+
+        // max_seqlen_q is used to create logsumexp tensor
+        p.max_seqlen_q = *max_seqlen_q_;
+
+        p.host_seqstart_q.resize(p.num_batches + 1);
+        p.host_seqstart_k.resize(p.num_batches + 1);
+
+        for(int i = 0; i < p.host_seqstart_q.size(); i++)
+            p.host_seqstart_q[i] = *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
+
+        for(int i = 0; i < p.host_seqstart_k.size(); i++)
+            p.host_seqstart_k[i] = *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
+
+        if(seqlen_k.has_value())
+        {
+            TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+            TORCH_CHECK(seqlen_k->dim() == 1);
+            TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+            CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
+
+            p.host_seqlen_k.resize(p.num_batches);
+
+            for(int i = 0; i < p.host_seqlen_k.size(); i++)
+                p.host_seqlen_k[i] = *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
+        }
+
+        char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+        char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+        char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+        char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+        char* attn_bias_ptr =
+            bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
+
+        for(int i = 0; i < p.num_batches; i++)
+        {
+            size_t tmp_q_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0], query.scalar_type());
+            size_t tmp_k_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0], key.scalar_type());
+            size_t tmp_v_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0], value.scalar_type());
+            size_t tmp_o_offset = get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0], out.scalar_type());
+
+            p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
+            p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
+            p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
+            p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
+
+            if(bias.has_value())
+            {
+                size_t tmp_bias_offset = get_size_in_bytes(
+                    static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                        static_cast<size_t>(p.host_seqstart_k[i]) * p.attn_bias_strides[3],
+                    bias->scalar_type());
+
+                p.attn_bias_ptrs.push_back(
+                    reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+            };
+
+            // ToDO: remove this after dev-op fix
+            p.randvals_ptrs.push_back(nullptr);
+        }
+
+        p.use_dropout       = use_dropout;
+        p.philox_seed       = philox_seed;
+        p.philox_offset     = philox_offset;
+        p.compute_logsumexp = compute_logsumexp;
+
+        // the following parameters are only used by training forward
+        if(p.use_dropout)
+            p.dropout_prob = static_cast<float>(dropout_p);
+        else
+            p.dropout_prob = 0.0f;
+
+        if(p.compute_logsumexp)
+        {
+            logsumexp = at::empty({p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+            char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+
+            for(int i = 0; i < p.num_batches; i++)
+            {
+                size_t tmp_logsumexp_offset = get_size_in_bytes(
+                    static_cast<size_t>(i) * Hq * p.max_seqlen_q, logsumexp.scalar_type());
+                p.logsumexp_ptrs.push_back(
+                    reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+            };
+        };
+    };
 
-    // the following parameters are only used by training forward
-    if (p.use_dropout)
-      p.dropout_prob = static_cast<float>(dropout_p);
+    auto inDataType = query.scalar_type();
+
+    if(!seqstart_q.has_value())
+    { // input is batched
+        BatchedForwardParams batched_forward_params;
+
+        set_batched_forward_params(batched_forward_params);
+
+        if(!batched_forward_params.use_dropout && !batched_forward_params.compute_logsumexp)
+        {
+            if(inDataType == at::ScalarType::Half)
+            {
+                batched_infer_fp16(batched_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                batched_infer_bp16(batched_forward_params, stream);
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+        }
+        else
+        {
+            if(inDataType == at::ScalarType::Half)
+            {
+                batched_forward_fp16(batched_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                batched_forward_bp16(batched_forward_params, stream);
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+        };
+    }
     else
-      p.dropout_prob = 0.0f;
-
-    if (p.compute_logsumexp) {
-      logsumexp = at::empty(
-          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
-      char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-      for (int i = 0; i < p.num_batches; i++) {
-        size_t tmp_logsumexp_offset = get_size_in_bytes(
-            static_cast<size_t>(i) * Hq * p.max_seqlen_q,
-            logsumexp.scalar_type());
-        p.logsumexp_ptrs.push_back(
-            reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-      };
-    };
-  };
-
-  auto inDataType = query.scalar_type();
-
-  if (!seqstart_q.has_value()) { // input is batched
-    BatchedForwardParams batched_forward_params;
-
-    set_batched_forward_params(batched_forward_params);
-
-    if (!batched_forward_params.use_dropout &&
-        !batched_forward_params.compute_logsumexp) {
-      if (inDataType == at::ScalarType::Half) {
-        batched_infer_fp16(batched_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_infer_bp16(batched_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else {
-      if (inDataType == at::ScalarType::Half) {
-        batched_forward_fp16(batched_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_forward_bp16(batched_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    };
-  } else { // input is grouped
-    GroupedForwardParams grouped_forward_params;
-
-    set_grouped_forward_params(grouped_forward_params);
-
-    if (!grouped_forward_params.use_dropout &&
-        !grouped_forward_params.compute_logsumexp) {
-      if (inDataType == at::ScalarType::Half) {
-        grouped_infer_fp16(grouped_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_infer_bp16(grouped_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else {
-      if (inDataType == at::ScalarType::Half) {
-        grouped_forward_fp16(grouped_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_forward_bp16(grouped_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
+    { // input is grouped
+        GroupedForwardParams grouped_forward_params;
+
+        set_grouped_forward_params(grouped_forward_params);
+
+        if(!grouped_forward_params.use_dropout && !grouped_forward_params.compute_logsumexp)
+        {
+            if(inDataType == at::ScalarType::Half)
+            {
+                grouped_infer_fp16(grouped_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                grouped_infer_bp16(grouped_forward_params, stream);
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+        }
+        else
+        {
+            if(inDataType == at::ScalarType::Half)
+            {
+                grouped_forward_fp16(grouped_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                grouped_forward_bp16(grouped_forward_params, stream);
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+        };
     };
-  };
 
-  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
-      TORCH_FN(efficient_attention_forward_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m)
+{
+    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
+           TORCH_FN(efficient_attention_forward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index e392935ce2..922f829090 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <cmath>
 #include <mutex>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_align_switch.h b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
index edd49290b8..f3dd9dbbe5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_align_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
@@ -1,145 +1,171 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <stdexcept>
 
 // assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_1(CONST_ALIGN_MAX1, CONST_ALIGN_NAME1, LENGTH1, ...)   \
-  [&] {                                                                     \
-    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
-      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
-        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
-        __VA_ARGS__();                                                      \
-      } else {                                                              \
-        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
-          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
-            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
-            __VA_ARGS__();                                                  \
-          } else {                                                          \
-            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
-              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
-                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
-                    CONST_ALIGN_MAX1 / 4;                                   \
-                __VA_ARGS__();                                              \
-              } else {                                                      \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
-                __VA_ARGS__();                                              \
-              };                                                            \
-            }                                                               \
-          };                                                                \
-        }                                                                   \
-      };                                                                    \
-    }                                                                       \
-  }()
+#define ALIGN_SWITCH_1(CONST_ALIGN_MAX1, CONST_ALIGN_NAME1, LENGTH1, ...)                       \
+    [&] {                                                                                       \
+        if constexpr(CONST_ALIGN_MAX1 > 0)                                                      \
+        {                                                                                       \
+            if(LENGTH1 % CONST_ALIGN_MAX1 == 0)                                                 \
+            {                                                                                   \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;                     \
+                __VA_ARGS__();                                                                  \
+            }                                                                                   \
+            else                                                                                \
+            {                                                                                   \
+                if constexpr(CONST_ALIGN_MAX1 / 2 > 0)                                          \
+                {                                                                               \
+                    if(LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0)                                   \
+                    {                                                                           \
+                        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;         \
+                        __VA_ARGS__();                                                          \
+                    }                                                                           \
+                    else                                                                        \
+                    {                                                                           \
+                        if constexpr(CONST_ALIGN_MAX1 / 4 > 0)                                  \
+                        {                                                                       \
+                            if(LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0)                           \
+                            {                                                                   \
+                                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 4; \
+                                __VA_ARGS__();                                                  \
+                            }                                                                   \
+                            else                                                                \
+                            {                                                                   \
+                                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                    \
+                                __VA_ARGS__();                                                  \
+                            };                                                                  \
+                        }                                                                       \
+                    };                                                                          \
+                }                                                                               \
+            };                                                                                  \
+        }                                                                                       \
+    }()
 
 // assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_2(                                                       \
-    CONST_ALIGN_MAX1,                                                         \
-    CONST_ALIGN_NAME1,                                                        \
-    LENGTH1,                                                                  \
-    CONST_ALIGN_MAX2,                                                         \
-    CONST_ALIGN_NAME2,                                                        \
-    LENGTH2,                                                                  \
-    ...)                                                                      \
-  [&] {                                                                       \
-    if constexpr (CONST_ALIGN_MAX1 > 0) {                                     \
-      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                  \
-        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;           \
-        ALIGN_SWITCH_1(                                                       \
-            CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);     \
-      } else {                                                                \
-        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                             \
-          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                        \
-            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;   \
-            ALIGN_SWITCH_1(                                                   \
-                CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
-          } else {                                                            \
-            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                         \
-              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                    \
-                constexpr ck::index_t CONST_ALIGN_NAME1 =                     \
-                    CONST_ALIGN_MAX1 / 4;                                     \
-                ALIGN_SWITCH_1(                                               \
-                    CONST_ALIGN_MAX2,                                         \
-                    CONST_ALIGN_NAME2,                                        \
-                    LENGTH2,                                                  \
-                    ##__VA_ARGS__);                                           \
-              } else {                                                        \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                  \
-                ALIGN_SWITCH_1(                                               \
-                    CONST_ALIGN_MAX2,                                         \
-                    CONST_ALIGN_NAME2,                                        \
-                    LENGTH2,                                                  \
-                    ##__VA_ARGS__);                                           \
-              };                                                              \
-            }                                                                 \
-          };                                                                  \
-        }                                                                     \
-      };                                                                      \
-    }                                                                         \
-  }()
+#define ALIGN_SWITCH_2(CONST_ALIGN_MAX1,                                                          \
+                       CONST_ALIGN_NAME1,                                                         \
+                       LENGTH1,                                                                   \
+                       CONST_ALIGN_MAX2,                                                          \
+                       CONST_ALIGN_NAME2,                                                         \
+                       LENGTH2,                                                                   \
+                       ...)                                                                       \
+    [&] {                                                                                         \
+        if constexpr(CONST_ALIGN_MAX1 > 0)                                                        \
+        {                                                                                         \
+            if(LENGTH1 % CONST_ALIGN_MAX1 == 0)                                                   \
+            {                                                                                     \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;                       \
+                ALIGN_SWITCH_1(CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);      \
+            }                                                                                     \
+            else                                                                                  \
+            {                                                                                     \
+                if constexpr(CONST_ALIGN_MAX1 / 2 > 0)                                            \
+                {                                                                                 \
+                    if(LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0)                                     \
+                    {                                                                             \
+                        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;           \
+                        ALIGN_SWITCH_1(                                                           \
+                            CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);         \
+                    }                                                                             \
+                    else                                                                          \
+                    {                                                                             \
+                        if constexpr(CONST_ALIGN_MAX1 / 4 > 0)                                    \
+                        {                                                                         \
+                            if(LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0)                             \
+                            {                                                                     \
+                                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 4;   \
+                                ALIGN_SWITCH_1(                                                   \
+                                    CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
+                            }                                                                     \
+                            else                                                                  \
+                            {                                                                     \
+                                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                      \
+                                ALIGN_SWITCH_1(                                                   \
+                                    CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
+                            };                                                                    \
+                        }                                                                         \
+                    };                                                                            \
+                }                                                                                 \
+            };                                                                                    \
+        }                                                                                         \
+    }()
 
 // assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_3(                                                     \
-    CONST_ALIGN_MAX1,                                                       \
-    CONST_ALIGN_NAME1,                                                      \
-    LENGTH1,                                                                \
-    CONST_ALIGN_MAX2,                                                       \
-    CONST_ALIGN_NAME2,                                                      \
-    LENGTH2,                                                                \
-    CONST_ALIGN_MAX3,                                                       \
-    CONST_ALIGN_NAME3,                                                      \
-    LENGTH3,                                                                \
-    ...)                                                                    \
-  [&] {                                                                     \
-    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
-      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
-        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
-        ALIGN_SWITCH_2(                                                     \
-            CONST_ALIGN_MAX2,                                               \
-            CONST_ALIGN_NAME2,                                              \
-            LENGTH2,                                                        \
-            CONST_ALIGN_MAX3,                                               \
-            CONST_ALIGN_NAME3,                                              \
-            LENGTH3,                                                        \
-            ##__VA_ARGS__);                                                 \
-      } else {                                                              \
-        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
-          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
-            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
-            ALIGN_SWITCH_2(                                                 \
-                CONST_ALIGN_MAX2,                                           \
-                CONST_ALIGN_NAME2,                                          \
-                LENGTH2,                                                    \
-                CONST_ALIGN_MAX3,                                           \
-                CONST_ALIGN_NAME3,                                          \
-                LENGTH3,                                                    \
-                ##__VA_ARGS__);                                             \
-          } else {                                                          \
-            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
-              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
-                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
-                    CONST_ALIGN_MAX1 / 4;                                   \
-                ALIGN_SWITCH_2(                                             \
-                    CONST_ALIGN_MAX2,                                       \
-                    CONST_ALIGN_NAME2,                                      \
-                    LENGTH2,                                                \
-                    CONST_ALIGN_MAX3,                                       \
-                    CONST_ALIGN_NAME3,                                      \
-                    LENGTH3,                                                \
-                    ##__VA_ARGS__);                                         \
-              } else {                                                      \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
-                ALIGN_SWITCH_2(                                             \
-                    CONST_ALIGN_MAX2,                                       \
-                    CONST_ALIGN_NAME2,                                      \
-                    LENGTH2,                                                \
-                    CONST_ALIGN_MAX3,                                       \
-                    CONST_ALIGN_NAME3,                                      \
-                    LENGTH3,                                                \
-                    ##__VA_ARGS__);                                         \
-              };                                                            \
-            }                                                               \
-          };                                                                \
-        }                                                                   \
-      };                                                                    \
-    }                                                                       \
-  }()
+#define ALIGN_SWITCH_3(CONST_ALIGN_MAX1,                                                        \
+                       CONST_ALIGN_NAME1,                                                       \
+                       LENGTH1,                                                                 \
+                       CONST_ALIGN_MAX2,                                                        \
+                       CONST_ALIGN_NAME2,                                                       \
+                       LENGTH2,                                                                 \
+                       CONST_ALIGN_MAX3,                                                        \
+                       CONST_ALIGN_NAME3,                                                       \
+                       LENGTH3,                                                                 \
+                       ...)                                                                     \
+    [&] {                                                                                       \
+        if constexpr(CONST_ALIGN_MAX1 > 0)                                                      \
+        {                                                                                       \
+            if(LENGTH1 % CONST_ALIGN_MAX1 == 0)                                                 \
+            {                                                                                   \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;                     \
+                ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                                \
+                               CONST_ALIGN_NAME2,                                               \
+                               LENGTH2,                                                         \
+                               CONST_ALIGN_MAX3,                                                \
+                               CONST_ALIGN_NAME3,                                               \
+                               LENGTH3,                                                         \
+                               ##__VA_ARGS__);                                                  \
+            }                                                                                   \
+            else                                                                                \
+            {                                                                                   \
+                if constexpr(CONST_ALIGN_MAX1 / 2 > 0)                                          \
+                {                                                                               \
+                    if(LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0)                                   \
+                    {                                                                           \
+                        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;         \
+                        ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                        \
+                                       CONST_ALIGN_NAME2,                                       \
+                                       LENGTH2,                                                 \
+                                       CONST_ALIGN_MAX3,                                        \
+                                       CONST_ALIGN_NAME3,                                       \
+                                       LENGTH3,                                                 \
+                                       ##__VA_ARGS__);                                          \
+                    }                                                                           \
+                    else                                                                        \
+                    {                                                                           \
+                        if constexpr(CONST_ALIGN_MAX1 / 4 > 0)                                  \
+                        {                                                                       \
+                            if(LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0)                           \
+                            {                                                                   \
+                                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 4; \
+                                ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                \
+                                               CONST_ALIGN_NAME2,                               \
+                                               LENGTH2,                                         \
+                                               CONST_ALIGN_MAX3,                                \
+                                               CONST_ALIGN_NAME3,                               \
+                                               LENGTH3,                                         \
+                                               ##__VA_ARGS__);                                  \
+                            }                                                                   \
+                            else                                                                \
+                            {                                                                   \
+                                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                    \
+                                ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                \
+                                               CONST_ALIGN_NAME2,                               \
+                                               LENGTH2,                                         \
+                                               CONST_ALIGN_MAX3,                                \
+                                               CONST_ALIGN_NAME3,                               \
+                                               LENGTH3,                                         \
+                                               ##__VA_ARGS__);                                  \
+                            };                                                                  \
+                        }                                                                       \
+                    };                                                                          \
+                }                                                                               \
+            };                                                                                  \
+        }                                                                                       \
+    }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index eaf8f0bc52..7b39a2c543 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <ck/host_utility/kernel_launch_hip.hpp>
@@ -9,368 +15,387 @@
 
 namespace ck {
 template <>
-__device__ void inner_product<bhalf_t, bhalf_t, float>(
-    const bhalf_t& a,
-    const bhalf_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+__device__ void inner_product<bhalf_t, bhalf_t, float>(const bhalf_t& a, const bhalf_t& b, float& c)
+{
+    inner_product(type_convert<float>(a), type_convert<float>(b), c);
 }
 
 template <>
-__device__ void inner_product<half_t, half_t, float>(
-    const half_t& a,
-    const half_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+__device__ void inner_product<half_t, half_t, float>(const half_t& a, const half_t& b, float& c)
+{
+    inner_product(type_convert<float>(a), type_convert<float>(b), c);
 }
 
 template <>
-__device__ void inner_product<bhalf2_t, bhalf2_t, float>(
-    const bhalf2_t& a,
-    const bhalf2_t& b,
-    float& c) {
-  const vector_type<bhalf_t, 2> a_vector{a};
-  const vector_type<bhalf_t, 2> b_vector{b};
-  ck::static_for<0, 2, 1>{}([&](auto i) {
-    inner_product(
-        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-  });
+__device__ void
+inner_product<bhalf2_t, bhalf2_t, float>(const bhalf2_t& a, const bhalf2_t& b, float& c)
+{
+    const vector_type<bhalf_t, 2> a_vector{a};
+    const vector_type<bhalf_t, 2> b_vector{b};
+    ck::static_for<0, 2, 1>{}([&](auto i) {
+        inner_product(a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+    });
 }
 
 template <>
-__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
-    const bhalf4_t& a,
-    const bhalf4_t& b,
-    float& c) {
-  const vector_type<bhalf_t, 4> a_vector{a};
-  const vector_type<bhalf_t, 4> b_vector{b};
-  ck::static_for<0, 4, 1>{}([&](auto i) {
-    inner_product(
-        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-  });
+__device__ void
+inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, const bhalf4_t& b, float& c)
+{
+    const vector_type<bhalf_t, 4> a_vector{a};
+    const vector_type<bhalf_t, 4> b_vector{b};
+    ck::static_for<0, 4, 1>{}([&](auto i) {
+        inner_product(a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+    });
 }
 } // namespace ck
 
 namespace {
 
 template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
-    typename ck::vector_type<float, vec_size>::type acc,
-    typename ck::vector_type<data_t, vec_size>::type a,
-    float b) {
-  union {
-    decltype(acc) vec;
-    float arr[vec_size];
-  } acc_u{acc};
-  union {
-    decltype(a) vec;
-    data_t arr[vec_size];
-  } a_u{a};
+__device__ typename ck::vector_type<float, vec_size>::type
+scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc,
+                 typename ck::vector_type<data_t, vec_size>::type a,
+                 float b)
+{
+    union
+    {
+        decltype(acc) vec;
+        float arr[vec_size];
+    } acc_u{acc};
+    union
+    {
+        decltype(a) vec;
+        data_t arr[vec_size];
+    } a_u{a};
 
 #pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-  }
+    for(int32_t i = 0; i < vec_size; ++i)
+    {
+        acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+    }
 
-  return acc_u.vec;
+    return acc_u.vec;
 }
 
 template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f) {
+float __device__ __forceinline__ wavefrontReduce(float val, F f)
+{
 #pragma unroll
-  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
-    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-  }
-  return val;
+    for(int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1)
+    {
+        val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+    }
+    return val;
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void load_v(
-    const TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec* __restrict__ load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+__forceinline__ __device__ void
+load_v(const TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec* __restrict__ load_to)
+{
+    *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void store_v(
-    TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+__forceinline__ __device__ void
+store_v(TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec value)
+{
+    *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
-template <
-    typename scalar_t,
-    int32_t vec_size = 4,
-    int32_t n_loop_unroll = 16,
-    int32_t n_loop_unroll_tail = 2,
-    int32_t T_MAX = 8192,
-    int32_t n_wavefronts_per_block = 16>
-__global__ void efficient_attention_forward_decoder_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O,
-    const int32_t* __restrict__ seq_kv_lens,
-    const ptrdiff_t XQ_stride_0,
-    const ptrdiff_t XQ_stride_1,
-    const ptrdiff_t XQ_stride_2,
-    const ptrdiff_t K_stride_0,
-    const ptrdiff_t K_stride_1,
-    const ptrdiff_t K_stride_2,
-    const int32_t K_size_1,
-    const int32_t D_H,
-    const bool multiquery,
-    const float qk_scale) {
-  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
-
-  // Each block handles a single batch and head and query
-  const int32_t b = blockIdx.x;
-  const int32_t h = blockIdx.y;
-  const int32_t m = blockIdx.z;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_1;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][m][h][0]);
-  const auto XQO_base_offset =
-      b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
-  const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset =
-      b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
-  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-  // Load Q into registers in all wavefronts.
-  // Each thread handles `vec_size` D dimensions
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_t = float;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  const bool lane_active_for_io = lane_idx * vec_size < D_H;
-
-  extern __shared__ __align__(16) compute_t smem[];
-
-  data_vec_t q_thread = 0;
-  if (lane_active_for_io) {
-    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  }
-  // Each block computes different B value
-  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-  // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-  // Split T across wavefronts in a block, unroll loads to expose more
-  // parallelism.
-
-  data_vec_t k_loads[n_loop_unroll] = {};
-
-  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
-  const int32_t t_max_unroll = (t_max / dtt) * dtt;
-
-  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the K[b][t][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-      }
+template <typename scalar_t,
+          int32_t vec_size               = 4,
+          int32_t n_loop_unroll          = 16,
+          int32_t n_loop_unroll_tail     = 2,
+          int32_t T_MAX                  = 8192,
+          int32_t n_wavefronts_per_block = 16>
+__global__ void
+efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
+                                              const scalar_t* __restrict__ cache_K,
+                                              const scalar_t* __restrict__ cache_V,
+                                              scalar_t* __restrict__ O,
+                                              const int32_t* __restrict__ seq_kv_lens,
+                                              const ptrdiff_t XQ_stride_0,
+                                              const ptrdiff_t XQ_stride_1,
+                                              const ptrdiff_t XQ_stride_2,
+                                              const ptrdiff_t K_stride_0,
+                                              const ptrdiff_t K_stride_1,
+                                              const ptrdiff_t K_stride_2,
+                                              const int32_t K_size_1,
+                                              const int32_t D_H,
+                                              const bool multiquery,
+                                              const float qk_scale)
+{
+    static_assert(n_loop_unroll_tail < n_loop_unroll, "");
+
+    // Each block handles a single batch and head and query
+    const int32_t b = blockIdx.x;
+    const int32_t h = blockIdx.y;
+    const int32_t m = blockIdx.z;
+
+    // Note: this is decoding case where we attend to current and all previous
+    // tokens.
+    const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_1;
+
+    const int32_t lane_idx              = threadIdx.x;
+    const int32_t wavefront_idx         = threadIdx.y;
+    const int32_t threads_per_wavefront = blockDim.x;
+    const int32_t wavefronts_per_block  = blockDim.y;
+    const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
+    const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
+    // const auto* q_ = &(XQ_acc[b][m][h][0]);
+    const auto XQO_base_offset  = b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
+    const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+    const auto cache_KV_base_offset       = b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+    const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+    const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+    // Load Q into registers in all wavefronts.
+    // Each thread handles `vec_size` D dimensions
+
+    using data_t        = scalar_t;
+    using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
+    using compute_t     = float;
+    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+    const bool lane_active_for_io = lane_idx * vec_size < D_H;
+
+    extern __shared__ __align__(16) compute_t smem[];
+
+    data_vec_t q_thread = 0;
+    if(lane_active_for_io)
+    {
+        load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
     }
-    compute_t qk_accs[n_loop_unroll] = {};
+    // Each block computes different B value
+    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+    // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+    // Split T across wavefronts in a block, unroll loads to expose more
+    // parallelism.
+
+    data_vec_t k_loads[n_loop_unroll] = {};
+
+    constexpr auto dtt         = n_wavefronts_per_block * n_loop_unroll;
+    const int32_t t_max_unroll = (t_max / dtt) * dtt;
+
+    for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
+    {
+        if(lane_active_for_io)
+        {
 #pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-          q_thread, k_loads[ttt], qk_accs[ttt]);
-      qk_accs[ttt] *= qk_scale;
-
-      qk_accs[ttt] =
-          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
-    }
-    if (lane_idx == 0) {
-      auto* __restrict__ smem_base = smem + tt;
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                // load the K[b][t][h|0][:] row into registers
+                load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+            }
+        }
+        compute_t qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+        for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+        {
+            ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+                q_thread, k_loads[ttt], qk_accs[ttt]);
+            qk_accs[ttt] *= qk_scale;
+
+            qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
+            max_qk_acc   = ck::math::max(qk_accs[ttt], max_qk_acc);
+        }
+        if(lane_idx == 0)
+        {
+            auto* __restrict__ smem_base = smem + tt;
 #pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        smem_base[ttt] = qk_accs[ttt];
-      }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                smem_base[ttt] = qk_accs[ttt];
+            }
+        }
     }
-  }
 
-  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-       tt += wavefronts_per_block * n_loop_unroll_tail) {
-    if (lane_active_for_io) {
+    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+    for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+        tt += wavefronts_per_block * n_loop_unroll_tail)
+    {
+        if(lane_active_for_io)
+        {
 #pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the K[b][t][h|0][:] row into registers
-          load_v<data_t, data_vec_t>(
-              cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
+                {
+                    // load the K[b][t][h|0][:] row into registers
+                    load_v<data_t, data_vec_t>(
+                        cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+                }
+            }
         }
-      }
-    }
 #pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      compute_t qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-            q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
-
-        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
-        if (lane_idx == 0) {
-          smem[t] = qk_acc;
+        for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+        {
+            compute_t qk_acc = 0;
+            const int32_t t  = tt + ttt;
+            if(t < t_max)
+            {
+                ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+                    q_thread, k_loads[ttt], qk_acc);
+                qk_acc *= qk_scale;
+
+                qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+                max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+                // write accumulated sums to smem.
+                if(lane_idx == 0)
+                {
+                    smem[t] = qk_acc;
+                }
+            }
         }
-      }
     }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[T_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = ck::math::max(max_qk_acc, smem[T_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc =
-      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-  // each wavefront computes partial sum of exp.
-  compute_t softmax_denominator = 0.0f;
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  if (lane_idx == 0) {
-    smem[T_MAX + wavefront_idx] = softmax_denominator;
-  }
-  __syncthreads();
-
-  // now, compute sum of exp(x - max(x)) over all intermediate results.
-  softmax_denominator = 0.0;
-  if (lane_idx < wavefronts_per_block) {
-    softmax_denominator = smem[T_MAX + lane_idx];
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  const compute_t softmax_scale_factor = 1. / softmax_denominator;
-  // now, compute the normalization across all threads.
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
-  }
-  __syncthreads();
-
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
-
-  compute_t ps[n_loop_unroll] = {};
-  compute_vec_t o_acc = 0;
-  if (lane_active_for_io) {
-    for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll;
-         tt += dtt) {
+
+    // Use shared reduction to compute max and compute softmax on shared memory.
+    // write max acc
+    if(lane_idx == 0)
+    {
+        smem[T_MAX + wavefront_idx] = max_qk_acc;
+    }
+    __syncthreads();
+    if(lane_idx < wavefronts_per_block)
+    {
+        max_qk_acc = ck::math::max(max_qk_acc, smem[T_MAX + lane_idx]);
+    }
+    // shared across all threads in block
+    max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+    // each wavefront computes partial sum of exp.
+    compute_t softmax_denominator = 0.0f;
+    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    {
+        softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+    }
+    softmax_denominator =
+        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+
+    if(lane_idx == 0)
+    {
+        smem[T_MAX + wavefront_idx] = softmax_denominator;
+    }
+    __syncthreads();
+
+    // now, compute sum of exp(x - max(x)) over all intermediate results.
+    softmax_denominator = 0.0;
+    if(lane_idx < wavefronts_per_block)
+    {
+        softmax_denominator = smem[T_MAX + lane_idx];
+    }
+    softmax_denominator =
+        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+
+    const compute_t softmax_scale_factor = 1. / softmax_denominator;
+    // now, compute the normalization across all threads.
+    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    {
+        smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+    }
+    __syncthreads();
+
+    // Split T across wavefronts in a block
+    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+    // outputs are of size float[D]
+
+    compute_t ps[n_loop_unroll] = {};
+    compute_vec_t o_acc         = 0;
+    if(lane_active_for_io)
+    {
+        for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
+        {
 #pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the V[b][t][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t];
-      }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                // load the V[b][t][h|0][:] row into registers, reusing K register
+                // storage
+                load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+                ps[ttt] = smem[t];
+            }
 
 #pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        o_acc =
-            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-      }
-    }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+            }
+        }
 
-    for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
-         tt < t_max;
-         tt += wavefronts_per_block * n_loop_unroll_tail) {
+        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+            tt += wavefronts_per_block * n_loop_unroll_tail)
+        {
 #pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the V[b][t][h|0][:] row into registers, reusing K register
-          // storage
-          load_v<data_t, data_vec_t>(
-              cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-          ps[ttt] = smem[t];
-        }
-      }
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
+                {
+                    // load the V[b][t][h|0][:] row into registers, reusing K register
+                    // storage
+                    load_v<data_t, data_vec_t>(
+                        cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+                    ps[ttt] = smem[t];
+                }
+            }
 
 #pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          o_acc =
-              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
+                {
+                    o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+                }
+            }
         }
-      }
     }
-  }
-  // now, each thread has partial sums. Write to smem and get accumulated
-  // results back.
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-  if (lane_active_for_io) {
-    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-  }
-
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0 && lane_active_for_io) {
-    union {
-      compute_vec_t vec = 0;
-      compute_t arr[vec_size];
-    } r;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r.vec += partial_r;
+    // now, each thread has partial sums. Write to smem and get accumulated
+    // results back.
+    __syncthreads();
+
+    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+    if(lane_active_for_io)
+    {
+        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
     }
-    // elementwise convert from compute_t result to data_t out to be written
-    union {
-      data_vec_t vec;
-      data_t arr[vec_size];
-    } bf_r;
+
+    __syncthreads();
+    // sum up partial D rows from other wavefronts
+    if(wavefront_idx == 0 && lane_active_for_io)
+    {
+        union
+        {
+            compute_vec_t vec = 0;
+            compute_t arr[vec_size];
+        } r;
+        for(int32_t w = 0; w < wavefronts_per_block; ++w)
+        {
+            compute_vec_t partial_r;
+            load_v<compute_t, compute_vec_t>(
+                smem, w * threads_per_wavefront + lane_idx, &partial_r);
+            r.vec += partial_r;
+        }
+        // elementwise convert from compute_t result to data_t out to be written
+        union
+        {
+            data_vec_t vec;
+            data_t arr[vec_size];
+        } bf_r;
 #pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+        for(int32_t i = 0; i < vec_size; ++i)
+        {
+            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+        }
+        // write output row O[b][m][h][:]
+        data_t* __restrict__ o_ = O + XQO_base_offset;
+        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
     }
-    // write output row O[b][m][h][:]
-    data_t* __restrict__ o_ = O + XQO_base_offset;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-  }
 }
 
 } // namespace
@@ -379,121 +404,128 @@ namespace ck {
 namespace tensor_operation {
 namespace device {
 template <typename scalar_t>
-struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_0;
-    const ptrdiff_t XQ_stride_1;
-    const ptrdiff_t XQ_stride_2;
-    const ptrdiff_t K_stride_0;
-    const ptrdiff_t K_stride_1;
-    const ptrdiff_t K_stride_2;
-    const int32_t K_size_1;
-    const int32_t D_H;
-    const bool multiquery;
-    const float qk_scale;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_0,
-        const ptrdiff_t XQ_stride_1,
-        const ptrdiff_t XQ_stride_2,
-        const ptrdiff_t K_stride_0,
-        const ptrdiff_t K_stride_1,
-        const ptrdiff_t K_stride_2,
-        const int32_t K_size_1,
-        const int32_t D_H,
-        const bool multiquery,
-        const float qk_scale,
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_0(XQ_stride_0),
-          XQ_stride_1(XQ_stride_1),
-          XQ_stride_2(XQ_stride_2),
-          K_stride_0(K_stride_0),
-          K_stride_1(K_stride_1),
-          K_stride_2(K_stride_2),
-          K_size_1(K_size_1),
-          D_H(D_H),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-
-      auto D_H_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.D_H <= vec_size * threads_per_wavefront) {
-          D_H_alignment_necessary = vec_size;
+struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
+{
+    using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+    struct Argument : public BaseArgument
+    {
+        const scalar_t* __restrict__ XQ;
+        const scalar_t* __restrict__ cache_K;
+        const scalar_t* __restrict__ cache_V;
+        scalar_t* __restrict__ O;
+        const int32_t* __restrict__ seq_kv_lens;
+        const ptrdiff_t XQ_stride_0;
+        const ptrdiff_t XQ_stride_1;
+        const ptrdiff_t XQ_stride_2;
+        const ptrdiff_t K_stride_0;
+        const ptrdiff_t K_stride_1;
+        const ptrdiff_t K_stride_2;
+        const int32_t K_size_1;
+        const int32_t D_H;
+        const bool multiquery;
+        const float qk_scale;
+
+        const dim3 grid_dim;
+        const dim3 block_dim;
+        const size_t lds_bytes;
+
+        Argument(const scalar_t* __restrict__ XQ,
+                 const scalar_t* __restrict__ cache_K,
+                 const scalar_t* __restrict__ cache_V,
+                 scalar_t* __restrict__ O,
+                 const int32_t* __restrict__ seq_kv_lens,
+                 const ptrdiff_t XQ_stride_0,
+                 const ptrdiff_t XQ_stride_1,
+                 const ptrdiff_t XQ_stride_2,
+                 const ptrdiff_t K_stride_0,
+                 const ptrdiff_t K_stride_1,
+                 const ptrdiff_t K_stride_2,
+                 const int32_t K_size_1,
+                 const int32_t D_H,
+                 const bool multiquery,
+                 const float qk_scale,
+                 const dim3 grid_dim,
+                 const dim3 block_dim,
+                 const size_t lds_bytes)
+            : XQ(XQ),
+              cache_K(cache_K),
+              cache_V(cache_V),
+              O(O),
+              seq_kv_lens(seq_kv_lens),
+              XQ_stride_0(XQ_stride_0),
+              XQ_stride_1(XQ_stride_1),
+              XQ_stride_2(XQ_stride_2),
+              K_stride_0(K_stride_0),
+              K_stride_1(K_stride_1),
+              K_stride_2(K_stride_2),
+              K_size_1(K_size_1),
+              D_H(D_H),
+              multiquery(multiquery),
+              qk_scale(qk_scale),
+              grid_dim(grid_dim),
+              block_dim(block_dim),
+              lds_bytes(lds_bytes)
+        {
         }
-      }
-
-      if (!D_H_alignment_necessary) {
-        throw std::runtime_error("Unsupported D_H");
-      }
-
-      if (arg.D_H % D_H_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for D_H");
-      }
-
-      return launch_and_time_kernel(
-          stream_config,
-          D_H_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-              : D_H_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-              : D_H_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.O,
-          arg.seq_kv_lens,
-          arg.XQ_stride_0,
-          arg.XQ_stride_1,
-          arg.XQ_stride_2,
-          arg.K_stride_0,
-          arg.K_stride_1,
-          arg.K_stride_2,
-          arg.K_size_1,
-          arg.D_H,
-          arg.multiquery,
-          arg.qk_scale);
-    }
-  };
+    };
+
+    struct Invoker : public BaseInvoker
+    {
+        using Argument = DeviceOp::Argument;
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
+        {
+            auto threads_per_wavefront = arg.block_dim.x;
+
+            auto D_H_alignment_necessary = 0;
+
+            for(auto vec_size : {4, 2, 1})
+            {
+                if(arg.D_H <= vec_size * threads_per_wavefront)
+                {
+                    D_H_alignment_necessary = vec_size;
+                }
+            }
+
+            if(!D_H_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported D_H");
+            }
+
+            if(arg.D_H % D_H_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported alignment for D_H");
+            }
+
+            return launch_and_time_kernel(
+                stream_config,
+                D_H_alignment_necessary == 4
+                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+                    : D_H_alignment_necessary == 2
+                          ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                          : D_H_alignment_necessary == 1
+                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+                                : nullptr,
+                arg.grid_dim,
+                arg.block_dim,
+                arg.lds_bytes,
+                arg.XQ,
+                arg.cache_K,
+                arg.cache_V,
+                arg.O,
+                arg.seq_kv_lens,
+                arg.XQ_stride_0,
+                arg.XQ_stride_1,
+                arg.XQ_stride_2,
+                arg.K_stride_0,
+                arg.K_stride_1,
+                arg.K_stride_2,
+                arg.K_size_1,
+                arg.D_H,
+                arg.multiquery,
+                arg.qk_scale);
+        }
+    };
 };
 } // namespace device
 } // namespace tensor_operation
-} // namespace ck
\ No newline at end of file
+} // namespace ck
diff --git a/xformers/csrc/attention/hip_fmha/ck_bool_switch.h b/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
index 4e447a1430..4b92dd95a4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
@@ -1,23 +1,35 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
-#define BOOL_SWITCH_1(COND1, CONST_NAME1, ...) \
-  [&] {                                        \
-    if (COND1) {                               \
-      constexpr bool CONST_NAME1 = true;       \
-      __VA_ARGS__();                           \
-    } else {                                   \
-      constexpr bool CONST_NAME1 = false;      \
-      __VA_ARGS__();                           \
-    }                                          \
-  }()
+#define BOOL_SWITCH_1(COND1, CONST_NAME1, ...)  \
+    [&] {                                       \
+        if(COND1)                               \
+        {                                       \
+            constexpr bool CONST_NAME1 = true;  \
+            __VA_ARGS__();                      \
+        }                                       \
+        else                                    \
+        {                                       \
+            constexpr bool CONST_NAME1 = false; \
+            __VA_ARGS__();                      \
+        }                                       \
+    }()
 
 #define BOOL_SWITCH_2(COND1, CONST_NAME1, COND2, CONST_NAME2, ...) \
-  [&] {                                                            \
-    if (COND1) {                                                   \
-      constexpr bool CONST_NAME1 = true;                           \
-      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);             \
-    } else {                                                       \
-      constexpr bool CONST_NAME1 = false;                          \
-      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);             \
-    }                                                              \
-  }()
+    [&] {                                                          \
+        if(COND1)                                                  \
+        {                                                          \
+            constexpr bool CONST_NAME1 = true;                     \
+            BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);      \
+        }                                                          \
+        else                                                       \
+        {                                                          \
+            constexpr bool CONST_NAME1 = false;                    \
+            BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);      \
+        }                                                          \
+    }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
index d80ffa43b2..b7de4dbf83 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <ck/ck.hpp>
@@ -5,186 +11,190 @@
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedBackward_V1 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  // static constexpr ck::index_t KPerBlock;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 4;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsBatchedBackward_V1
+{
+    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+    static constexpr ck::index_t BlockSize             = 256;
+    static constexpr ck::index_t MPerBlock             = 128;
+    static constexpr ck::index_t NPerBlock             = 128;
+    // static constexpr ck::index_t KPerBlock;
+    // static constexpr ck::index_t Gemm1NPerBlock;
+    static constexpr ck::index_t Gemm1KPerBlock = 32;
+    static constexpr ck::index_t Gemm2KPerBlock = 32;
+    static constexpr ck::index_t AK1            = 8;
+    static constexpr ck::index_t BK1            = 8;
+    static constexpr ck::index_t B1K1           = 2;
+    static constexpr ck::index_t MPerXDL        = 32;
+    static constexpr ck::index_t NPerXDL        = 32;
+    static constexpr ck::index_t MXdlPerWave    = 4;
+    static constexpr ck::index_t NXdlPerWave    = 1;
+    // static constexpr ck::index_t Gemm1NXdlPerWave;
+    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
+    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
+    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
+    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
+    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+    static constexpr bool ABlockLdsExtraM                             = true;
+    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
+    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
+    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
+    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
+    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+    static constexpr bool BBlockLdsExtraN                             = true;
+    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+    // using
+    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+    // static constexpr ck::index_t
+    // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedBackward_V2 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 64;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 128;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 64;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 2;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsBatchedBackward_V2
+{
+    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+    static constexpr ck::index_t BlockSize             = 256;
+    static constexpr ck::index_t MPerBlock             = 64;
+    static constexpr ck::index_t NPerBlock             = 128;
+    static constexpr ck::index_t KPerBlock             = 128;
+    // static constexpr ck::index_t Gemm1NPerBlock;
+    static constexpr ck::index_t Gemm1KPerBlock = 32;
+    static constexpr ck::index_t Gemm2KPerBlock = 64;
+    static constexpr ck::index_t AK1            = 8;
+    static constexpr ck::index_t BK1            = 8;
+    static constexpr ck::index_t B1K1           = 2;
+    static constexpr ck::index_t MPerXDL        = 32;
+    static constexpr ck::index_t NPerXDL        = 32;
+    static constexpr ck::index_t MXdlPerWave    = 2;
+    static constexpr ck::index_t NXdlPerWave    = 1;
+    // static constexpr ck::index_t Gemm1NXdlPerWave;
+    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
+    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
+    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
+    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
+    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+    static constexpr bool ABlockLdsExtraM                             = true;
+    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
+    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
+    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
+    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
+    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+    static constexpr bool BBlockLdsExtraN                             = true;
+    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+    using B1BlockTransferThreadClusterLengths_BK0_N_BK1      = S<8, 32, 1>;
+    using B1BlockTransferThreadClusterArrangeOrder           = S<0, 2, 1>;
+    using B1BlockTransferSrcAccessOrder                      = S<0, 2, 1>;
+    static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+    // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+    static constexpr bool B1BlockLdsExtraN                             = false;
+    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle         = 1;
+    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+    // using
+    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+    // static constexpr ck::index_t
+    // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedBackward_V1 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  // static constexpr ck::index_t KPerBlock;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 4;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsGroupedBackward_V1
+{
+    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+    static constexpr ck::index_t BlockSize             = 256;
+    static constexpr ck::index_t MPerBlock             = 128;
+    static constexpr ck::index_t NPerBlock             = 128;
+    // static constexpr ck::index_t KPerBlock;
+    // static constexpr ck::index_t Gemm1NPerBlock;
+    static constexpr ck::index_t Gemm1KPerBlock = 32;
+    static constexpr ck::index_t Gemm2KPerBlock = 32;
+    static constexpr ck::index_t AK1            = 8;
+    static constexpr ck::index_t BK1            = 8;
+    static constexpr ck::index_t B1K1           = 2;
+    static constexpr ck::index_t MPerXDL        = 32;
+    static constexpr ck::index_t NPerXDL        = 32;
+    static constexpr ck::index_t MXdlPerWave    = 4;
+    static constexpr ck::index_t NXdlPerWave    = 1;
+    // static constexpr ck::index_t Gemm1NXdlPerWave;
+    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
+    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
+    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
+    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
+    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+    static constexpr bool ABlockLdsExtraM                             = true;
+    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
+    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
+    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
+    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
+    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+    static constexpr bool BBlockLdsExtraN                             = true;
+    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+    // using
+    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+    // static constexpr ck::index_t
+    // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedBackward_V2 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 64;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 128;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 64;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 2;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsGroupedBackward_V2
+{
+    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+    static constexpr ck::index_t BlockSize             = 256;
+    static constexpr ck::index_t MPerBlock             = 64;
+    static constexpr ck::index_t NPerBlock             = 128;
+    static constexpr ck::index_t KPerBlock             = 128;
+    // static constexpr ck::index_t Gemm1NPerBlock;
+    static constexpr ck::index_t Gemm1KPerBlock = 32;
+    static constexpr ck::index_t Gemm2KPerBlock = 64;
+    static constexpr ck::index_t AK1            = 8;
+    static constexpr ck::index_t BK1            = 8;
+    static constexpr ck::index_t B1K1           = 2;
+    static constexpr ck::index_t MPerXDL        = 32;
+    static constexpr ck::index_t NPerXDL        = 32;
+    static constexpr ck::index_t MXdlPerWave    = 2;
+    static constexpr ck::index_t NXdlPerWave    = 1;
+    // static constexpr ck::index_t Gemm1NXdlPerWave;
+    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
+    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
+    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
+    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
+    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+    static constexpr bool ABlockLdsExtraM                             = true;
+    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
+    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
+    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
+    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
+    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+    static constexpr bool BBlockLdsExtraN                             = true;
+    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+    using B1BlockTransferThreadClusterLengths_BK0_N_BK1      = S<8, 32, 1>;
+    using B1BlockTransferThreadClusterArrangeOrder           = S<0, 2, 1>;
+    using B1BlockTransferSrcAccessOrder                      = S<0, 2, 1>;
+    static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+    // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+    static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+    static constexpr bool B1BlockLdsExtraN                             = false;
+    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle         = 1;
+    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+    // using
+    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+    // static constexpr ck::index_t
+    // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 9293d4d4f5..3c5fdffc2c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <sstream>
@@ -16,60 +22,56 @@
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-struct batched_backward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-  using Scale = ck::tensor_operation::element_wise::Scale;
-
-  using QKVElementOp = PassThrough;
-  using YElementOp = PassThrough;
-
-  using InputDataType = scalar_t;
-  using OutputDataType =
-      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
-  using GemmDataType = scalar_t;
-  using AccDataType = F32;
-  using ShuffleDataType = F32;
-  using LSEDataType = F32;
-  using ZDataType = unsigned short;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr bool Deterministic = true;
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
+struct batched_backward_masktype_attnbias_dispatched
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+    using Scale       = ck::tensor_operation::element_wise::Scale;
+
+    using QKVElementOp = PassThrough;
+    using YElementOp   = PassThrough;
+
+    using InputDataType    = scalar_t;
+    using OutputDataType   = typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
+    using GemmDataType     = scalar_t;
+    using AccDataType      = F32;
+    using ShuffleDataType  = F32;
+    using LSEDataType      = F32;
+    using ZDataType        = unsigned short;
+    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
+    using Acc1BiasDataType = void;
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    static constexpr auto MaskingSpec =
+        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
+
+    static constexpr bool Deterministic = true;
+
+    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_BACKWARD_V1_HEADDIM_SWITCH
-#define BATCHED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                               \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
-      __VA_ARGS__();                                                  \
-    } else {                                                          \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
-      __VA_ARGS__();                                                  \
-    };                                                                \
-  }()
+#define BATCHED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)              \
+    [&] {                                                                          \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                                     \
+        {                                                                          \
+            constexpr ck::index_t kGemm1NPerBlock                = 32;             \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 1;              \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;              \
+            using kCShuffleBlockTransferClusterLengths           = S<1, 64, 1, 4>; \
+            __VA_ARGS__();                                                         \
+        }                                                                          \
+        else                                                                       \
+        {                                                                          \
+            constexpr ck::index_t kGemm1NPerBlock                = 64;             \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 2;              \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;              \
+            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>; \
+            __VA_ARGS__();                                                         \
+        };                                                                         \
+    }()
 #endif
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -140,9 +142,9 @@ struct batched_backward_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-  // clang-format on
+    // clang-format on
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -221,297 +223,276 @@ struct batched_backward_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    if (param.K <= 64 && param.Kv <= 64) {
-      // compile-time constants which don't depend on head-dim switching
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedBackward_V1::AK1 /
-          GemmOpConstantsBatchedBackward_V1::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedBackward_V1::BK1 /
-          GemmOpConstantsBatchedBackward_V1::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      BATCHED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-        constexpr ck::index_t thread_slice_length_cshuflle_n =
-            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-             kGemm1NXdlPerWave) /
-            kCShuffleBlockTransferClusterLengths::At(I3);
-
-        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-            min(2, thread_slice_length_cshuflle_n);
-
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    // clang-format on
+
+    static constexpr auto I1 = ck::Number<1>{};
+    static constexpr auto I2 = ck::Number<2>{};
+    static constexpr auto I3 = ck::Number<3>{};
+
+    static void Run(BatchedBackwardParams& param, hipStream_t stream)
+    {
+        using ck::math::min;
+
+        if(param.K <= 64 && param.Kv <= 64)
+        {
+            // compile-time constants which don't depend on head-dim switching
+            constexpr ck::index_t thread_slice_length_ak1 =
+                GemmOpConstantsBatchedBackward_V1::AK1 /
+                GemmOpConstantsBatchedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
+                    I2);
+            constexpr ck::index_t thread_slice_length_bk1 =
+                GemmOpConstantsBatchedBackward_V1::BK1 /
+                GemmOpConstantsBatchedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
+                    I2);
+
+            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+                          "and ThreadClusterLengths!");
+
+            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_ak1);
+
+            BATCHED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+                constexpr ck::index_t thread_slice_length_cshuflle_n =
+                    (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                    kCShuffleBlockTransferClusterLengths::At(I3);
+
+                constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                    min(2, thread_slice_length_cshuflle_n);
+
+                ALIGN_SWITCH_2(
+                    kABBlockTransferSrcScalarPerVector_max,
+                    kABBlockTransferSrcScalarPerVector,
+                    param.K,
+                    kCShuffleBlockTransferScalarPerVector_max,
+                    kCShuffleBlockTransferScalarPerVector,
+                    param.Kv,
+                    [&] {
+                        using DeviceOpInstance =
+                            DeviceOpInstanceTemp_V1<kGemm1NPerBlock,
+                                                    kGemm1NXdlPerWave,
+                                                    kCShuffleNXdlPerWavePerShuffle,
+                                                    kCShuffleBlockTransferClusterLengths,
+                                                    kABBlockTransferSrcScalarPerVector,
+                                                    kCShuffleBlockTransferScalarPerVector>;
+
+                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                    });
             });
-      });
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedBackward_V2::AK1 /
-          GemmOpConstantsBatchedBackward_V2::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedBackward_V2::BK1 /
-          GemmOpConstantsBatchedBackward_V2::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedBackward_V2::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          kCShuffleBlockTransferClusterLengths::At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-
-              static_assert(
-                  kB1BlockTransferSrcScalarPerVector > 0,
-                  "kB1BlockTransferSrcScalarPerVector must be positive");
-
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-
-              static_assert(
-                  kB1BlockTransferSrcScalarPerVector > 0,
-                  "kB1BlockTransferSrcScalarPerVector must be positive");
-
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    };
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(
-      BatchedBackwardParams& param,
-      hipStream_t stream) {
-    std::vector<ck::index_t> q_gs_ms_ks_lengths{
-        param.B, param.Hq, param.M, param.K};
-    std::vector<ck::index_t> q_gs_ms_ks_strides{
-        param.q_strides[0],
-        param.q_strides[2],
-        param.q_strides[1],
-        param.q_strides[3]};
-
-    std::vector<ck::index_t> k_gs_ns_ks_lengths{
-        param.B, param.Hkv, param.N, param.K};
-    std::vector<ck::index_t> k_gs_ns_ks_strides{
-        param.k_strides[0],
-        param.k_strides[2],
-        param.k_strides[1],
-        param.k_strides[3]};
-
-    std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {
-        param.B, param.Hq, param.N, param.K};
-    std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
-        param.tmp_grad_k_strides[0],
-        param.tmp_grad_k_strides[2],
-        param.tmp_grad_k_strides[1],
-        param.tmp_grad_k_strides[3]};
-
-    std::vector<ck::index_t> v_gs_os_ns_lengths{
-        param.B, param.Hkv, param.Kv, param.N};
-    std::vector<ck::index_t> v_gs_os_ns_strides{
-        param.v_strides[0],
-        param.v_strides[2],
-        param.v_strides[3],
-        param.v_strides[1]};
-
-    std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {
-        param.B, param.Hq, param.Kv, param.N};
-    std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
-        param.tmp_grad_v_strides[0],
-        param.tmp_grad_v_strides[2],
-        param.tmp_grad_v_strides[3],
-        param.tmp_grad_v_strides[1]};
-
-    std::vector<ck::index_t> y_gs_ms_os_lengths{
-        param.B, param.Hq, param.M, param.Kv};
-    std::vector<ck::index_t> y_gs_ms_os_strides{
-        param.out_strides[0],
-        param.out_strides[2],
-        param.out_strides[1],
-        param.out_strides[3]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-      d_gs_ms_ns_strides = {
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
+        }
+        else
+        {
+            constexpr ck::index_t kGemm1NPerBlock                = 128;
+            constexpr ck::index_t kGemm1NXdlPerWave              = 4;
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>;
+
+            constexpr ck::index_t thread_slice_length_ak1 =
+                GemmOpConstantsBatchedBackward_V2::AK1 /
+                GemmOpConstantsBatchedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
+                    I2);
+            constexpr ck::index_t thread_slice_length_bk1 =
+                GemmOpConstantsBatchedBackward_V2::BK1 /
+                GemmOpConstantsBatchedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
+                    I2);
+
+            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+                          "and ThreadClusterLengths!");
+
+            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_ak1);
+
+            constexpr ck::index_t thread_slice_length_gemm1n =
+                kGemm1NPerBlock / GemmOpConstantsBatchedBackward_V2::
+                                      B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_gemm1n);
+
+            constexpr ck::index_t thread_slice_length_cshuflle_n =
+                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                kCShuffleBlockTransferClusterLengths::At(I3);
+
+            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                min(2, thread_slice_length_cshuflle_n);
+
+            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
+                         kCShuffleBlockTransferScalarPerVector_max)
+            {
+                ALIGN_SWITCH_2(
+                    kABBlockTransferSrcScalarPerVector_max,
+                    kABBlockTransferSrcScalarPerVector,
+                    param.K,
+                    kB1BlockTransferSrcScalarPerVector_max,
+                    kB1BlockTransferSrcScalarPerVector,
+                    param.Kv,
+                    [&] {
+                        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                            min(kB1BlockTransferSrcScalarPerVector,
+                                kCShuffleBlockTransferScalarPerVector_max);
+
+                        static_assert(kB1BlockTransferSrcScalarPerVector > 0,
+                                      "kB1BlockTransferSrcScalarPerVector must be positive");
+
+                        using DeviceOpInstance =
+                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
+                                                    kGemm1NXdlPerWave,
+                                                    kCShuffleNXdlPerWavePerShuffle,
+                                                    kCShuffleBlockTransferClusterLengths,
+                                                    kABBlockTransferSrcScalarPerVector,
+                                                    kB1BlockTransferSrcScalarPerVector,
+                                                    kCShuffleBlockTransferScalarPerVector>;
+
+                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                    });
+            }
+            else
+            {
+                ALIGN_SWITCH_2(
+                    kABBlockTransferSrcScalarPerVector_max,
+                    kABBlockTransferSrcScalarPerVector,
+                    param.K,
+                    kCShuffleBlockTransferScalarPerVector_max,
+                    kCShuffleBlockTransferScalarPerVector,
+                    param.Kv,
+                    [&] {
+                        constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                            min(kCShuffleBlockTransferScalarPerVector,
+                                kB1BlockTransferSrcScalarPerVector_max);
+
+                        static_assert(kB1BlockTransferSrcScalarPerVector > 0,
+                                      "kB1BlockTransferSrcScalarPerVector must be positive");
+
+                        using DeviceOpInstance =
+                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
+                                                    kGemm1NXdlPerWave,
+                                                    kCShuffleNXdlPerWavePerShuffle,
+                                                    kCShuffleBlockTransferClusterLengths,
+                                                    kABBlockTransferSrcScalarPerVector,
+                                                    kB1BlockTransferSrcScalarPerVector,
+                                                    kCShuffleBlockTransferScalarPerVector>;
+
+                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                    });
+            };
+        };
     };
 
-    float alpha = param.scale;
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptr,
-        param.k_ptr,
-        nullptr, // p_z_grid
-        param.v_ptr,
-        param.out_ptr,
-        param.logsumexp_ptr,
-        param.grad_out_ptr,
-        param.grad_q_ptr,
-        param.grad_k_ptr,
-        param.grad_v_ptr,
-        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-        nullptr, // p_acc1_bias
-        param.bias_has_grad ? param.grad_bias_ptr : nullptr,
-        nullptr,
-        q_gs_ms_ks_lengths, // q, dQ should have same shape
-        q_gs_ms_ks_strides,
-        k_gs_ns_ks_lengths, // k, dK should have same shape
-        k_gs_ns_ks_strides,
-        {1, 1, 1, 1}, // z_gs_ms_ns_lengths
-        {0, 0, 0, 0}, // z_gs_ms_ns_strides
-        v_gs_os_ns_lengths, // v, dV should have same shape
-        v_gs_os_ns_strides,
-        y_gs_ms_os_lengths, // y, dY should have same shape
-        y_gs_ms_os_strides,
-        lse_gs_ms_lengths,
-        param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
-        param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
-        param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
-        param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
-        d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides
-        QKVElementOp{},
-        QKVElementOp{},
-        Scale{alpha},
-        QKVElementOp{},
-        YElementOp{},
-        param.dropout_prob,
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
+    template <typename DeviceOpInstance>
+    static void RunWithDeviceOp(BatchedBackwardParams& param, hipStream_t stream)
+    {
+        std::vector<ck::index_t> q_gs_ms_ks_lengths{param.B, param.Hq, param.M, param.K};
+        std::vector<ck::index_t> q_gs_ms_ks_strides{
+            param.q_strides[0], param.q_strides[2], param.q_strides[1], param.q_strides[3]};
+
+        std::vector<ck::index_t> k_gs_ns_ks_lengths{param.B, param.Hkv, param.N, param.K};
+        std::vector<ck::index_t> k_gs_ns_ks_strides{
+            param.k_strides[0], param.k_strides[2], param.k_strides[1], param.k_strides[3]};
+
+        std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {param.B, param.Hq, param.N, param.K};
+        std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {param.tmp_grad_k_strides[0],
+                                                           param.tmp_grad_k_strides[2],
+                                                           param.tmp_grad_k_strides[1],
+                                                           param.tmp_grad_k_strides[3]};
+
+        std::vector<ck::index_t> v_gs_os_ns_lengths{param.B, param.Hkv, param.Kv, param.N};
+        std::vector<ck::index_t> v_gs_os_ns_strides{
+            param.v_strides[0], param.v_strides[2], param.v_strides[3], param.v_strides[1]};
+
+        std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {param.B, param.Hq, param.Kv, param.N};
+        std::vector<ck::index_t> vgrad_gs_os_ns_strides = {param.tmp_grad_v_strides[0],
+                                                           param.tmp_grad_v_strides[2],
+                                                           param.tmp_grad_v_strides[3],
+                                                           param.tmp_grad_v_strides[1]};
+
+        std::vector<ck::index_t> y_gs_ms_os_lengths{param.B, param.Hq, param.M, param.Kv};
+        std::vector<ck::index_t> y_gs_ms_os_strides{
+            param.out_strides[0], param.out_strides[2], param.out_strides[1], param.out_strides[3]};
+
+        std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
+
+        std::vector<ck::index_t> d_gs_ms_ns_lengths;
+        std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+        if constexpr(has_attn_bias)
+        {
+            d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
+            d_gs_ms_ns_strides = {param.attn_bias_strides[0],
+                                  param.attn_bias_strides[1],
+                                  param.attn_bias_strides[2],
+                                  param.attn_bias_strides[3]};
+        }
+        else
+        {
+            d_gs_ms_ns_lengths = {1, 1, 1, 1};
+            d_gs_ms_ns_strides = {0, 0, 0, 0};
+        };
+
+        float alpha = param.scale;
+
+        auto op      = DeviceOpInstance{};
+        auto invoker = op.MakeInvoker();
+
+        auto arg_ptr = op.MakeArgumentPointer(
+            param.q_ptr,
+            param.k_ptr,
+            nullptr, // p_z_grid
+            param.v_ptr,
+            param.out_ptr,
+            param.logsumexp_ptr,
+            param.grad_out_ptr,
+            param.grad_q_ptr,
+            param.grad_k_ptr,
+            param.grad_v_ptr,
+            param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+            nullptr, // p_acc1_bias
+            param.bias_has_grad ? param.grad_bias_ptr : nullptr,
+            nullptr,
+            q_gs_ms_ks_lengths, // q, dQ should have same shape
+            q_gs_ms_ks_strides,
+            k_gs_ns_ks_lengths, // k, dK should have same shape
+            k_gs_ns_ks_strides,
+            {1, 1, 1, 1},       // z_gs_ms_ns_lengths
+            {0, 0, 0, 0},       // z_gs_ms_ns_strides
+            v_gs_os_ns_lengths, // v, dV should have same shape
+            v_gs_os_ns_strides,
+            y_gs_ms_os_lengths, // y, dY should have same shape
+            y_gs_ms_os_strides,
+            lse_gs_ms_lengths,
+            param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
+            param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
+            param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
+            param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
+            d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
+            d_gs_ms_ns_strides,
+            {}, // acc1_biases_gs_ms_os_lengths
+            {}, // acc1_biases_gs_ms_os_strides
+            QKVElementOp{},
+            QKVElementOp{},
+            Scale{alpha},
+            QKVElementOp{},
+            YElementOp{},
+            param.dropout_prob,
+            std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+        if(!op.IsSupportedArgument(arg_ptr.get()))
+        {
+            std::ostringstream ostr;
+            ostr << op.GetTypeString() << " does not support this problem";
+
+            throw std::runtime_error(ostr.str());
+        }
+
+        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+    };
 };
 
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-void run_batched_backward_masktype_attnbias_dispatched(
-    BatchedBackwardParams& param,
-    hipStream_t stream) {
-  batched_backward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias,
-      use_fp32_qkv_grad>::Run(param, stream);
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
+void run_batched_backward_masktype_attnbias_dispatched(BatchedBackwardParams& param,
+                                                       hipStream_t stream)
+{
+    batched_backward_masktype_attnbias_dispatched<scalar_t,
+                                                  custom_mask_type,
+                                                  has_attn_bias,
+                                                  use_fp32_qkv_grad>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 319b039b95..774c3000c7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -1,107 +1,74 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_backward.h"
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void
+run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void
+run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void
+run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 1)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 2)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
+void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_2(
+        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
+            if(param.custom_mask_type == 0)
+                run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t,
+                                                                  0,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            else if(param.custom_mask_type == 1)
+                run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t,
+                                                                  1,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            else if(param.custom_mask_type == 2)
+                run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t,
+                                                                  2,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index 2bcf0653d5..3ffb862500 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -1,107 +1,71 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_backward.h"
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
 
-void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 1)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 2)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
+void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_2(
+        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
+            if(param.custom_mask_type == 0)
+                run_batched_backward_masktype_attnbias_dispatched<ck::half_t,
+                                                                  0,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            else if(param.custom_mask_type == 1)
+                run_batched_backward_masktype_attnbias_dispatched<ck::half_t,
+                                                                  1,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            else if(param.custom_mask_type == 2)
+                run_batched_backward_masktype_attnbias_dispatched<ck::half_t,
+                                                                  2,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index b6a98b5fc3..56dbb65233 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <sstream>
@@ -18,65 +24,68 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_forward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct batched_forward_masktype_attnbias_dispatched
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+    using GemmDataType     = scalar_t;
+    using ADataType        = scalar_t;
+    using B0DataType       = scalar_t;
+    using B1DataType       = scalar_t;
+    using AccDataType      = F32;
+    using CShuffleDataType = F32;
+    using CDataType        = scalar_t;
+    using ZDataType        = unsigned short;
+    using LSEDataType      = F32;
+    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
+    using Acc1BiasDataType = void;
+
+    static constexpr ck::index_t NumDimG = 2;
+    static constexpr ck::index_t NumDimM = 1;
+    static constexpr ck::index_t NumDimN = 1;
+    static constexpr ck::index_t NumDimK = 1;
+    static constexpr ck::index_t NumDimO = 1;
+
+    using AElementOp    = PassThrough;
+    using B0ElementOp   = PassThrough;
+    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+    using B1ElementOp   = PassThrough;
+    using CElementOp    = PassThrough;
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    static constexpr auto MaskingSpec =
+        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
+
+    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_FORWARD_HEADDIM_SWITCH
-#define BATCHED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                           \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-      __VA_ARGS__();                                              \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-      __VA_ARGS__();                                              \
-    } else {                                                      \
-      constexpr ck::index_t kGemm1NPerBlock = 128;                \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-      __VA_ARGS__();                                              \
-    }                                                             \
-  }()
+#define BATCHED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)       \
+    [&] {                                                               \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else                                                            \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 128; \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+    }()
 #endif
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -155,218 +164,201 @@ struct batched_forward_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           GemmOpConstantsBatchedForward::Acc1BiasTransferSrcScalarPerVector,
           MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsBatchedForward::AK1 /
-        GemmOpConstantsBatchedForward::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsBatchedForward::BK1 /
-        GemmOpConstantsBatchedForward::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedForward::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedForward::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
-    std::vector<ck::index_t> a_gs_ms_ks_lengths{
-        param.B, param.Hq, param.M, param.K};
-    std::vector<ck::index_t> a_gs_ms_ks_strides{
-        param.q_strides[0],
-        param.q_strides[2],
-        param.q_strides[1],
-        param.q_strides[3]};
-
-    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-        param.B, param.Hkv, param.N, param.K};
-    std::vector<ck::index_t> b0_gs_ns_ks_strides{
-        param.k_strides[0],
-        param.k_strides[2],
-        param.k_strides[1],
-        param.k_strides[3]};
-
-    // to be changed to b1_gs_ns_os_lengths
-    std::vector<ck::index_t> b1_gs_os_ns_lengths{
-        param.B, param.Hkv, param.Kv, param.N};
-    std::vector<ck::index_t> b1_gs_os_ns_strides{
-        param.v_strides[0],
-        param.v_strides[2],
-        param.v_strides[3],
-        param.v_strides[1]};
-
-    std::vector<ck::index_t> c_gs_ms_os_lengths{
-        param.B, param.Hq, param.M, param.Kv};
-    std::vector<ck::index_t> c_gs_ms_os_strides{
-        param.out_strides[0],
-        param.out_strides[2],
-        param.out_strides[1],
-        param.out_strides[3]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-      d_gs_ms_ns_strides = {
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    // clang-format on
+
+    static constexpr auto I1 = ck::Number<1>{};
+    static constexpr auto I2 = ck::Number<2>{};
+    static constexpr auto I3 = ck::Number<3>{};
+
+    static void Run(BatchedForwardParams& param, hipStream_t stream)
+    {
+        using ck::math::min;
+
+        // compile-time constants which don't depend on head-dim switching
+        constexpr ck::index_t thread_slice_length_ak1 =
+            GemmOpConstantsBatchedForward::AK1 /
+            GemmOpConstantsBatchedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+        constexpr ck::index_t thread_slice_length_bk1 =
+            GemmOpConstantsBatchedForward::BK1 /
+            GemmOpConstantsBatchedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+                      "ThreadClusterLengths!");
+
+        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+            min(8, thread_slice_length_ak1);
+
+        BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+            constexpr ck::index_t thread_slice_length_gemm1n =
+                kGemm1NPerBlock /
+                GemmOpConstantsBatchedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(
+                    I1);
+            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_gemm1n);
+
+            constexpr ck::index_t thread_slice_length_cshuflle_n =
+                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                GemmOpConstantsBatchedForward::
+                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
+
+            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                min(4, thread_slice_length_cshuflle_n);
+
+            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
+                         kCShuffleBlockTransferScalarPerVector_max)
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kB1BlockTransferSrcScalarPerVector_max,
+                               kB1BlockTransferSrcScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                                       min(kB1BlockTransferSrcScalarPerVector,
+                                           kCShuffleBlockTransferScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            }
+            else
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kCShuffleBlockTransferScalarPerVector_max,
+                               kCShuffleBlockTransferScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                                       min(kCShuffleBlockTransferScalarPerVector,
+                                           kB1BlockTransferSrcScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            };
+        });
     };
 
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptr,
-        param.k_ptr,
-        param.v_ptr,
-        param.out_ptr,
-        nullptr,
-        param.logsumexp_ptr,
-        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-        {}, // p_acc1_biases;
-        a_gs_ms_ks_lengths,
-        a_gs_ms_ks_strides,
-        b0_gs_ns_ks_lengths,
-        b0_gs_ns_ks_strides,
-        b1_gs_os_ns_lengths,
-        b1_gs_os_ns_strides,
-        c_gs_ms_os_lengths,
-        c_gs_ms_os_strides,
-        {1, 1, 1, 1},
-        {0, 0, 0, 0},
-        lse_gs_ms_lengths,
-        d_gs_ms_ns_lengths,
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op,
-        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-        std::tuple<int64_t, int64_t>(
-            param.philox_seed,
-            param.philox_offset)); // dropout random seed and offset
-
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
+    template <typename DeviceOpInstance>
+    static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream)
+    {
+        std::vector<ck::index_t> a_gs_ms_ks_lengths{param.B, param.Hq, param.M, param.K};
+        std::vector<ck::index_t> a_gs_ms_ks_strides{
+            param.q_strides[0], param.q_strides[2], param.q_strides[1], param.q_strides[3]};
+
+        std::vector<ck::index_t> b0_gs_ns_ks_lengths{param.B, param.Hkv, param.N, param.K};
+        std::vector<ck::index_t> b0_gs_ns_ks_strides{
+            param.k_strides[0], param.k_strides[2], param.k_strides[1], param.k_strides[3]};
+
+        // to be changed to b1_gs_ns_os_lengths
+        std::vector<ck::index_t> b1_gs_os_ns_lengths{param.B, param.Hkv, param.Kv, param.N};
+        std::vector<ck::index_t> b1_gs_os_ns_strides{
+            param.v_strides[0], param.v_strides[2], param.v_strides[3], param.v_strides[1]};
+
+        std::vector<ck::index_t> c_gs_ms_os_lengths{param.B, param.Hq, param.M, param.Kv};
+        std::vector<ck::index_t> c_gs_ms_os_strides{
+            param.out_strides[0], param.out_strides[2], param.out_strides[1], param.out_strides[3]};
+
+        std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
+
+        std::vector<ck::index_t> d_gs_ms_ns_lengths;
+        std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+        if constexpr(has_attn_bias)
+        {
+            d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
+            d_gs_ms_ns_strides = {param.attn_bias_strides[0],
+                                  param.attn_bias_strides[1],
+                                  param.attn_bias_strides[2],
+                                  param.attn_bias_strides[3]};
+        }
+        else
+        {
+            d_gs_ms_ns_lengths = {1, 1, 1, 1};
+            d_gs_ms_ns_strides = {0, 0, 0, 0};
+        };
+
+        float alpha = param.scale;
+
+        auto a_element_op    = AElementOp{};
+        auto b0_element_op   = B0ElementOp{};
+        auto acc0_element_op = Acc0ElementOp{alpha};
+        auto b1_element_op   = B1ElementOp{};
+        auto c_element_op    = CElementOp{};
+
+        auto op      = DeviceOpInstance{};
+        auto invoker = op.MakeInvoker();
+
+        auto arg_ptr = op.MakeArgumentPointer(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.out_ptr,
+            nullptr,
+            param.logsumexp_ptr,
+            param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+            {}, // p_acc1_biases;
+            a_gs_ms_ks_lengths,
+            a_gs_ms_ks_strides,
+            b0_gs_ns_ks_lengths,
+            b0_gs_ns_ks_strides,
+            b1_gs_os_ns_lengths,
+            b1_gs_os_ns_strides,
+            c_gs_ms_os_lengths,
+            c_gs_ms_os_strides,
+            {1, 1, 1, 1},
+            {0, 0, 0, 0},
+            lse_gs_ms_lengths,
+            d_gs_ms_ns_lengths,
+            d_gs_ms_ns_strides,
+            {}, // acc1_biases_gs_ms_os_lengths
+            {}, // acc1_biases_gs_ms_os_strides,
+            a_element_op,
+            b0_element_op,
+            acc0_element_op,
+            b1_element_op,
+            c_element_op,
+            param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+            std::tuple<int64_t, int64_t>(param.philox_seed,
+                                         param.philox_offset)); // dropout random seed and offset
+
+        SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+        if(!op.IsSupportedArgument(arg_ptr.get()))
+        {
+            std::ostringstream ostr;
+
+            ostr << op.GetTypeString() << " does not support this problem";
+
+            throw std::runtime_error(ostr.str());
+        }
+
+        invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+    };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_forward_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream) {
-  batched_forward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
+void run_batched_forward_masktype_attnbias_dispatched(BatchedForwardParams& param,
+                                                      hipStream_t stream)
+{
+    batched_forward_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+        param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 91d73009db..362379dd0e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_forward.h"
 
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
+                                                                        hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
+                                                                        hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
+                                                                        hipStream_t stream);
+
+void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                            stream);
+        else if(param.custom_mask_type == 1)
+            run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                            stream);
+        else if(param.custom_mask_type == 2)
+            run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                            stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index 557f6fb8a7..1d42798c8d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_forward.h"
 
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
+
+void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                           stream);
+        else if(param.custom_mask_type == 1)
+            run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                           stream);
+        else if(param.custom_mask_type == 2)
+            run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                           stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index dfc17191b7..af7c7679c5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <sstream>
@@ -18,59 +24,62 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_infer_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct batched_infer_masktype_attnbias_dispatched
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+    using GemmDataType     = scalar_t;
+    using ADataType        = scalar_t;
+    using B0DataType       = scalar_t;
+    using B1DataType       = scalar_t;
+    using AccDataType      = F32;
+    using CShuffleDataType = F32;
+    using CDataType        = scalar_t;
+    using ZDataType        = unsigned short;
+    using LSEDataType      = F32;
+    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
+    using Acc1BiasDataType = void;
+
+    using AElementOp    = PassThrough;
+    using B0ElementOp   = PassThrough;
+    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+    using B1ElementOp   = PassThrough;
+    using CElementOp    = PassThrough;
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    static constexpr auto MaskingSpec =
+        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
+
+    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_INFER_HEADDIM_SWITCH
-#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                         \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
-      constexpr ck::index_t kGemm1NPerBlock = 32;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
-      __VA_ARGS__();                                            \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
-      constexpr ck::index_t kGemm1NPerBlock = 64;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
-      __VA_ARGS__();                                            \
-    } else {                                                    \
-      constexpr ck::index_t kGemm1NPerBlock = 128;              \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
-      __VA_ARGS__();                                            \
-    }                                                           \
-  }()
+#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)         \
+    [&] {                                                               \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else                                                            \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 128; \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+    }()
 #endif
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -144,209 +153,190 @@ struct batched_infer_masktype_attnbias_dispatched {
           GemmOpConstantsBatchedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsBatchedInfer::AK1 /
-        GemmOpConstantsBatchedInfer::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsBatchedInfer::BK1 /
-        GemmOpConstantsBatchedInfer::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
-    std::vector<ck::index_t> a_gs_ms_ks_lengths{
-        param.B, param.Hq, param.M, param.K};
-    std::vector<ck::index_t> a_gs_ms_ks_strides{
-        param.q_strides[0],
-        param.q_strides[2],
-        param.q_strides[1],
-        param.q_strides[3]};
-
-    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-        param.B, param.Hkv, param.N, param.K};
-    std::vector<ck::index_t> b0_gs_ns_ks_strides{
-        param.k_strides[0],
-        param.k_strides[2],
-        param.k_strides[1],
-        param.k_strides[3]};
-
-    // to be changed to b1_gs_ns_os_lengths
-    std::vector<ck::index_t> b1_gs_os_ns_lengths{
-        param.B, param.Hkv, param.Kv, param.N};
-    std::vector<ck::index_t> b1_gs_os_ns_strides{
-        param.v_strides[0],
-        param.v_strides[2],
-        param.v_strides[3],
-        param.v_strides[1]};
-
-    std::vector<ck::index_t> c_gs_ms_os_lengths{
-        param.B, param.Hq, param.M, param.Kv};
-    std::vector<ck::index_t> c_gs_ms_os_strides{
-        param.out_strides[0],
-        param.out_strides[2],
-        param.out_strides[1],
-        param.out_strides[3]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-      d_gs_ms_ns_strides = {
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
+    // clang-format on
+
+    static constexpr auto I1 = ck::Number<1>{};
+    static constexpr auto I2 = ck::Number<2>{};
+    static constexpr auto I3 = ck::Number<3>{};
+
+    static void Run(BatchedForwardParams& param, hipStream_t stream)
+    {
+        using ck::math::min;
+
+        // compile-time constants which don't depend on head-dim switching
+        constexpr ck::index_t thread_slice_length_ak1 =
+            GemmOpConstantsBatchedInfer::AK1 /
+            GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+        constexpr ck::index_t thread_slice_length_bk1 =
+            GemmOpConstantsBatchedInfer::BK1 /
+            GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+                      "ThreadClusterLengths!");
+
+        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+            min(8, thread_slice_length_ak1);
+
+        BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+            constexpr ck::index_t thread_slice_length_gemm1n =
+                kGemm1NPerBlock /
+                GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+                min(4, thread_slice_length_gemm1n);
+
+            constexpr ck::index_t thread_slice_length_cshuflle_n =
+                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                GemmOpConstantsBatchedInfer::
+                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
+
+            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                min(4, thread_slice_length_cshuflle_n);
+
+            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
+                         kCShuffleBlockTransferScalarPerVector_max)
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kB1BlockTransferSrcScalarPerVector_max,
+                               kB1BlockTransferSrcScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                                       min(kB1BlockTransferSrcScalarPerVector,
+                                           kCShuffleBlockTransferScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            }
+            else
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kCShuffleBlockTransferScalarPerVector_max,
+                               kCShuffleBlockTransferScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                                       min(kCShuffleBlockTransferScalarPerVector,
+                                           kB1BlockTransferSrcScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            };
+        });
     };
 
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptr,
-        param.k_ptr,
-        param.v_ptr,
-        param.out_ptr,
-        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-        {}, // p_acc1_biases;
-        a_gs_ms_ks_lengths,
-        a_gs_ms_ks_strides,
-        b0_gs_ns_ks_lengths,
-        b0_gs_ns_ks_strides,
-        b1_gs_os_ns_lengths,
-        b1_gs_os_ns_strides,
-        c_gs_ms_os_lengths,
-        c_gs_ms_os_strides,
-        d_gs_ms_ns_lengths,
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op);
-
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
+    template <typename DeviceOpInstance>
+    static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream)
+    {
+        std::vector<ck::index_t> a_gs_ms_ks_lengths{param.B, param.Hq, param.M, param.K};
+        std::vector<ck::index_t> a_gs_ms_ks_strides{
+            param.q_strides[0], param.q_strides[2], param.q_strides[1], param.q_strides[3]};
+
+        std::vector<ck::index_t> b0_gs_ns_ks_lengths{param.B, param.Hkv, param.N, param.K};
+        std::vector<ck::index_t> b0_gs_ns_ks_strides{
+            param.k_strides[0], param.k_strides[2], param.k_strides[1], param.k_strides[3]};
+
+        // to be changed to b1_gs_ns_os_lengths
+        std::vector<ck::index_t> b1_gs_os_ns_lengths{param.B, param.Hkv, param.Kv, param.N};
+        std::vector<ck::index_t> b1_gs_os_ns_strides{
+            param.v_strides[0], param.v_strides[2], param.v_strides[3], param.v_strides[1]};
+
+        std::vector<ck::index_t> c_gs_ms_os_lengths{param.B, param.Hq, param.M, param.Kv};
+        std::vector<ck::index_t> c_gs_ms_os_strides{
+            param.out_strides[0], param.out_strides[2], param.out_strides[1], param.out_strides[3]};
+
+        std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
+
+        std::vector<ck::index_t> d_gs_ms_ns_lengths;
+        std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+        if constexpr(has_attn_bias)
+        {
+            d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
+            d_gs_ms_ns_strides = {param.attn_bias_strides[0],
+                                  param.attn_bias_strides[1],
+                                  param.attn_bias_strides[2],
+                                  param.attn_bias_strides[3]};
+        }
+        else
+        {
+            d_gs_ms_ns_lengths = {1, 1, 1, 1};
+            d_gs_ms_ns_strides = {0, 0, 0, 0};
+        };
+
+        float alpha = param.scale;
+
+        auto a_element_op    = AElementOp{};
+        auto b0_element_op   = B0ElementOp{};
+        auto acc0_element_op = Acc0ElementOp{alpha};
+        auto b1_element_op   = B1ElementOp{};
+        auto c_element_op    = CElementOp{};
+
+        auto op      = DeviceOpInstance{};
+        auto invoker = op.MakeInvoker();
+
+        auto arg_ptr = op.MakeArgumentPointer(param.q_ptr,
+                                              param.k_ptr,
+                                              param.v_ptr,
+                                              param.out_ptr,
+                                              param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+                                              {}, // p_acc1_biases;
+                                              a_gs_ms_ks_lengths,
+                                              a_gs_ms_ks_strides,
+                                              b0_gs_ns_ks_lengths,
+                                              b0_gs_ns_ks_strides,
+                                              b1_gs_os_ns_lengths,
+                                              b1_gs_os_ns_strides,
+                                              c_gs_ms_os_lengths,
+                                              c_gs_ms_os_strides,
+                                              d_gs_ms_ns_lengths,
+                                              d_gs_ms_ns_strides,
+                                              {}, // acc1_biases_gs_ms_os_lengths
+                                              {}, // acc1_biases_gs_ms_os_strides,
+                                              a_element_op,
+                                              b0_element_op,
+                                              acc0_element_op,
+                                              b1_element_op,
+                                              c_element_op);
+
+        SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+        if(!op.IsSupportedArgument(arg_ptr.get()))
+        {
+            std::ostringstream ostr;
+
+            ostr << op.GetTypeString() << " does not support this problem";
+
+            throw std::runtime_error(ostr.str());
+        }
+
+        invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+    };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_infer_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream) {
-  batched_infer_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
+void run_batched_infer_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
+{
+    batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+        param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
index 628f7ec84c..1530aad324 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_infer.h"
 
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 1)
+            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 2)
+            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
index 5e4c861c22..52b385aa20 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_infer.h"
 
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 1)
+            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 2)
+            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
index 654a7f8db7..6362916ae9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
@@ -1,23 +1,27 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <ck/ck.hpp>
 #include "ck_fmha_op_helper.h"
 
 // list the template parameters that is commonly used
-struct GemmOpConstantsCommon {
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
+struct GemmOpConstantsCommon
+{
+    static constexpr ck::index_t NumDimG = 2;
+    static constexpr ck::index_t NumDimM = 1;
+    static constexpr ck::index_t NumDimN = 1;
+    static constexpr ck::index_t NumDimK = 1;
+    static constexpr ck::index_t NumDimO = 1;
 
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecA = ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecB0 =
+        ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecB1 =
+        ck::tensor_operation::device::TensorSpecialization::Default;
+    static constexpr auto TensorSpecC = ck::tensor_operation::device::TensorSpecialization::Default;
 };
-
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
index c80ec4603a..ab3c159b7b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <ck/ck.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 71674bda74..2fb06ddd85 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <sstream>
@@ -18,60 +24,56 @@
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-struct grouped_backward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-  using Scale = ck::tensor_operation::element_wise::Scale;
-
-  using QKVElementOp = PassThrough;
-  using YElementOp = PassThrough;
-
-  using InputDataType = scalar_t;
-  using OutputDataType =
-      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
-  using GemmDataType = scalar_t;
-  using AccDataType = F32;
-  using ShuffleDataType = F32;
-  using LSEDataType = F32;
-  using ZDataType = unsigned short;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr bool Deterministic = true;
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
+struct grouped_backward_masktype_attnbias_dispatched
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+    using Scale       = ck::tensor_operation::element_wise::Scale;
+
+    using QKVElementOp = PassThrough;
+    using YElementOp   = PassThrough;
+
+    using InputDataType    = scalar_t;
+    using OutputDataType   = typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
+    using GemmDataType     = scalar_t;
+    using AccDataType      = F32;
+    using ShuffleDataType  = F32;
+    using LSEDataType      = F32;
+    using ZDataType        = unsigned short;
+    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
+    using Acc1BiasDataType = void;
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    static constexpr auto MaskingSpec =
+        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
+
+    static constexpr bool Deterministic = true;
+
+    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef GROUPED_BACKWARD_V1_HEADDIM_SWITCH
-#define GROUPED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                               \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
-      __VA_ARGS__();                                                  \
-    } else {                                                          \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
-      __VA_ARGS__();                                                  \
-    };                                                                \
-  }()
+#define GROUPED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)              \
+    [&] {                                                                          \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                                     \
+        {                                                                          \
+            constexpr ck::index_t kGemm1NPerBlock                = 32;             \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 1;              \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;              \
+            using kCShuffleBlockTransferClusterLengths           = S<1, 64, 1, 4>; \
+            __VA_ARGS__();                                                         \
+        }                                                                          \
+        else                                                                       \
+        {                                                                          \
+            constexpr ck::index_t kGemm1NPerBlock                = 64;             \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 2;              \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;              \
+            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>; \
+            __VA_ARGS__();                                                         \
+        };                                                                         \
+    }()
 #endif
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -142,9 +144,9 @@ struct grouped_backward_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-  // clang-format on
+    // clang-format on
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -223,296 +225,294 @@ struct grouped_backward_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    if (param.K <= 64 && param.Kv <= 64) {
-      // compile-time constants which don't depend on head-dim switching
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedBackward_V1::AK1 /
-          GemmOpConstantsGroupedBackward_V1::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedBackward_V1::BK1 /
-          GemmOpConstantsGroupedBackward_V1::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      GROUPED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-        constexpr ck::index_t thread_slice_length_cshuflle_n =
-            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-             kGemm1NXdlPerWave) /
-            kCShuffleBlockTransferClusterLengths::At(I3);
-
-        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-            min(2, thread_slice_length_cshuflle_n);
-
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      });
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedBackward_V2::AK1 /
-          GemmOpConstantsGroupedBackward_V2::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedBackward_V2::BK1 /
-          GemmOpConstantsGroupedBackward_V2::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedBackward_V2::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          kCShuffleBlockTransferClusterLengths::At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+    // clang-format on
+
+    static constexpr auto I1 = ck::Number<1>{};
+    static constexpr auto I2 = ck::Number<2>{};
+    static constexpr auto I3 = ck::Number<3>{};
+
+    static void Run(GroupedBackwardParams& param, hipStream_t stream)
+    {
+        using ck::math::min;
+
+        if(param.K <= 64 && param.Kv <= 64)
+        {
+            // compile-time constants which don't depend on head-dim switching
+            constexpr ck::index_t thread_slice_length_ak1 =
+                GemmOpConstantsGroupedBackward_V1::AK1 /
+                GemmOpConstantsGroupedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
+                    I2);
+            constexpr ck::index_t thread_slice_length_bk1 =
+                GemmOpConstantsGroupedBackward_V1::BK1 /
+                GemmOpConstantsGroupedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
+                    I2);
+
+            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+                          "and ThreadClusterLengths!");
+
+            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_ak1);
+
+            GROUPED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+                constexpr ck::index_t thread_slice_length_cshuflle_n =
+                    (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                    kCShuffleBlockTransferClusterLengths::At(I3);
+
+                constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                    min(2, thread_slice_length_cshuflle_n);
+
+                ALIGN_SWITCH_2(
+                    kABBlockTransferSrcScalarPerVector_max,
+                    kABBlockTransferSrcScalarPerVector,
+                    param.K,
+                    kCShuffleBlockTransferScalarPerVector_max,
+                    kCShuffleBlockTransferScalarPerVector,
+                    param.Kv,
+                    [&] {
+                        using DeviceOpInstance =
+                            DeviceOpInstanceTemp_V1<kGemm1NPerBlock,
+                                                    kGemm1NXdlPerWave,
+                                                    kCShuffleNXdlPerWavePerShuffle,
+                                                    kCShuffleBlockTransferClusterLengths,
+                                                    kABBlockTransferSrcScalarPerVector,
+                                                    kCShuffleBlockTransferScalarPerVector>;
+
+                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                    });
             });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+        }
+        else
+        {
+            constexpr ck::index_t kGemm1NPerBlock                = 128;
+            constexpr ck::index_t kGemm1NXdlPerWave              = 4;
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>;
+
+            constexpr ck::index_t thread_slice_length_ak1 =
+                GemmOpConstantsGroupedBackward_V2::AK1 /
+                GemmOpConstantsGroupedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
+                    I2);
+            constexpr ck::index_t thread_slice_length_bk1 =
+                GemmOpConstantsGroupedBackward_V2::BK1 /
+                GemmOpConstantsGroupedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
+                    I2);
+
+            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+                          "and ThreadClusterLengths!");
+
+            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_ak1);
+
+            constexpr ck::index_t thread_slice_length_gemm1n =
+                kGemm1NPerBlock / GemmOpConstantsGroupedBackward_V2::
+                                      B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_gemm1n);
+
+            constexpr ck::index_t thread_slice_length_cshuflle_n =
+                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                kCShuffleBlockTransferClusterLengths::At(I3);
+
+            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                min(2, thread_slice_length_cshuflle_n);
+
+            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
+                         kCShuffleBlockTransferScalarPerVector_max)
+            {
+                ALIGN_SWITCH_2(
+                    kABBlockTransferSrcScalarPerVector_max,
+                    kABBlockTransferSrcScalarPerVector,
+                    param.K,
+                    kB1BlockTransferSrcScalarPerVector_max,
+                    kB1BlockTransferSrcScalarPerVector,
+                    param.Kv,
+                    [&] {
+                        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                            min(kB1BlockTransferSrcScalarPerVector,
+                                kCShuffleBlockTransferScalarPerVector_max);
+                        using DeviceOpInstance =
+                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
+                                                    kGemm1NXdlPerWave,
+                                                    kCShuffleNXdlPerWavePerShuffle,
+                                                    kCShuffleBlockTransferClusterLengths,
+                                                    kABBlockTransferSrcScalarPerVector,
+                                                    kB1BlockTransferSrcScalarPerVector,
+                                                    kCShuffleBlockTransferScalarPerVector>;
+
+                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                    });
+            }
+            else
+            {
+                ALIGN_SWITCH_2(
+                    kABBlockTransferSrcScalarPerVector_max,
+                    kABBlockTransferSrcScalarPerVector,
+                    param.K,
+                    kCShuffleBlockTransferScalarPerVector_max,
+                    kCShuffleBlockTransferScalarPerVector,
+                    param.Kv,
+                    [&] {
+                        constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                            min(kCShuffleBlockTransferScalarPerVector,
+                                kB1BlockTransferSrcScalarPerVector_max);
+                        using DeviceOpInstance =
+                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
+                                                    kGemm1NXdlPerWave,
+                                                    kCShuffleNXdlPerWavePerShuffle,
+                                                    kCShuffleBlockTransferClusterLengths,
+                                                    kABBlockTransferSrcScalarPerVector,
+                                                    kB1BlockTransferSrcScalarPerVector,
+                                                    kCShuffleBlockTransferScalarPerVector>;
+
+                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                    });
+            };
+        };
+    };
+
+    template <typename DeviceOpInstance>
+    static void RunWithDeviceOp(GroupedBackwardParams& param, hipStream_t stream)
+    {
+        // Tunables
+        std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+        for(std::size_t i = 0; i < param.num_batches; i++)
+        {
+            int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
+            int N = param.host_seqlen_k.empty()
+                        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+                        : param.host_seqlen_k[i];
+            int K    = param.K;
+            int Kv   = param.Kv;
+            int G1q  = param.Hq;
+            int G1kv = param.Hkv;
+
+            std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1q, M, K};
+            std::vector<ck::index_t> q_gs_ms_ks_strides{
+                0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+            std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1kv, N, K};
+            std::vector<ck::index_t> k_gs_ns_ks_strides{
+                0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+            std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {1, G1q, N, K};
+            std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {0,
+                                                               param.tmp_grad_k_strides[1],
+                                                               param.tmp_grad_k_strides[0],
+                                                               param.tmp_grad_k_strides[2]};
+
+            // to be changed to v_gs_ns_os_lengths
+            std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1kv, Kv, N};
+            std::vector<ck::index_t> v_gs_os_ns_strides{
+                0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+            std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {1, G1q, Kv, N};
+            std::vector<ck::index_t> vgrad_gs_os_ns_strides = {0,
+                                                               param.tmp_grad_v_strides[1],
+                                                               param.tmp_grad_v_strides[2],
+                                                               param.tmp_grad_v_strides[0]};
+
+            std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1q, M, Kv};
+            std::vector<ck::index_t> y_gs_ms_os_strides{
+                0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+            std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
+            std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+            std::vector<ck::index_t> d_gs_ms_ns_lengths;
+            std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+            if constexpr(has_attn_bias)
+            {
+                d_gs_ms_ns_lengths = {1, G1q, M, N};
+                d_gs_ms_ns_strides = {0,
+                                      param.attn_bias_strides[0],
+                                      param.attn_bias_strides[1],
+                                      param.attn_bias_strides[2]};
+            }
+            else
+            {
+                d_gs_ms_ns_lengths = {1, 1, 1, 1};
+                d_gs_ms_ns_strides = {0, 0, 0, 0};
+            };
+
+            problem_descs.push_back({
+                q_gs_ms_ks_lengths, // q, dQ should have same shape
+                q_gs_ms_ks_strides,
+                k_gs_ns_ks_lengths, // k, dK should have same shape
+                k_gs_ns_ks_strides,
+                {1, 1, 1, 1},
+                {0, 0, 0, 0},
+                v_gs_os_ns_lengths, // v, dV should have same shape
+                v_gs_os_ns_strides,
+                y_gs_ms_os_lengths, // y, dY should have same shape
+                y_gs_ms_os_strides,
+                lse_gs_ms_lengths,
+                lse_gs_ms_strides,
+                param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
+                param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
+                param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
+                param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
+                d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
+                d_gs_ms_ns_strides,
+                {}, // acc1_biases_gs_ms_os_lengths
+                {}, // acc1_biases_gs_ms_os_strides
             });
-      };
+        }
+
+        float alpha = param.scale;
+
+        auto op      = DeviceOpInstance{};
+        auto invoker = op.MakeInvoker();
+
+        auto arg_ptr = op.MakeArgumentPointer(
+            param.q_ptrs,
+            param.k_ptrs,
+            param.randvals_ptrs,
+            param.v_ptrs,
+            param.out_ptrs,
+            param.logsumexp_ptrs,
+            param.grad_out_ptrs,
+            param.grad_q_ptrs,
+            param.grad_k_ptrs,
+            param.grad_v_ptrs,
+            param.attn_bias_ptrs,
+            {}, // p_acc1_bias_vec;
+            param.grad_bias_ptrs,
+            {},
+            problem_descs,
+            QKVElementOp{},
+            QKVElementOp{},
+            Scale{alpha},
+            QKVElementOp{},
+            YElementOp{},
+            param.dropout_prob,
+            std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+        SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+        if(!op.IsSupportedArgument(arg_ptr.get()))
+        {
+            std::ostringstream ostr;
+            ostr << op.GetTypeString() << " does not support this problem";
+
+            throw std::runtime_error(ostr.str());
+        }
+
+        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
     };
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(
-      GroupedBackwardParams& param,
-      hipStream_t stream) {
-    // Tunables
-    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-    for (std::size_t i = 0; i < param.num_batches; i++) {
-      int M =
-          param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
-      int N = param.host_seqlen_k.empty()
-          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-          : param.host_seqlen_k[i];
-      int K = param.K;
-      int Kv = param.Kv;
-      int G1q = param.Hq;
-      int G1kv = param.Hkv;
-
-      std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1q, M, K};
-      std::vector<ck::index_t> q_gs_ms_ks_strides{
-          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-      std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1kv, N, K};
-      std::vector<ck::index_t> k_gs_ns_ks_strides{
-          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-      std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {1, G1q, N, K};
-      std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
-          0,
-          param.tmp_grad_k_strides[1],
-          param.tmp_grad_k_strides[0],
-          param.tmp_grad_k_strides[2]};
-
-      // to be changed to v_gs_ns_os_lengths
-      std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1kv, Kv, N};
-      std::vector<ck::index_t> v_gs_os_ns_strides{
-          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-      std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {1, G1q, Kv, N};
-      std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
-          0,
-          param.tmp_grad_v_strides[1],
-          param.tmp_grad_v_strides[2],
-          param.tmp_grad_v_strides[0]};
-
-      std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1q, M, Kv};
-      std::vector<ck::index_t> y_gs_ms_os_strides{
-          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
-      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-      std::vector<ck::index_t> d_gs_ms_ns_lengths;
-      std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-      if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1q, M, N};
-        d_gs_ms_ns_strides = {
-            0,
-            param.attn_bias_strides[0],
-            param.attn_bias_strides[1],
-            param.attn_bias_strides[2]};
-
-      } else {
-        d_gs_ms_ns_lengths = {1, 1, 1, 1};
-        d_gs_ms_ns_strides = {0, 0, 0, 0};
-      };
-
-      problem_descs.push_back({
-          q_gs_ms_ks_lengths, // q, dQ should have same shape
-          q_gs_ms_ks_strides,
-          k_gs_ns_ks_lengths, // k, dK should have same shape
-          k_gs_ns_ks_strides,
-          {1, 1, 1, 1},
-          {0, 0, 0, 0},
-          v_gs_os_ns_lengths, // v, dV should have same shape
-          v_gs_os_ns_strides,
-          y_gs_ms_os_lengths, // y, dY should have same shape
-          y_gs_ms_os_strides,
-          lse_gs_ms_lengths,
-          lse_gs_ms_strides,
-          param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
-          param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
-          param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
-          param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
-          d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-          d_gs_ms_ns_strides,
-          {}, // acc1_biases_gs_ms_os_lengths
-          {}, // acc1_biases_gs_ms_os_strides
-      });
-    }
-
-    float alpha = param.scale;
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptrs,
-        param.k_ptrs,
-        param.randvals_ptrs,
-        param.v_ptrs,
-        param.out_ptrs,
-        param.logsumexp_ptrs,
-        param.grad_out_ptrs,
-        param.grad_q_ptrs,
-        param.grad_k_ptrs,
-        param.grad_v_ptrs,
-        param.attn_bias_ptrs,
-        {}, // p_acc1_bias_vec;
-        param.grad_bias_ptrs,
-        {},
-        problem_descs,
-        QKVElementOp{},
-        QKVElementOp{},
-        Scale{alpha},
-        QKVElementOp{},
-        YElementOp{},
-        param.dropout_prob,
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
 };
 
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-void run_grouped_backward_masktype_attnbias_dispatched(
-    GroupedBackwardParams& param,
-    hipStream_t stream) {
-  grouped_backward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias,
-      use_fp32_qkv_grad>::Run(param, stream);
+template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
+void run_grouped_backward_masktype_attnbias_dispatched(GroupedBackwardParams& param,
+                                                       hipStream_t stream)
+{
+    grouped_backward_masktype_attnbias_dispatched<scalar_t,
+                                                  custom_mask_type,
+                                                  has_attn_bias,
+                                                  use_fp32_qkv_grad>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index 89a73b3d19..7d4458899e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -1,107 +1,80 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_backward.h"
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void
+run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void
+run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void
+run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 1) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 2) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
+void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_2(
+        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
+            if(param.custom_mask_type == 0)
+            {
+                run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t,
+                                                                  0,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            }
+            else if(param.custom_mask_type == 1)
+            {
+                run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t,
+                                                                  1,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            }
+            else if(param.custom_mask_type == 2)
+            {
+                run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t,
+                                                                  2,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            }
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index c0e35f63db..a89291891b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -1,107 +1,77 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_backward.h"
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
 
-void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 1) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 2) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
+void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_2(
+        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
+            if(param.custom_mask_type == 0)
+            {
+                run_grouped_backward_masktype_attnbias_dispatched<ck::half_t,
+                                                                  0,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            }
+            else if(param.custom_mask_type == 1)
+            {
+                run_grouped_backward_masktype_attnbias_dispatched<ck::half_t,
+                                                                  1,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            }
+            else if(param.custom_mask_type == 2)
+            {
+                run_grouped_backward_masktype_attnbias_dispatched<ck::half_t,
+                                                                  2,
+                                                                  HAS_ATTN_BIAS,
+                                                                  USE_FP32_QKV_GRAD>(param, stream);
+            }
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 00c92682b9..997b92dd68 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <sstream>
@@ -18,59 +24,62 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_forward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct grouped_forward_masktype_attnbias_dispatched
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+    using GemmDataType     = scalar_t;
+    using ADataType        = scalar_t;
+    using B0DataType       = scalar_t;
+    using B1DataType       = scalar_t;
+    using AccDataType      = F32;
+    using CShuffleDataType = F32;
+    using CDataType        = scalar_t;
+    using ZDataType        = unsigned short;
+    using LSEDataType      = F32;
+    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
+    using Acc1BiasDataType = void;
+
+    using AElementOp    = PassThrough;
+    using B0ElementOp   = PassThrough;
+    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+    using B1ElementOp   = PassThrough;
+    using CElementOp    = PassThrough;
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    static constexpr auto MaskingSpec =
+        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
+
+    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef GROUPED_FORWARD_HEADDIM_SWITCH
-#define GROUPED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                           \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-      __VA_ARGS__();                                              \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-      __VA_ARGS__();                                              \
-    } else {                                                      \
-      constexpr ck::index_t kGemm1NPerBlock = 128;                \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-      __VA_ARGS__();                                              \
-    }                                                             \
-  }()
+#define GROUPED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)       \
+    [&] {                                                               \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else                                                            \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 128; \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+    }()
 #endif
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -149,221 +158,220 @@ struct grouped_forward_masktype_attnbias_dispatched {
           kCShuffleBlockTransferScalarPerVector,
           GemmOpConstantsGroupedForward::Acc1BiasTransferSrcScalarPerVector,
           MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsGroupedForward::AK1 /
-        GemmOpConstantsGroupedForward::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsGroupedForward::BK1 /
-        GemmOpConstantsGroupedForward::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedForward::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsGroupedForward::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
-    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-    for (std::size_t i = 0; i < param.num_batches; i++) {
-      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-      int N = param.host_seqlen_k.empty()
-          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-          : param.host_seqlen_k[i];
-      int K = param.K;
-      int Kv = param.Kv;
-      int G1q = param.Hq;
-      int G1kv = param.Hkv;
-
-      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
-      std::vector<ck::index_t> a_gs_ms_ks_strides{
-          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
-      std::vector<ck::index_t> b0_gs_ns_ks_strides{
-          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-      // to be changed to b1_gs_ns_os_lengths
-      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
-      std::vector<ck::index_t> b1_gs_os_ns_strides{
-          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
-      std::vector<ck::index_t> c_gs_ms_os_strides{
-          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
-      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-      std::vector<ck::index_t> d_gs_ms_ns_lengths;
-      std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-      if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1q, M, N};
-        d_gs_ms_ns_strides = {
-            0,
-            param.attn_bias_strides[0],
-            param.attn_bias_strides[1],
-            param.attn_bias_strides[2]};
-
-      } else {
-        d_gs_ms_ns_lengths = {1, 1, 1, 1};
-        d_gs_ms_ns_strides = {0, 0, 0, 0};
-      };
-
-      problem_descs.push_back(
-          {a_gs_ms_ks_lengths,
-           a_gs_ms_ks_strides,
-           b0_gs_ns_ks_lengths,
-           b0_gs_ns_ks_strides,
-           b1_gs_os_ns_lengths,
-           b1_gs_os_ns_strides,
-           c_gs_ms_os_lengths,
-           c_gs_ms_os_strides,
-           {1, 1, 1, 1},
-           {0, 0, 0, 0},
-           lse_gs_ms_lengths,
-           lse_gs_ms_strides,
-           d_gs_ms_ns_lengths,
-           d_gs_ms_ns_strides,
-           {}, // acc1_bias_gs_ms_os_lengths
-           {}}); // acc1_bias_gs_ms_os_strides
-    }
-
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptrs,
-        param.k_ptrs,
-        param.v_ptrs,
-        param.out_ptrs,
-        param.randvals_ptrs,
-        param.logsumexp_ptrs,
-        param.attn_bias_ptrs,
-        {}, // p_acc1_biases
-        problem_descs,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op,
-        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-    SimpleDeviceMem workspace(sizeInBytes);
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
+    // clang-format on
+
+    static constexpr auto I1 = ck::Number<1>{};
+    static constexpr auto I2 = ck::Number<2>{};
+    static constexpr auto I3 = ck::Number<3>{};
+
+    static void Run(GroupedForwardParams& param, hipStream_t stream)
+    {
+        using ck::math::min;
+
+        // compile-time constants which don't depend on head-dim switching
+        constexpr ck::index_t thread_slice_length_ak1 =
+            GemmOpConstantsGroupedForward::AK1 /
+            GemmOpConstantsGroupedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+        constexpr ck::index_t thread_slice_length_bk1 =
+            GemmOpConstantsGroupedForward::BK1 /
+            GemmOpConstantsGroupedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+                      "ThreadClusterLengths!");
+
+        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+            min(8, thread_slice_length_ak1);
+
+        GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+            constexpr ck::index_t thread_slice_length_gemm1n =
+                kGemm1NPerBlock /
+                GemmOpConstantsGroupedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(
+                    I1);
+            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+                min(2, thread_slice_length_gemm1n);
+
+            constexpr ck::index_t thread_slice_length_cshuflle_n =
+                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                GemmOpConstantsGroupedForward::
+                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
+
+            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                min(4, thread_slice_length_cshuflle_n);
+
+            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
+                         kCShuffleBlockTransferScalarPerVector_max)
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kB1BlockTransferSrcScalarPerVector_max,
+                               kB1BlockTransferSrcScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                                       min(kB1BlockTransferSrcScalarPerVector,
+                                           kCShuffleBlockTransferScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            }
+            else
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kCShuffleBlockTransferScalarPerVector_max,
+                               kCShuffleBlockTransferScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                                       min(kCShuffleBlockTransferScalarPerVector,
+                                           kB1BlockTransferSrcScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            };
+        });
+    };
+
+    template <typename DeviceOpInstance>
+    static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream)
+    {
+        std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+        for(std::size_t i = 0; i < param.num_batches; i++)
+        {
+            int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+            int N = param.host_seqlen_k.empty()
+                        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+                        : param.host_seqlen_k[i];
+            int K    = param.K;
+            int Kv   = param.Kv;
+            int G1q  = param.Hq;
+            int G1kv = param.Hkv;
+
+            std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
+            std::vector<ck::index_t> a_gs_ms_ks_strides{
+                0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+            std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
+            std::vector<ck::index_t> b0_gs_ns_ks_strides{
+                0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+            // to be changed to b1_gs_ns_os_lengths
+            std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
+            std::vector<ck::index_t> b1_gs_os_ns_strides{
+                0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+            std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
+            std::vector<ck::index_t> c_gs_ms_os_strides{
+                0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+            std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
+            std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+            std::vector<ck::index_t> d_gs_ms_ns_lengths;
+            std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+            if constexpr(has_attn_bias)
+            {
+                d_gs_ms_ns_lengths = {1, G1q, M, N};
+                d_gs_ms_ns_strides = {0,
+                                      param.attn_bias_strides[0],
+                                      param.attn_bias_strides[1],
+                                      param.attn_bias_strides[2]};
+            }
+            else
+            {
+                d_gs_ms_ns_lengths = {1, 1, 1, 1};
+                d_gs_ms_ns_strides = {0, 0, 0, 0};
+            };
+
+            problem_descs.push_back({a_gs_ms_ks_lengths,
+                                     a_gs_ms_ks_strides,
+                                     b0_gs_ns_ks_lengths,
+                                     b0_gs_ns_ks_strides,
+                                     b1_gs_os_ns_lengths,
+                                     b1_gs_os_ns_strides,
+                                     c_gs_ms_os_lengths,
+                                     c_gs_ms_os_strides,
+                                     {1, 1, 1, 1},
+                                     {0, 0, 0, 0},
+                                     lse_gs_ms_lengths,
+                                     lse_gs_ms_strides,
+                                     d_gs_ms_ns_lengths,
+                                     d_gs_ms_ns_strides,
+                                     {},   // acc1_bias_gs_ms_os_lengths
+                                     {}}); // acc1_bias_gs_ms_os_strides
+        }
+
+        float alpha = param.scale;
+
+        auto a_element_op    = AElementOp{};
+        auto b0_element_op   = B0ElementOp{};
+        auto acc0_element_op = Acc0ElementOp{alpha};
+        auto b1_element_op   = B1ElementOp{};
+        auto c_element_op    = CElementOp{};
+
+        auto op      = DeviceOpInstance{};
+        auto invoker = op.MakeInvoker();
+
+        auto arg_ptr = op.MakeArgumentPointer(
+            param.q_ptrs,
+            param.k_ptrs,
+            param.v_ptrs,
+            param.out_ptrs,
+            param.randvals_ptrs,
+            param.logsumexp_ptrs,
+            param.attn_bias_ptrs,
+            {}, // p_acc1_biases
+            problem_descs,
+            a_element_op,
+            b0_element_op,
+            acc0_element_op,
+            b1_element_op,
+            c_element_op,
+            param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+            std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+        auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
+
+        SimpleDeviceMem workspace(sizeInBytes);
+
+        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+        if(!op.IsSupportedArgument(arg_ptr.get()))
+        {
+            std::ostringstream ostr;
+
+            ostr << op.GetTypeString() << " does not support this problem";
+
+            throw std::runtime_error(ostr.str());
+        }
+
+        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+    };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_forward_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream) {
-  grouped_forward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
+void run_grouped_forward_masktype_attnbias_dispatched(GroupedForwardParams& param,
+                                                      hipStream_t stream)
+{
+    grouped_forward_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+        param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index 0301588091..6679f87310 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_forward.h"
 
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
+                                                                        hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
+                                                                        hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
+                                                                        hipStream_t stream);
+
+void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                            stream);
+        else if(param.custom_mask_type == 1)
+            run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                            stream);
+        else if(param.custom_mask_type == 2)
+            run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                            stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index 5338eab35c..70a295cec0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_forward.h"
 
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
+
+void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                           stream);
+        else if(param.custom_mask_type == 1)
+            run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                           stream);
+        else if(param.custom_mask_type == 2)
+            run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                           stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 81c6d3381d..08e5434d73 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <sstream>
@@ -18,59 +24,62 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_infer_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct grouped_infer_masktype_attnbias_dispatched
+{
+    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+    using GemmDataType     = scalar_t;
+    using ADataType        = scalar_t;
+    using B0DataType       = scalar_t;
+    using B1DataType       = scalar_t;
+    using AccDataType      = F32;
+    using CShuffleDataType = F32;
+    using CDataType        = scalar_t;
+    using ZDataType        = unsigned short;
+    using LSEDataType      = F32;
+    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
+    using Acc1BiasDataType = void;
+
+    using AElementOp    = PassThrough;
+    using B0ElementOp   = PassThrough;
+    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+    using B1ElementOp   = PassThrough;
+    using CElementOp    = PassThrough;
+
+    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+    static constexpr auto MaskingSpec =
+        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
+
+    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef GROUPED_INFER_HEADDIM_SWITCH
-#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                         \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
-      constexpr ck::index_t kGemm1NPerBlock = 32;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
-      __VA_ARGS__();                                            \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
-      constexpr ck::index_t kGemm1NPerBlock = 64;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
-      __VA_ARGS__();                                            \
-    } else {                                                    \
-      constexpr ck::index_t kGemm1NPerBlock = 128;              \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
-      __VA_ARGS__();                                            \
-    }                                                           \
-  }()
+#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)         \
+    [&] {                                                               \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+        else                                                            \
+        {                                                               \
+            constexpr ck::index_t kGemm1NPerBlock                = 128; \
+            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
+            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+            __VA_ARGS__();                                              \
+        }                                                               \
+    }()
 #endif
 
-  // clang-format off
+    // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -144,210 +153,206 @@ struct grouped_infer_masktype_attnbias_dispatched {
           GemmOpConstantsGroupedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsGroupedInfer::AK1 /
-        GemmOpConstantsGroupedInfer::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsGroupedInfer::BK1 /
-        GemmOpConstantsGroupedInfer::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsGroupedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
-    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-    for (std::size_t i = 0; i < param.num_batches; i++) {
-      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-      int N = param.host_seqlen_k.empty()
-          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-          : param.host_seqlen_k[i];
-      int K = param.K;
-      int Kv = param.Kv;
-      int G1q = param.Hq;
-      int G1kv = param.Hkv;
-
-      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
-      std::vector<ck::index_t> a_gs_ms_ks_strides{
-          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
-      std::vector<ck::index_t> b0_gs_ns_ks_strides{
-          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-      // to be changed to b1_gs_ns_os_lengths
-      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
-      std::vector<ck::index_t> b1_gs_os_ns_strides{
-          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
-      std::vector<ck::index_t> c_gs_ms_os_strides{
-          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-      std::vector<ck::index_t> d_gs_ms_ns_lengths;
-      std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-      if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1q, M, N};
-        d_gs_ms_ns_strides = {
-            0,
-            param.attn_bias_strides[0],
-            param.attn_bias_strides[1],
-            param.attn_bias_strides[2]};
-
-      } else {
-        d_gs_ms_ns_lengths = {1, 1, 1, 1};
-        d_gs_ms_ns_strides = {0, 0, 0, 0};
-      };
-
-      problem_descs.push_back(
-          {a_gs_ms_ks_lengths,
-           a_gs_ms_ks_strides,
-           b0_gs_ns_ks_lengths,
-           b0_gs_ns_ks_strides,
-           b1_gs_os_ns_lengths,
-           b1_gs_os_ns_strides,
-           c_gs_ms_os_lengths,
-           c_gs_ms_os_strides,
-           d_gs_ms_ns_lengths,
-           d_gs_ms_ns_strides,
-           {}, // acc1_bias_gs_ms_os_lengths
-           {}}); // acc1_bias_gs_ms_os_strides
-    }
-
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptrs,
-        param.k_ptrs,
-        param.v_ptrs,
-        param.out_ptrs,
-        param.attn_bias_ptrs,
-        {}, // p_acc1_biases
-        problem_descs,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op);
-
-    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-    SimpleDeviceMem workspace(sizeInBytes);
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
+    // clang-format on
+
+    static constexpr auto I1 = ck::Number<1>{};
+    static constexpr auto I2 = ck::Number<2>{};
+    static constexpr auto I3 = ck::Number<3>{};
+
+    static void Run(GroupedForwardParams& param, hipStream_t stream)
+    {
+        using ck::math::min;
+
+        // compile-time constants which don't depend on head-dim switching
+        constexpr ck::index_t thread_slice_length_ak1 =
+            GemmOpConstantsGroupedInfer::AK1 /
+            GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+        constexpr ck::index_t thread_slice_length_bk1 =
+            GemmOpConstantsGroupedInfer::BK1 /
+            GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
+                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+                      "ThreadClusterLengths!");
+
+        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+            min(8, thread_slice_length_ak1);
+
+        GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+            constexpr ck::index_t thread_slice_length_gemm1n =
+                kGemm1NPerBlock /
+                GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+                min(4, thread_slice_length_gemm1n);
+
+            constexpr ck::index_t thread_slice_length_cshuflle_n =
+                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
+                GemmOpConstantsGroupedInfer::
+                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
+
+            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+                min(4, thread_slice_length_cshuflle_n);
+
+            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
+                         kCShuffleBlockTransferScalarPerVector_max)
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kB1BlockTransferSrcScalarPerVector_max,
+                               kB1BlockTransferSrcScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                                       min(kB1BlockTransferSrcScalarPerVector,
+                                           kCShuffleBlockTransferScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            }
+            else
+            {
+                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
+                               kABBlockTransferSrcScalarPerVector,
+                               param.K,
+                               kCShuffleBlockTransferScalarPerVector_max,
+                               kCShuffleBlockTransferScalarPerVector,
+                               param.Kv,
+                               [&] {
+                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                                       min(kCShuffleBlockTransferScalarPerVector,
+                                           kB1BlockTransferSrcScalarPerVector_max);
+                                   using DeviceOpInstance =
+                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
+                                                            kGemm1NXdlPerWave,
+                                                            kCShuffleNXdlPerWavePerShuffle,
+                                                            kABBlockTransferSrcScalarPerVector,
+                                                            kB1BlockTransferSrcScalarPerVector,
+                                                            kCShuffleBlockTransferScalarPerVector>;
+
+                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
+                               });
+            };
+        });
+    };
+
+    template <typename DeviceOpInstance>
+    static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream)
+    {
+        std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+        for(std::size_t i = 0; i < param.num_batches; i++)
+        {
+            int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+            int N = param.host_seqlen_k.empty()
+                        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+                        : param.host_seqlen_k[i];
+            int K    = param.K;
+            int Kv   = param.Kv;
+            int G1q  = param.Hq;
+            int G1kv = param.Hkv;
+
+            std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
+            std::vector<ck::index_t> a_gs_ms_ks_strides{
+                0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+            std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
+            std::vector<ck::index_t> b0_gs_ns_ks_strides{
+                0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+            // to be changed to b1_gs_ns_os_lengths
+            std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
+            std::vector<ck::index_t> b1_gs_os_ns_strides{
+                0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+            std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
+            std::vector<ck::index_t> c_gs_ms_os_strides{
+                0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+            std::vector<ck::index_t> d_gs_ms_ns_lengths;
+            std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+            if constexpr(has_attn_bias)
+            {
+                d_gs_ms_ns_lengths = {1, G1q, M, N};
+                d_gs_ms_ns_strides = {0,
+                                      param.attn_bias_strides[0],
+                                      param.attn_bias_strides[1],
+                                      param.attn_bias_strides[2]};
+            }
+            else
+            {
+                d_gs_ms_ns_lengths = {1, 1, 1, 1};
+                d_gs_ms_ns_strides = {0, 0, 0, 0};
+            };
+
+            problem_descs.push_back({a_gs_ms_ks_lengths,
+                                     a_gs_ms_ks_strides,
+                                     b0_gs_ns_ks_lengths,
+                                     b0_gs_ns_ks_strides,
+                                     b1_gs_os_ns_lengths,
+                                     b1_gs_os_ns_strides,
+                                     c_gs_ms_os_lengths,
+                                     c_gs_ms_os_strides,
+                                     d_gs_ms_ns_lengths,
+                                     d_gs_ms_ns_strides,
+                                     {},   // acc1_bias_gs_ms_os_lengths
+                                     {}}); // acc1_bias_gs_ms_os_strides
+        }
+
+        float alpha = param.scale;
+
+        auto a_element_op    = AElementOp{};
+        auto b0_element_op   = B0ElementOp{};
+        auto acc0_element_op = Acc0ElementOp{alpha};
+        auto b1_element_op   = B1ElementOp{};
+        auto c_element_op    = CElementOp{};
+
+        auto op      = DeviceOpInstance{};
+        auto invoker = op.MakeInvoker();
+
+        auto arg_ptr = op.MakeArgumentPointer(param.q_ptrs,
+                                              param.k_ptrs,
+                                              param.v_ptrs,
+                                              param.out_ptrs,
+                                              param.attn_bias_ptrs,
+                                              {}, // p_acc1_biases
+                                              problem_descs,
+                                              a_element_op,
+                                              b0_element_op,
+                                              acc0_element_op,
+                                              b1_element_op,
+                                              c_element_op);
+
+        auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
+
+        SimpleDeviceMem workspace(sizeInBytes);
+
+        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+        if(!op.IsSupportedArgument(arg_ptr.get()))
+        {
+            std::ostringstream ostr;
+
+            ostr << op.GetTypeString() << " does not support this problem";
+
+            throw std::runtime_error(ostr.str());
+        }
+
+        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+    };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_infer_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream) {
-  grouped_infer_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
+void run_grouped_infer_masktype_attnbias_dispatched(GroupedForwardParams& param, hipStream_t stream)
+{
+    grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+        param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
index 56c974264c..5d91ad4a10 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 1)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 2)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
index 0ca1c3eba6..cd7dbb9771 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
@@ -1,57 +1,52 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 1)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else if(param.custom_mask_type == 2)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                         stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
index bdeb5ef85c..0b7708fe05 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <ck/ck.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
index 84d585a29a..f9cd1a49cd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <map>
@@ -7,33 +13,34 @@
 #include <ck/utility/data_type.hpp>
 
 template <typename scalar_t>
-struct MaxVectorSizeForType {
-  static constexpr int value = 4;
+struct MaxVectorSizeForType
+{
+    static constexpr int value = 4;
 };
 
 template <>
-struct MaxVectorSizeForType<ck::half_t> {
-  static constexpr int value = 8;
+struct MaxVectorSizeForType<ck::half_t>
+{
+    static constexpr int value = 8;
 };
 
 template <>
-struct MaxVectorSizeForType<ck::bhalf_t> {
-  static constexpr int value = 8;
+struct MaxVectorSizeForType<ck::bhalf_t>
+{
+    static constexpr int value = 8;
 };
 
-struct SimpleDeviceMem {
-  SimpleDeviceMem() = delete;
-  SimpleDeviceMem(size_t sizeInBytes) {
-    pData_ = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
-  }
-  void* GetDeviceBuffer() {
-    return pData_;
-  }
-  ~SimpleDeviceMem() {
-    c10::cuda::HIPCachingAllocator::raw_delete(pData_);
-  }
-
-  void* pData_;
+struct SimpleDeviceMem
+{
+    SimpleDeviceMem() = delete;
+    SimpleDeviceMem(size_t sizeInBytes)
+    {
+        pData_ = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
+    }
+    void* GetDeviceBuffer() { return pData_; }
+    ~SimpleDeviceMem() { c10::cuda::HIPCachingAllocator::raw_delete(pData_); }
+
+    void* pData_;
 };
 
 // useful aliasing for making the codes easy
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index 7f86dd9046..a741d28b93 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -1,206 +1,218 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <array>
 #include <cstdint>
 
-struct BatchedInferParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-
-  // BMHK mode strides
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> out_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* out_ptr;
+struct BatchedInferParams
+{
+    int B;   // batch size
+    int M;   // seq_len for Query
+    int N;   // seq_len for Key and Value
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    float scale;
+    bool has_attn_bias;
+
+    // BMHK mode strides
+    std::array<int, 4> q_strides;
+    std::array<int, 4> k_strides;
+    std::array<int, 4> v_strides;
+    std::array<int, 4> out_strides;
+    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    const void* attn_bias_ptr;
+
+    uint8_t custom_mask_type;
+
+    void* out_ptr;
 };
 
-struct BatchedForwardParams : public BatchedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
+struct BatchedForwardParams : public BatchedInferParams
+{
+    bool use_dropout;
+    bool compute_logsumexp;
 
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
 
-  // completely contiguous
-  void* logsumexp_ptr;
+    // completely contiguous
+    void* logsumexp_ptr;
 };
 
-struct GroupedInferParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  int max_seqlen_q;
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<void*> out_ptrs;
-
-  uint8_t custom_mask_type;
+struct GroupedInferParams
+{
+    int num_batches;
+    int M;   // total seq_len for all queries in the batch
+    int N;   // total seq_len for all keys/values in the batch
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    int max_seqlen_q;
+
+    std::vector<int> host_seqstart_q;
+    std::vector<int> host_seqstart_k;
+    std::vector<int> host_seqlen_k;
+
+    float scale;
+    bool has_attn_bias;
+
+    // MHK mode strides, last-dim contiguous
+    std::array<int, 3> q_strides;
+    std::array<int, 3> k_strides;
+    std::array<int, 3> v_strides;
+    std::array<int, 3> out_strides;
+
+    // 4d tensor view [B, H, M, N]
+    std::array<int, 4> attn_bias_strides;
+
+    std::vector<const void*> q_ptrs;
+    std::vector<const void*> k_ptrs;
+    std::vector<const void*> v_ptrs;
+    std::vector<const void*> attn_bias_ptrs;
+    std::vector<void*> out_ptrs;
+
+    uint8_t custom_mask_type;
 };
 
-struct GroupedForwardParams : public GroupedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
+struct GroupedForwardParams : public GroupedInferParams
+{
+    bool use_dropout;
+    bool compute_logsumexp;
 
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
 
-  // completely contiguous
-  std::vector<void*> logsumexp_ptrs;
+    // completely contiguous
+    std::vector<void*> logsumexp_ptrs;
 
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
+    // TODO: need remove this after dev-op fix
+    std::vector<void*> randvals_ptrs;
 };
 
-struct BatchedBackwardParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-  bool bias_has_grad;
-
-  bool use_fp32_qkv_grad;
-  bool is_mqa_gqa;
-
-  // BMHK mode strides, last-dim contiguous
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-  std::array<int, 4> out_strides;
-
-  std::array<int, 4> tmp_grad_k_strides;
-  std::array<int, 4> tmp_grad_v_strides;
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-  const void* grad_out_ptr;
-  const void* out_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* grad_q_ptr;
-  void* grad_k_ptr;
-  void* grad_v_ptr;
-  void* grad_bias_ptr;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // BHM mode lengths, completely contiguous
-  const void* logsumexp_ptr;
+struct BatchedBackwardParams
+{
+    int B;   // batch size
+    int M;   // seq_len for Query
+    int N;   // seq_len for Key and Value
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    float scale;
+    bool has_attn_bias;
+    bool bias_has_grad;
+
+    bool use_fp32_qkv_grad;
+    bool is_mqa_gqa;
+
+    // BMHK mode strides, last-dim contiguous
+    std::array<int, 4> q_strides;
+    std::array<int, 4> k_strides;
+    std::array<int, 4> v_strides;
+    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+    std::array<int, 4> out_strides;
+
+    std::array<int, 4> tmp_grad_k_strides;
+    std::array<int, 4> tmp_grad_v_strides;
+
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    const void* attn_bias_ptr;
+    const void* grad_out_ptr;
+    const void* out_ptr;
+
+    uint8_t custom_mask_type;
+
+    void* grad_q_ptr;
+    void* grad_k_ptr;
+    void* grad_v_ptr;
+    void* grad_bias_ptr;
+
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
+
+    // BHM mode lengths, completely contiguous
+    const void* logsumexp_ptr;
 };
 
-struct GroupedBackwardParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  int max_seqlen_q;
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-  bool bias_has_grad;
-
-  bool use_fp32_qkv_grad;
-  bool is_mqa_gqa;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::array<int, 3> tmp_grad_k_strides;
-  std::array<int, 3> tmp_grad_v_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<const void*> grad_out_ptrs;
-  std::vector<const void*> out_ptrs;
-
-  // used by the light_v2 kernel
-  // TODO use these as workspace
-  std::vector<void*> ydotdy_ptrs;
-
-  uint8_t custom_mask_type;
-
-  std::vector<void*> grad_q_ptrs;
-  std::vector<void*> grad_k_ptrs;
-  std::vector<void*> grad_v_ptrs;
-  std::vector<void*> grad_bias_ptrs;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // BHM mode lengths, completely contiguous
-  std::vector<const void*> logsumexp_ptrs;
-
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
+struct GroupedBackwardParams
+{
+    int num_batches;
+    int M;   // total seq_len for all queries in the batch
+    int N;   // total seq_len for all keys/values in the batch
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    int max_seqlen_q;
+
+    std::vector<int> host_seqstart_q;
+    std::vector<int> host_seqstart_k;
+    std::vector<int> host_seqlen_k;
+
+    float scale;
+    bool has_attn_bias;
+    bool bias_has_grad;
+
+    bool use_fp32_qkv_grad;
+    bool is_mqa_gqa;
+
+    // MHK mode strides, last-dim contiguous
+    std::array<int, 3> q_strides;
+    std::array<int, 3> k_strides;
+    std::array<int, 3> v_strides;
+    std::array<int, 3> out_strides;
+    // 4d tensor view [B, H, M, N]
+    std::array<int, 4> attn_bias_strides;
+
+    std::array<int, 3> tmp_grad_k_strides;
+    std::array<int, 3> tmp_grad_v_strides;
+
+    std::vector<const void*> q_ptrs;
+    std::vector<const void*> k_ptrs;
+    std::vector<const void*> v_ptrs;
+    std::vector<const void*> attn_bias_ptrs;
+    std::vector<const void*> grad_out_ptrs;
+    std::vector<const void*> out_ptrs;
+
+    // used by the light_v2 kernel
+    // TODO use these as workspace
+    std::vector<void*> ydotdy_ptrs;
+
+    uint8_t custom_mask_type;
+
+    std::vector<void*> grad_q_ptrs;
+    std::vector<void*> grad_k_ptrs;
+    std::vector<void*> grad_v_ptrs;
+    std::vector<void*> grad_bias_ptrs;
+
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
+
+    // BHM mode lengths, completely contiguous
+    std::vector<const void*> logsumexp_ptrs;
+
+    // TODO: need remove this after dev-op fix
+    std::vector<void*> randvals_ptrs;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
index 1b451b5f91..6c7de39ef2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <iostream>
 
 #include <torch/library.h>
@@ -5,17 +11,16 @@
 namespace {
 
 // For testing xFormers building and binding
-bool is_ck_fmha_available(double val) {
-  std::cout << "ck fmha is really here, val=" << val << std::endl;
-  return (true);
+bool is_ck_fmha_available(double val)
+{
+    std::cout << "ck fmha is really here, val=" << val << std::endl;
+    return (true);
 };
 
 } // namespace
 
-TORCH_LIBRARY_FRAGMENT(xformers, m) {
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::is_ck_fmha_available(float val) -> bool"));
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
-      TORCH_FN(is_ck_fmha_available));
+TORCH_LIBRARY_FRAGMENT(xformers, m)
+{
+    m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available(float val) -> bool"));
+    m.impl(TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"), TORCH_FN(is_ck_fmha_available));
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 5de869db00..8f26e4ceeb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <cstdint>
@@ -11,99 +17,114 @@
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/sequence.hpp>
 
-#define XFORMERS_CHECK(COND, ERR)          \
-  if (!(COND)) {                           \
-    std::ostringstream ostr;               \
-    ostr << "'" #COND "' failed: " << ERR; \
-    throw std::runtime_error(ostr.str());  \
-  }
-
-#define DISPATCH_TYPES(InDataType, func)                                 \
-  {                                                                      \
-    if (InDataType == at::ScalarType::Half) {                            \
-      using scalar_t = ck::half_t;                                       \
-      func();                                                            \
-    } else if (InDataType == at::ScalarType::BFloat16) {                 \
-      using scalar_t = ck::bhalf_t;                                      \
-      func();                                                            \
-    } else {                                                             \
-      XFORMERS_CHECK(                                                    \
-          false, "Only half & bf16 input type supported at the moment"); \
-    }                                                                    \
-  }
+#define XFORMERS_CHECK(COND, ERR)              \
+    if(!(COND))                                \
+    {                                          \
+        std::ostringstream ostr;               \
+        ostr << "'" #COND "' failed: " << ERR; \
+        throw std::runtime_error(ostr.str());  \
+    }
+
+#define DISPATCH_TYPES(InDataType, func)                                                  \
+    {                                                                                     \
+        if(InDataType == at::ScalarType::Half)                                            \
+        {                                                                                 \
+            using scalar_t = ck::half_t;                                                  \
+            func();                                                                       \
+        }                                                                                 \
+        else if(InDataType == at::ScalarType::BFloat16)                                   \
+        {                                                                                 \
+            using scalar_t = ck::bhalf_t;                                                 \
+            func();                                                                       \
+        }                                                                                 \
+        else                                                                              \
+        {                                                                                 \
+            XFORMERS_CHECK(false, "Only half & bf16 input type supported at the moment"); \
+        }                                                                                 \
+    }
 
 template <typename scalar_t>
 struct CkToAtenDtype;
 
 template <>
-struct CkToAtenDtype<ck::half_t> {
-  using scalar_t = ck::half_t;
+struct CkToAtenDtype<ck::half_t>
+{
+    using scalar_t = ck::half_t;
 
-  static constexpr __host__ at::ScalarType atScalarType() {
-    return at::ScalarType::Half;
-  }
+    static constexpr __host__ at::ScalarType atScalarType() { return at::ScalarType::Half; }
 };
 
 template <>
-struct CkToAtenDtype<ck::bhalf_t> {
-  using scalar_t = ck::bhalf_t;
+struct CkToAtenDtype<ck::bhalf_t>
+{
+    using scalar_t = ck::bhalf_t;
 
-  static constexpr __host__ at::ScalarType atScalarType() {
-    return at::ScalarType::BFloat16;
-  }
+    static constexpr __host__ at::ScalarType atScalarType() { return at::ScalarType::BFloat16; }
 };
 
 template <>
-struct CkToAtenDtype<float> {
-  using scalar_t = float;
+struct CkToAtenDtype<float>
+{
+    using scalar_t = float;
 
-  static constexpr __host__ at::ScalarType atScalarType() {
-    return at::ScalarType::Float;
-  }
+    static constexpr __host__ at::ScalarType atScalarType() { return at::ScalarType::Float; }
 };
 
-#define CHECK_NOSPARSE_CONTIGUOUS_CUDA(TENSOR)                            \
-  XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
-  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-  XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
-
-#define CHECK_NOSPARSE_CONTIGUOUS_CPU(TENSOR)                             \
-  XFORMERS_CHECK(TENSOR.is_cpu(), #TENSOR " must be a CPU tensor");       \
-  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-  XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
-
-#define CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(TENSOR)                        \
-  XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
-  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-  XFORMERS_CHECK(                                                         \
-      TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
-
-#define HIP_CALL_CHECK(flag)                                                 \
-  do {                                                                       \
-    hipError_t _tmpVal;                                                      \
-    if ((_tmpVal = flag) != hipSuccess) {                                    \
-      std::ostringstream ostr;                                               \
-      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
-           << hipGetErrorString(_tmpVal);                                    \
-      throw std::runtime_error(ostr.str());                                  \
-    }                                                                        \
-  } while (0)
-
-static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
-  if (dtype == at::ScalarType::Float) {
-    return n * 4;
-  } else if (dtype == at::ScalarType::Half) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::BFloat16) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::Short) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::Int) {
-    return n * 4;
-  } else if (dtype == at::ScalarType::Byte) {
-    return n;
-  }
-  return 0;
+#define CHECK_NOSPARSE_CONTIGUOUS_CUDA(TENSOR)                              \
+    XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
+    XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+    XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
+
+#define CHECK_NOSPARSE_CONTIGUOUS_CPU(TENSOR)                               \
+    XFORMERS_CHECK(TENSOR.is_cpu(), #TENSOR " must be a CPU tensor");       \
+    XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+    XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
+
+#define CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(TENSOR)                          \
+    XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
+    XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+    XFORMERS_CHECK(TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
+
+#define HIP_CALL_CHECK(flag)                                                       \
+    do                                                                             \
+    {                                                                              \
+        hipError_t _tmpVal;                                                        \
+        if((_tmpVal = flag) != hipSuccess)                                         \
+        {                                                                          \
+            std::ostringstream ostr;                                               \
+            ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
+                 << hipGetErrorString(_tmpVal);                                    \
+            throw std::runtime_error(ostr.str());                                  \
+        }                                                                          \
+    } while(0)
+
+static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype)
+{
+    if(dtype == at::ScalarType::Float)
+    {
+        return n * 4;
+    }
+    else if(dtype == at::ScalarType::Half)
+    {
+        return n * 2;
+    }
+    else if(dtype == at::ScalarType::BFloat16)
+    {
+        return n * 2;
+    }
+    else if(dtype == at::ScalarType::Short)
+    {
+        return n * 2;
+    }
+    else if(dtype == at::ScalarType::Int)
+    {
+        return n * 4;
+    }
+    else if(dtype == at::ScalarType::Byte)
+    {
+        return n;
+    }
+    return 0;
 }
 
 /**
@@ -117,36 +138,27 @@ static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
  * expand the bias as needed - be careful to only create a view with different
  * shape/strides, no copies allowed.
  */
-inline at::Tensor get_bias_4d_view(
-    const at::Tensor& bias,
-    int batch_sz,
-    int n_heads,
-    int n_queries,
-    int n_keys) {
-  TORCH_CHECK(
-      bias.size(-2) == n_queries,
-      "bias.size(-2) != n_queries: ",
-      bias.size(-2),
-      " != ",
-      n_queries);
-  TORCH_CHECK(
-      bias.size(-1) == n_keys,
-      "bias.size(-1) != n_keys: ",
-      bias.size(-1),
-      " != ",
-      n_keys);
-  switch (bias.dim()) {
+inline at::Tensor
+get_bias_4d_view(const at::Tensor& bias, int batch_sz, int n_heads, int n_queries, int n_keys)
+{
+    TORCH_CHECK(bias.size(-2) == n_queries,
+                "bias.size(-2) != n_queries: ",
+                bias.size(-2),
+                " != ",
+                n_queries);
+    TORCH_CHECK(
+        bias.size(-1) == n_keys, "bias.size(-1) != n_keys: ", bias.size(-1), " != ", n_keys);
+    switch(bias.dim())
+    {
     case 2: // (n_queries, n_keys) - broadcast across all batches and heads
-      return bias.unsqueeze(0).unsqueeze(0).expand(
-          {batch_sz, n_heads, n_queries, n_keys});
+        return bias.unsqueeze(0).unsqueeze(0).expand({batch_sz, n_heads, n_queries, n_keys});
     case 3: // (batch_sz * n_heads, n_queries, n_keys) - just reshape
-      TORCH_CHECK(bias.size(0) == batch_sz * n_heads);
-      return bias.view({batch_sz, n_heads, n_queries, n_keys});
+        TORCH_CHECK(bias.size(0) == batch_sz * n_heads);
+        return bias.view({batch_sz, n_heads, n_queries, n_keys});
     case 4: // (batch_sz, n_heads, n_queries, n_keys) - do nothing
-      TORCH_CHECK(bias.size(0) == batch_sz);
-      TORCH_CHECK(bias.size(1) == n_heads)
-      return bias;
-    default:
-      TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
-  }
+        TORCH_CHECK(bias.size(0) == batch_sz);
+        TORCH_CHECK(bias.size(1) == n_heads)
+        return bias;
+    default: TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
+    }
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 5fd39201ea..1a3d0fd653 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <optional>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 6dc443a7f1..873d6b0933 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <ck/utility/data_type.hpp>
 #include <stdexcept>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index b4cbdbce23..ff91b9fa63 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <ck/tile_program/block_tile/block_masking_specialization.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 41eb3f748f..29c13540aa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <optional>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
index 2289b09db3..72c1c4a9b2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include "ck/utility/common_header.hpp"
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
index 5d95c96f7f..7a3ab882ff 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include "ck/utility/common_header.hpp"
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index e1ad7b1a8c..ba684f1541 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <optional>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 659fd286b3..eda9a64623 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <ck/utility/data_type.hpp>
 #include <stdexcept>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index e07f711ac6..0a988b6b21 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -1,207 +1,219 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #pragma once
 
 #include <array>
 #include <cstdint>
 
-struct BatchedInferParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-
-  // BMHK mode strides
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> out_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* out_ptr;
+struct BatchedInferParams
+{
+    int B;   // batch size
+    int M;   // seq_len for Query
+    int N;   // seq_len for Key and Value
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    float scale;
+    bool has_attn_bias;
+
+    // BMHK mode strides
+    std::array<int, 4> q_strides;
+    std::array<int, 4> k_strides;
+    std::array<int, 4> v_strides;
+    std::array<int, 4> out_strides;
+    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    const void* attn_bias_ptr;
+
+    uint8_t custom_mask_type;
+
+    void* out_ptr;
 };
 
-struct BatchedForwardParams : public BatchedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
+struct BatchedForwardParams : public BatchedInferParams
+{
+    bool use_dropout;
+    bool compute_logsumexp;
 
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
 
-  // completely contiguous
-  void* logsumexp_ptr;
+    // completely contiguous
+    void* logsumexp_ptr;
 };
 
-struct GroupedInferParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
+struct GroupedInferParams
+{
+    int num_batches;
+    int M;   // total seq_len for all queries in the batch
+    int N;   // total seq_len for all keys/values in the batch
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
 
-  int max_seqlen_q;
+    int max_seqlen_q;
 
-  void* seqstart_q_dev_ptr;
-  void* seqstart_k_dev_ptr;
-  void* seqlen_k_dev_ptr;
+    void* seqstart_q_dev_ptr;
+    void* seqstart_k_dev_ptr;
+    void* seqlen_k_dev_ptr;
 
-  float scale;
-  bool has_attn_bias;
+    float scale;
+    bool has_attn_bias;
 
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
+    // MHK mode strides, last-dim contiguous
+    std::array<int, 3> q_strides;
+    std::array<int, 3> k_strides;
+    std::array<int, 3> v_strides;
+    std::array<int, 3> out_strides;
 
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
+    // 4d tensor view [B, H, M, N]
+    std::array<int, 4> attn_bias_strides;
 
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    const void* attn_bias_ptr;
 
-  uint8_t custom_mask_type;
+    uint8_t custom_mask_type;
 
-  void* out_ptr;
+    void* out_ptr;
 };
 
-struct GroupedForwardParams : public GroupedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
+struct GroupedForwardParams : public GroupedInferParams
+{
+    bool use_dropout;
+    bool compute_logsumexp;
 
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
 
-  // completely contiguous
-  std::vector<void*> logsumexp_ptrs;
+    // completely contiguous
+    std::vector<void*> logsumexp_ptrs;
 
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
+    // TODO: need remove this after dev-op fix
+    std::vector<void*> randvals_ptrs;
 };
 
-struct BatchedBackwardParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-  bool bias_has_grad;
-
-  bool use_fp32_qkv_grad;
-  bool is_mqa_gqa;
-
-  // BMHK mode strides, last-dim contiguous
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-  std::array<int, 4> out_strides;
-
-  std::array<int, 4> tmp_grad_k_strides;
-  std::array<int, 4> tmp_grad_v_strides;
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-  const void* grad_out_ptr;
-  const void* out_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* grad_q_ptr;
-  void* grad_k_ptr;
-  void* grad_v_ptr;
-  void* grad_bias_ptr;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // BHM mode lengths, completely contiguous
-  const void* logsumexp_ptr;
+struct BatchedBackwardParams
+{
+    int B;   // batch size
+    int M;   // seq_len for Query
+    int N;   // seq_len for Key and Value
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    float scale;
+    bool has_attn_bias;
+    bool bias_has_grad;
+
+    bool use_fp32_qkv_grad;
+    bool is_mqa_gqa;
+
+    // BMHK mode strides, last-dim contiguous
+    std::array<int, 4> q_strides;
+    std::array<int, 4> k_strides;
+    std::array<int, 4> v_strides;
+    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+    std::array<int, 4> out_strides;
+
+    std::array<int, 4> tmp_grad_k_strides;
+    std::array<int, 4> tmp_grad_v_strides;
+
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    const void* attn_bias_ptr;
+    const void* grad_out_ptr;
+    const void* out_ptr;
+
+    uint8_t custom_mask_type;
+
+    void* grad_q_ptr;
+    void* grad_k_ptr;
+    void* grad_v_ptr;
+    void* grad_bias_ptr;
+
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
+
+    // BHM mode lengths, completely contiguous
+    const void* logsumexp_ptr;
 };
 
-struct GroupedBackwardParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  int max_seqlen_q;
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-  bool bias_has_grad;
-
-  bool use_fp32_qkv_grad;
-  bool is_mqa_gqa;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::array<int, 3> tmp_grad_k_strides;
-  std::array<int, 3> tmp_grad_v_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<const void*> grad_out_ptrs;
-  std::vector<const void*> out_ptrs;
-
-  // used by the light_v2 kernel
-  // TODO use these as workspace
-  std::vector<void*> ydotdy_ptrs;
-
-  uint8_t custom_mask_type;
-
-  std::vector<void*> grad_q_ptrs;
-  std::vector<void*> grad_k_ptrs;
-  std::vector<void*> grad_v_ptrs;
-  std::vector<void*> grad_bias_ptrs;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // BHM mode lengths, completely contiguous
-  std::vector<const void*> logsumexp_ptrs;
-
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
+struct GroupedBackwardParams
+{
+    int num_batches;
+    int M;   // total seq_len for all queries in the batch
+    int N;   // total seq_len for all keys/values in the batch
+    int Hq;  // number of heads for Query
+    int Hkv; // number of heads for Key and Value
+    int K;   // embed_dim for Query and Key
+    int Kv;  // embed_dim for Value
+
+    int max_seqlen_q;
+
+    std::vector<int> host_seqstart_q;
+    std::vector<int> host_seqstart_k;
+    std::vector<int> host_seqlen_k;
+
+    float scale;
+    bool has_attn_bias;
+    bool bias_has_grad;
+
+    bool use_fp32_qkv_grad;
+    bool is_mqa_gqa;
+
+    // MHK mode strides, last-dim contiguous
+    std::array<int, 3> q_strides;
+    std::array<int, 3> k_strides;
+    std::array<int, 3> v_strides;
+    std::array<int, 3> out_strides;
+    // 4d tensor view [B, H, M, N]
+    std::array<int, 4> attn_bias_strides;
+
+    std::array<int, 3> tmp_grad_k_strides;
+    std::array<int, 3> tmp_grad_v_strides;
+
+    std::vector<const void*> q_ptrs;
+    std::vector<const void*> k_ptrs;
+    std::vector<const void*> v_ptrs;
+    std::vector<const void*> attn_bias_ptrs;
+    std::vector<const void*> grad_out_ptrs;
+    std::vector<const void*> out_ptrs;
+
+    // used by the light_v2 kernel
+    // TODO use these as workspace
+    std::vector<void*> ydotdy_ptrs;
+
+    uint8_t custom_mask_type;
+
+    std::vector<void*> grad_q_ptrs;
+    std::vector<void*> grad_k_ptrs;
+    std::vector<void*> grad_v_ptrs;
+    std::vector<void*> grad_bias_ptrs;
+
+    float dropout_prob;
+    int64_t philox_seed;
+    int64_t philox_offset;
+
+    // BHM mode lengths, completely contiguous
+    std::vector<const void*> logsumexp_ptrs;
+
+    // TODO: need remove this after dev-op fix
+    std::vector<void*> randvals_ptrs;
 };
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
index 8eb17a9f92..36e9cf24d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
index 670398c1ea..a44c7f83a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
index 1dbab27466..2c6fa3f58e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
index ba06daf03e..8ea38c8b64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
index 97b4eb36a8..8dfa5aaaef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
index 8458f70aed..fbbbc2d61b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
index d7b92c4517..66a2acb12a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
index 1c1167c58d..59dcd373bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
index 9dbae4cac5..29f9ea02dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
index f38a2c7b85..4bf813296b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
index 522e2951a7..ec12b66c75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
index 041e4d4df5..947faaa839 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
index bc9a2948d3..a1e22812a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
index e654ca13ae..de7ee388b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
index 4a2376a72c..de45cee54c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
index 66765de59d..d0e3c83c84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
index 9609900d22..0a125b480e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
index aa4d7ff703..511598a236 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
index 72715c6dcc..bb6ba7b582 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
index 7e6245db44..e260e288c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -1,10 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include <stdexcept>
 
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
index d2707dde75..8f75012529 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
index 598db5503d..47cb68b98e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
index 28640755d5..34b3318149 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
index d3922d6214..9a46d6678c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
+    BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
index 140cffce0c..0027e6fa66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
+                                                                        hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
index bb32b63ef1..01b4ab6a1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
index 6ba23b3a2a..fee6af6859 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
+                                                                        hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
index 400df0b3dc..3b22467b8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
index a994861489..0964fea9a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
+                                                                        hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
index 23305b07a6..9ddde1484d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
index a9dd771ded..4e47a02b8c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
index f653451ab7..a99e2cf170 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
index 5ca4b7ddaf..b0617fe73c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
index f9af4528dd..d00e4e2ac3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
index 44e98d9a32..6a2215ae02 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
index 8dfc288f8d..43dc7c78fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
index 9748955e14..11c575371e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
index 418f925c2a..6ed03ba3b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
index a7cdb48b83..cbb2f1e37d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
index 578855b9b4..e53d44ff44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
index 35e9bca9c0..96454b7d84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
index e27e3b5ff9..ecfd4bd2e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
index 5c83b0abd6..b73d06a5cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
index 11c76b35f3..3ebf195d7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
index b13f5a4c9b..1f56500cee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
index 12f5991c4b..2cbb237cc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
index 8d45859e52..4415201572 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
index 9f03be2b5c..5e9d21dac9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_batched_infer.h"
 
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
index 82d7b1f005..517b6ab08e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
index 2327c6c3c9..eeb4ba1257 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
index 945a91a998..179dadebc9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
index ea443ab4be..3b604cd00c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
index daa0dc1c7f..07ec9e671a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
index b8273b2d62..b23b68e21d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
index 6496bca769..2c5cf0189e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
index d2cf1d5dfd..3dbf05b04b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
index 7ae9b06f55..765eb7fd20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
index 13a1bd4769..9eae79997f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
index 01d2921541..2d85adcdc0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
index 22ec358653..325adcf28d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
index ad20325d70..23c7f7360d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
index 3ca75bc614..f5095f9e0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
index cd9bd1689d..d893d066c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
index 8cbdcc2533..b81c731c6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
index 2241fb932d..5d79dc7a9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
index b82218a58a..8ca3fc15b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
index 914b28d276..28cfd91f08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
index c1eef0cec2..e7974599b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
index d97a398eee..f7c6bab6bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
index 5d21721d34..389b8ef6bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
index 0cfac6111b..cf6edccb5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
index 551a46c9c2..fc2e60a47d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -1,8 +1,11 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
+    GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
index bfde13c7df..4d473f7b91 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
+                                                                        hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
index 85e853c36b..4b64703b26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
index d86afa1aa2..ed5a11c660 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
+                                                                        hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
index dd58b5b287..4ecf75691e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
index 085245c08e..af22c6c137 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
+                                                                        hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
index 8c3ea29a45..2aa5b9431d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
index 19adc39718..efaa2ee52f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
index 6da5508d3c..7394b8b729 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
index f97de6fb3d..3b7732cb04 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
index 5bd33901b4..a4db70fcf3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
index 155c9eb6c6..c19f683b6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
+                                                                       hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
index 29f3ed1a36..2e10db88a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
@@ -1,7 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
index 973213413a..3c012adbf0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
index 96e0ba425d..f19c5a4e90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
index 332724e736..b12476dad2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
index cb1120f5b0..ab0141e0d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
index 51ed70cabb..546074138b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
index c157e89c1e..9b65ff186b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
index bbcd3ab0e9..3e8a0eb750 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
index e320f5de69..92879082c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
index e763dde6ae..37137dc97c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
index 3ec2d41da3..3ea5affe87 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
index dee7a0845b..33f2bc7f9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
index b5515e9a08..27eea7bace 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,8 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_fmha_grouped_infer.h"
 
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
index 8f4c31ab36..5c9d5a1139 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_batched_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
index 783fb5e16f..22ba1cbf03 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_batched_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
index 7be550de21..a788c0e4b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_batched_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
index 9276ca53fb..f9d551e6ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_batched_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
index da3f5004e1..daa204ebdb 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_batched_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
index 189d295d2a..11ab6765f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_batched_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
index 1001507519..e40ffafc36 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_grouped_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
index 3b323b7bb1..537e59bd16 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_grouped_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
index 6fad32f783..919c73a4a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_grouped_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
index 39646e941d..17da13db7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_grouped_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
index ba5384e43a..e5d08e589d 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_grouped_infer.h"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
index f6e4a4215b..e78118baf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -1,3 +1,9 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
 #include <ck/ck.hpp>
 
 #include "ck_tiled_fmha_grouped_infer.h"

From bbdb8e70651df4f8c5a33b2700400c41eb6914b2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Dec 2023 15:10:54 +0000
Subject: [PATCH 254/837] Update to tests/test_forward_ck_tiled.py

---
 tests/test_forward_ck_tiled.py | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index f295887e94..3c5419525d 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -576,10 +576,6 @@ def test_forward(
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if bias_type is not None and bias_type is not type(None):
-        if bias_type is not torch.Tensor and bias_type is not fmha.attn_bias.BlockDiagonalMask:
-            pytest.skip("only three bias types are supported by ck-tiled!")
-
     if dtype is torch.bfloat16:
         pytest.skip("bfloat16 is currently not supported by ck-tiled!")
 

From ff48957a23160e4490d90fa1af75ee6b49db09de Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Dec 2023 15:35:55 +0000
Subject: [PATCH 255/837] Synchronize the latest
 third_party/composable_kernel_tiled and update .gitmodules

---
 .gitmodules                                   |  4 ++++
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 21 +++++++++++--------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  8 +++----
 3 files changed, 20 insertions(+), 13 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 94eb8135c6..bf26780538 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -8,3 +8,7 @@
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git
+[submodule "third_party/composable_kernel_tiled"]
+	path = third_party/composable_kernel_tiled
+	url = https://github.com/asroy/ck_tile
+        branch = feature/fmha-pad-support
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 1a3d0fd653..336228f6fb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,6 +23,7 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
@@ -87,7 +88,7 @@ struct batched_infer_masktype_attnbias_dispatched
     }()
 #endif
 
-    template <bool kM0NeedPadding, bool kN0K1NeedPadding, typename FmhaShape>
+    template <typename FmhaTraits, typename FmhaShape>
     using FmhaPipelineProblemTemp =
         ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
                                                           KDataType,
@@ -101,10 +102,8 @@ struct batched_infer_masktype_attnbias_dispatched
                                                           256, // BlockSize
                                                           FmhaShape,
                                                           false, // kIsGroupMode
-                                                          kM0NeedPadding,
-                                                          kN0K1NeedPadding,
-                                                          has_attn_bias,
-                                                          FmhaCausalMask>;
+                                                          FmhaCausalMask,
+                                                          FmhaTraits>;
 
     static void Run(BatchedForwardParams& param, hipStream_t stream)
     {
@@ -113,7 +112,8 @@ struct batched_infer_masktype_attnbias_dispatched
 
             if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
             {
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<false, false, FmhaShape>;
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<false, false, has_attn_bias>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
                 using FmhaPipeline =
                     ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
                 using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
@@ -122,7 +122,8 @@ struct batched_infer_masktype_attnbias_dispatched
             }
             else if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 != 0)
             {
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<false, true, FmhaShape>;
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<false, true, has_attn_bias>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
                 using FmhaPipeline =
                     ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
                 using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
@@ -131,7 +132,8 @@ struct batched_infer_masktype_attnbias_dispatched
             }
             else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 == 0)
             {
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<true, false, FmhaShape>;
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<true, false, has_attn_bias>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
                 using FmhaPipeline =
                     ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
                 using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
@@ -140,7 +142,8 @@ struct batched_infer_masktype_attnbias_dispatched
             }
             else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 != 0)
             {
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<true, true, FmhaShape>;
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
                 using FmhaPipeline =
                     ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
                 using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index ba684f1541..89b4348f34 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -24,6 +24,7 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
@@ -97,6 +98,7 @@ struct grouped_infer_masktype_attnbias_dispatched
     {
         GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
             using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+            using FmhaTraits          = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
             using FmhaPipelineProblem =
                 ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
                                                                   KDataType,
@@ -110,10 +112,8 @@ struct grouped_infer_masktype_attnbias_dispatched
                                                                   256, // BlockSize
                                                                   FmhaShape,
                                                                   true, // IsGroupMode
-                                                                  true, // kM0NeedPadding
-                                                                  true, // kN0K1Needpadding
-                                                                  has_attn_bias,
-                                                                  FmhaCausalMask>;
+                                                                  FmhaCausalMask,
+                                                                  FmhaTraits>;
 
             using FmhaPipeline =
                 ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;

From 85b757783e6339c25dfefced512b767e407b5720 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 22 Nov 2023 18:43:20 -0500
Subject: [PATCH 256/837] flatten block index

---
 .../hip_fmha/attention_forward_decoder.cpp    |  22 +-
 .../hip_fmha/ck_attention_forward_decoder.h   | 602 ++++++++----------
 2 files changed, 280 insertions(+), 344 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index da14882f79..a5c2f2796a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -85,7 +85,7 @@ efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B
     TORCH_CHECK(M <= 1024);
     TORCH_CHECK(H <= 1024);
 
-    dim3 blocks(B, H, M);
+    dim3 blocks(B * H * M);
     dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
     int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
@@ -125,8 +125,10 @@ efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B
                 K_acc.stride(0),
                 K_acc.stride(1),
                 K_acc.stride(2),
+                XQ_acc.size(1),
+                XQ_acc.size(2),
+                XQ_acc.size(3),
                 K_acc.size(1),
-                K_acc.size(3),
                 K_acc.size(2) == 1,
                 qk_scale,
                 blocks,
@@ -248,14 +250,14 @@ int main(int argc, char** argv)
                       << std::endl;
             return 0;
         }
-        const int32_t n_keys     = std::stoi(args[0]);
-        const int32_t padding    = std::stoi(args[1]);
-        const int32_t batch_size = std::stoi(args[2]);
-        const int32_t n_heads    = std::stoi(args[3]);
-        const int32_t multiquery = (args[4] == "mq");
-        const auto dtype         = (args[5] == "f32")
-                               ? torch::kFloat32
-                               : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+        const int32_t n_keys                 = std::stoi(args[0]);
+        const int32_t padding                = std::stoi(args[1]);
+        const int32_t batch_size             = std::stoi(args[2]);
+        const int32_t n_heads                = std::stoi(args[3]);
+        const int32_t multiquery             = (args[4] == "mq");
+        const auto dtype                     = (args[5] == "f32")   ? torch::kFloat32
+                                               : (args[5] == "f16") ? torch::kFloat16
+                                                                    : torch::kBFloat16;
         const int32_t n_wavefronts_per_block = std::stoi(args[6]);
 
         const int32_t dim_per_head = 4 * kThreadsPerWavefront;
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 7b39a2c543..5686ad4b7e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -114,27 +114,29 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                                               const scalar_t* __restrict__ cache_V,
                                               scalar_t* __restrict__ O,
                                               const int32_t* __restrict__ seq_kv_lens,
-                                              const ptrdiff_t XQ_stride_0,
-                                              const ptrdiff_t XQ_stride_1,
-                                              const ptrdiff_t XQ_stride_2,
-                                              const ptrdiff_t K_stride_0,
-                                              const ptrdiff_t K_stride_1,
-                                              const ptrdiff_t K_stride_2,
-                                              const int32_t K_size_1,
-                                              const int32_t D_H,
+                                              const ptrdiff_t XQ_stride_b,
+                                              const ptrdiff_t XQ_stride_m,
+                                              const ptrdiff_t XQ_stride_h,
+                                              const ptrdiff_t K_stride_b,
+                                              const ptrdiff_t K_stride_m,
+                                              const ptrdiff_t K_stride_h,
+                                              const int32_t Q_size_m,
+                                              const int32_t Q_size_h,
+                                              const int32_t Q_size_k,
+                                              const int32_t K_size_m,
                                               const bool multiquery,
                                               const float qk_scale)
 {
     static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
     // Each block handles a single batch and head and query
-    const int32_t b = blockIdx.x;
-    const int32_t h = blockIdx.y;
-    const int32_t m = blockIdx.z;
+    const int32_t b = blockIdx.x / (Q_size_m * Q_size_h);
+    const int32_t h = (blockIdx.x / Q_size_m) % Q_size_h;
+    const int32_t m = blockIdx.x % Q_size_m;
 
     // Note: this is decoding case where we attend to current and all previous
     // tokens.
-    const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_1;
+    const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
 
     const int32_t lane_idx              = threadIdx.x;
     const int32_t wavefront_idx         = threadIdx.y;
@@ -143,10 +145,10 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
     const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
     const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
     // const auto* q_ = &(XQ_acc[b][m][h][0]);
-    const auto XQO_base_offset  = b * XQ_stride_0 + m * XQ_stride_1 + h * XQ_stride_2;
+    const auto XQO_base_offset  = b * XQ_stride_b + m * XQ_stride_m + h * XQ_stride_h;
     const auto* __restrict__ q_ = XQ + XQO_base_offset;
 
-    const auto cache_KV_base_offset       = b * K_stride_0 + (multiquery ? 0 : h * K_stride_2);
+    const auto cache_KV_base_offset       = b * K_stride_b + (multiquery ? 0 : h * K_stride_h);
     const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
     const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
 
@@ -158,7 +160,7 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
     using compute_t     = float;
     using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
 
-    const bool lane_active_for_io = lane_idx * vec_size < D_H;
+    const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
 
     extern __shared__ __align__(16) compute_t smem[];
 
@@ -188,344 +190,276 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
             {
                 const int32_t t = tt + ttt;
                 // load the K[b][t][h|0][:] row into registers
-                load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+                load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
             }
         }
-        compute_t qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-        for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-        {
-            ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                q_thread, k_loads[ttt], qk_accs[ttt]);
-            qk_accs[ttt] *= qk_scale;
+        // Each block computes different B value
+        compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
-            qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-            max_qk_acc   = ck::math::max(qk_accs[ttt], max_qk_acc);
-        }
-        if(lane_idx == 0)
-        {
-            auto* __restrict__ smem_base = smem + tt;
-#pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                smem_base[ttt] = qk_accs[ttt];
-            }
-        }
-    }
+        // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+        // Split T across wavefronts in a block, unroll loads to expose more
+        // parallelism.
 
-    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-    for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-        tt += wavefronts_per_block * n_loop_unroll_tail)
-    {
-        if(lane_active_for_io)
+        // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+            tt += wavefronts_per_block * n_loop_unroll_tail)
         {
-#pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            if(lane_active_for_io)
             {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    // load the K[b][t][h|0][:] row into registers
-                    load_v<data_t, data_vec_t>(
-                        cache_K_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-                }
-            }
-        }
 #pragma unroll n_loop_unroll_tail
-        for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-        {
-            compute_t qk_acc = 0;
-            const int32_t t  = tt + ttt;
-            if(t < t_max)
-            {
-                ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                    q_thread, k_loads[ttt], qk_acc);
-                qk_acc *= qk_scale;
-
-                qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-                max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-                // write accumulated sums to smem.
-                if(lane_idx == 0)
+                for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
                 {
-                    smem[t] = qk_acc;
-                }
-            }
-        }
-    }
-
-    // Use shared reduction to compute max and compute softmax on shared memory.
-    // write max acc
-    if(lane_idx == 0)
-    {
-        smem[T_MAX + wavefront_idx] = max_qk_acc;
-    }
-    __syncthreads();
-    if(lane_idx < wavefronts_per_block)
-    {
-        max_qk_acc = ck::math::max(max_qk_acc, smem[T_MAX + lane_idx]);
-    }
-    // shared across all threads in block
-    max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-    // each wavefront computes partial sum of exp.
-    compute_t softmax_denominator = 0.0f;
-    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
-    {
-        softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
-    }
-    softmax_denominator =
-        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
-
-    if(lane_idx == 0)
-    {
-        smem[T_MAX + wavefront_idx] = softmax_denominator;
-    }
-    __syncthreads();
-
-    // now, compute sum of exp(x - max(x)) over all intermediate results.
-    softmax_denominator = 0.0;
-    if(lane_idx < wavefronts_per_block)
-    {
-        softmax_denominator = smem[T_MAX + lane_idx];
-    }
-    softmax_denominator =
-        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
-
-    const compute_t softmax_scale_factor = 1. / softmax_denominator;
-    // now, compute the normalization across all threads.
-    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
-    {
-        smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
-    }
-    __syncthreads();
-
-    // Split T across wavefronts in a block
-    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-    // outputs are of size float[D]
-
-    compute_t ps[n_loop_unroll] = {};
-    compute_vec_t o_acc         = 0;
-    if(lane_active_for_io)
-    {
-        for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
-        {
+                    const int32_t t = tt + ttt;
+                    if(t < t_max)
+                    {
+                        // load the K[b][t][h|0][:] row into registers
+                        load_v<data_t, data_vec_t>(
+                            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                    }
+                    compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                // load the V[b][t][h|0][:] row into registers, reusing K register
-                // storage
-                load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-                ps[ttt] = smem[t];
-            }
+                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+                    {
+                        const int32_t t = tt + ttt;
+                        // load the V[b][t][h|0][:] row into registers, reusing K register
+                        // storage
+                        load_v<data_t, data_vec_t>(
+                            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                        ps[ttt] = smem[t];
+                    }
 
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-            }
-        }
-
-        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-            tt += wavefronts_per_block * n_loop_unroll_tail)
-        {
-#pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    // load the V[b][t][h|0][:] row into registers, reusing K register
-                    // storage
-                    load_v<data_t, data_vec_t>(
-                        cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
-                    ps[ttt] = smem[t];
+                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+                    {
+                        o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+                    }
                 }
-            }
 
-#pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
+                for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+                    tt += wavefronts_per_block * n_loop_unroll_tail)
                 {
-                    o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-                }
-            }
-        }
-    }
-    // now, each thread has partial sums. Write to smem and get accumulated
-    // results back.
-    __syncthreads();
-
-    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-    if(lane_active_for_io)
-    {
-        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-    }
+#pragma unroll n_loop_unroll_tail
+                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+                    {
+                        const int32_t t = tt + ttt;
+                        if(t < t_max)
+                        {
+                            // load the V[b][t][h|0][:] row into registers, reusing K register
+                            // storage
+                            load_v<data_t, data_vec_t>(
+                                cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                            ps[ttt] = smem[t];
+                        }
+
+                        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+                            tt += wavefronts_per_block * n_loop_unroll_tail)
+                        {
+#pragma unroll n_loop_unroll_tail
+                            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+                            {
+                                const int32_t t = tt + ttt;
+                                if(t < t_max)
+                                {
+                                    // load the V[b][t][h|0][:] row into registers, reusing K
+                                    // register storage
+                                    load_v<data_t, data_vec_t>(
+                                        cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+                                    ps[ttt] = smem[t];
+                                }
+                            }
 
-    __syncthreads();
-    // sum up partial D rows from other wavefronts
-    if(wavefront_idx == 0 && lane_active_for_io)
-    {
-        union
-        {
-            compute_vec_t vec = 0;
-            compute_t arr[vec_size];
-        } r;
-        for(int32_t w = 0; w < wavefronts_per_block; ++w)
-        {
-            compute_vec_t partial_r;
-            load_v<compute_t, compute_vec_t>(
-                smem, w * threads_per_wavefront + lane_idx, &partial_r);
-            r.vec += partial_r;
-        }
-        // elementwise convert from compute_t result to data_t out to be written
-        union
-        {
-            data_vec_t vec;
-            data_t arr[vec_size];
-        } bf_r;
+#pragma unroll n_loop_unroll_tail
+                            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+                            {
+                                const int32_t t = tt + ttt;
+                                if(t < t_max)
+                                {
+                                    o_acc = scalar_scale_acc<data_t, vec_size>(
+                                        o_acc, k_loads[ttt], ps[ttt]);
+                                }
+                            }
+                        }
+                    }
+                    // now, each thread has partial sums. Write to smem and get accumulated
+                    // results back.
+                    __syncthreads();
+
+                    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+                    if(lane_active_for_io)
+                    {
+                        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+                    }
+
+                    __syncthreads();
+                    // sum up partial D rows from other wavefronts
+                    if(wavefront_idx == 0 && lane_active_for_io)
+                    {
+                        union
+                        {
+                            compute_vec_t vec = 0;
+                            compute_t arr[vec_size];
+                        } r;
+                        for(int32_t w = 0; w < wavefronts_per_block; ++w)
+                        {
+                            compute_vec_t partial_r;
+                            load_v<compute_t, compute_vec_t>(
+                                smem, w * threads_per_wavefront + lane_idx, &partial_r);
+                            r.vec += partial_r;
+                        }
+                        // elementwise convert from compute_t result to data_t out to be written
+                        union
+                        {
+                            data_vec_t vec;
+                            data_t arr[vec_size];
+                        } bf_r;
 #pragma unroll
-        for(int32_t i = 0; i < vec_size; ++i)
-        {
-            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-        }
-        // write output row O[b][m][h][:]
-        data_t* __restrict__ o_ = O + XQO_base_offset;
-        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-    }
-}
-
-} // namespace
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-template <typename scalar_t>
-struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
-{
-    using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-    struct Argument : public BaseArgument
-    {
-        const scalar_t* __restrict__ XQ;
-        const scalar_t* __restrict__ cache_K;
-        const scalar_t* __restrict__ cache_V;
-        scalar_t* __restrict__ O;
-        const int32_t* __restrict__ seq_kv_lens;
-        const ptrdiff_t XQ_stride_0;
-        const ptrdiff_t XQ_stride_1;
-        const ptrdiff_t XQ_stride_2;
-        const ptrdiff_t K_stride_0;
-        const ptrdiff_t K_stride_1;
-        const ptrdiff_t K_stride_2;
-        const int32_t K_size_1;
-        const int32_t D_H;
-        const bool multiquery;
-        const float qk_scale;
-
-        const dim3 grid_dim;
-        const dim3 block_dim;
-        const size_t lds_bytes;
-
-        Argument(const scalar_t* __restrict__ XQ,
-                 const scalar_t* __restrict__ cache_K,
-                 const scalar_t* __restrict__ cache_V,
-                 scalar_t* __restrict__ O,
-                 const int32_t* __restrict__ seq_kv_lens,
-                 const ptrdiff_t XQ_stride_0,
-                 const ptrdiff_t XQ_stride_1,
-                 const ptrdiff_t XQ_stride_2,
-                 const ptrdiff_t K_stride_0,
-                 const ptrdiff_t K_stride_1,
-                 const ptrdiff_t K_stride_2,
-                 const int32_t K_size_1,
-                 const int32_t D_H,
-                 const bool multiquery,
-                 const float qk_scale,
-                 const dim3 grid_dim,
-                 const dim3 block_dim,
-                 const size_t lds_bytes)
-            : XQ(XQ),
-              cache_K(cache_K),
-              cache_V(cache_V),
-              O(O),
-              seq_kv_lens(seq_kv_lens),
-              XQ_stride_0(XQ_stride_0),
-              XQ_stride_1(XQ_stride_1),
-              XQ_stride_2(XQ_stride_2),
-              K_stride_0(K_stride_0),
-              K_stride_1(K_stride_1),
-              K_stride_2(K_stride_2),
-              K_size_1(K_size_1),
-              D_H(D_H),
-              multiquery(multiquery),
-              qk_scale(qk_scale),
-              grid_dim(grid_dim),
-              block_dim(block_dim),
-              lds_bytes(lds_bytes)
-        {
-        }
-    };
-
-    struct Invoker : public BaseInvoker
-    {
-        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
-        {
-            auto threads_per_wavefront = arg.block_dim.x;
-
-            auto D_H_alignment_necessary = 0;
-
-            for(auto vec_size : {4, 2, 1})
-            {
-                if(arg.D_H <= vec_size * threads_per_wavefront)
-                {
-                    D_H_alignment_necessary = vec_size;
+                        for(int32_t i = 0; i < vec_size; ++i)
+                        {
+                            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+                        }
+                        // write output row O[b][m][h][:]
+                        data_t* __restrict__ o_ = O + XQO_base_offset;
+                        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+                    }
                 }
-            }
 
-            if(!D_H_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported D_H");
-            }
+            } // namespace
 
-            if(arg.D_H % D_H_alignment_necessary)
+            namespace ck {
+            namespace tensor_operation {
+            namespace device {
+            template <typename scalar_t>
+            struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
             {
-                throw std::runtime_error("Unsupported alignment for D_H");
-            }
-
-            return launch_and_time_kernel(
-                stream_config,
-                D_H_alignment_necessary == 4
-                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-                    : D_H_alignment_necessary == 2
-                          ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                          : D_H_alignment_necessary == 1
+                using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+                struct Argument : public BaseArgument
+                {
+                    const scalar_t* __restrict__ XQ;
+                    const scalar_t* __restrict__ cache_K;
+                    const scalar_t* __restrict__ cache_V;
+                    scalar_t* __restrict__ O;
+                    const int32_t* __restrict__ seq_kv_lens;
+                    const ptrdiff_t XQ_stride_b;
+                    const ptrdiff_t XQ_stride_m;
+                    const ptrdiff_t XQ_stride_h;
+                    const ptrdiff_t K_stride_b;
+                    const ptrdiff_t K_stride_m;
+                    const ptrdiff_t K_stride_h;
+                    const int32_t Q_size_m;
+                    const int32_t Q_size_h;
+                    const int32_t Q_size_k;
+                    const int32_t K_size_m;
+                    const bool multiquery;
+                    const float qk_scale;
+
+                    const dim3 grid_dim;
+                    const dim3 block_dim;
+                    const size_t lds_bytes;
+
+                    Argument(const scalar_t* __restrict__ XQ,
+                             const scalar_t* __restrict__ cache_K,
+                             const scalar_t* __restrict__ cache_V,
+                             scalar_t* __restrict__ O,
+                             const int32_t* __restrict__ seq_kv_lens,
+                             const ptrdiff_t XQ_stride_b,
+                             const ptrdiff_t XQ_stride_m,
+                             const ptrdiff_t XQ_stride_h,
+                             const ptrdiff_t K_stride_b,
+                             const ptrdiff_t K_stride_m,
+                             const ptrdiff_t K_stride_h,
+                             const int32_t Q_size_m,
+                             const int32_t Q_size_h,
+                             const int32_t Q_size_k,
+                             const int32_t K_size_m,
+                             const bool multiquery,
+                             const float qk_scale,
+                             const dim3 grid_dim,
+                             const dim3 block_dim,
+                             const size_t lds_bytes)
+                        : XQ(XQ),
+                          cache_K(cache_K),
+                          cache_V(cache_V),
+                          O(O),
+                          seq_kv_lens(seq_kv_lens),
+                          XQ_stride_b(XQ_stride_b),
+                          XQ_stride_m(XQ_stride_m),
+                          XQ_stride_h(XQ_stride_h),
+                          K_stride_b(K_stride_b),
+                          K_stride_m(K_stride_m),
+                          K_stride_h(K_stride_h),
+                          Q_size_m(Q_size_m),
+                          Q_size_h(Q_size_h),
+                          Q_size_k(Q_size_k),
+                          K_size_m(K_size_m),
+                          multiquery(multiquery),
+                          qk_scale(qk_scale),
+                          grid_dim(grid_dim),
+                          block_dim(block_dim),
+                          lds_bytes(lds_bytes)
+                    {
+                    }
+                };
+
+                struct Invoker : public BaseInvoker
+                {
+                    using Argument = DeviceOp::Argument;
+                    float Run(const Argument& arg,
+                              const StreamConfig& stream_config = StreamConfig{})
+                    {
+                        auto threads_per_wavefront = arg.block_dim.x;
+
+                        auto Q_size_k_alignment_necessary = 0;
+
+                        for(auto vec_size : {4, 2, 1})
+                        {
+                            if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                            {
+                                Q_size_k_alignment_necessary = vec_size;
+                            }
+                        };
+
+                        if(!Q_size_k_alignment_necessary)
+                        {
+                            throw std::runtime_error("Unsupported Q_size_k");
+                        }
+
+                        if(arg.Q_size_k % Q_size_k_alignment_necessary)
+                        {
+                            throw std::runtime_error("Unsupported alignment for Q_size_k");
+                        }
+
+                        return launch_and_time_kernel(
+                            stream_config,
+                            Q_size_k_alignment_necessary == 4
+                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+                            : Q_size_k_alignment_necessary == 2
+                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                            : Q_size_k_alignment_necessary == 1
                                 ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
                                 : nullptr,
-                arg.grid_dim,
-                arg.block_dim,
-                arg.lds_bytes,
-                arg.XQ,
-                arg.cache_K,
-                arg.cache_V,
-                arg.O,
-                arg.seq_kv_lens,
-                arg.XQ_stride_0,
-                arg.XQ_stride_1,
-                arg.XQ_stride_2,
-                arg.K_stride_0,
-                arg.K_stride_1,
-                arg.K_stride_2,
-                arg.K_size_1,
-                arg.D_H,
-                arg.multiquery,
-                arg.qk_scale);
-        }
-    };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
+                            arg.grid_dim,
+                            arg.block_dim,
+                            arg.lds_bytes,
+                            arg.XQ,
+                            arg.cache_K,
+                            arg.cache_V,
+                            arg.O,
+                            arg.seq_kv_lens,
+                            arg.XQ_stride_b,
+                            arg.XQ_stride_m,
+                            arg.XQ_stride_h,
+                            arg.K_stride_b,
+                            arg.K_stride_m,
+                            arg.K_stride_h,
+                            arg.Q_size_m,
+                            arg.Q_size_h,
+                            arg.Q_size_k,
+                            arg.K_size_m,
+                            arg.multiquery,
+                            arg.qk_scale);
+                    }
+                };
+            };
+            } // namespace device
+            } // namespace tensor_operation
+            } // namespace ck

From 0215ced6e043de1acaafabc25418d5aafaa6fe14 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 22 Nov 2023 18:43:52 -0500
Subject: [PATCH 257/837] add helper from upstream which makes any input rank-5

---
 xformers/ops/fmha/common.py | 49 +++++++++++++++++++++++++++++--------
 1 file changed, 39 insertions(+), 10 deletions(-)

diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index 24fdc52478..b318342aa8 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -3,9 +3,10 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
+from functools import partial
 import math
 from dataclasses import dataclass
-from typing import Any, List, Mapping, Optional, Set, Tuple, Type, Union
+from typing import Any, Callable, List, Mapping, Optional, Set, Tuple, Type, Union
 
 import torch
 
@@ -28,6 +29,17 @@ def _is_bias_type_supported_in_BMK(attn_bias_type: Any) -> bool:
     return False
 
 
+def _attn_bias_apply(
+    attn_bias: Optional[Union[torch.Tensor, AttentionBias]],
+    op: Callable[[torch.Tensor], torch.Tensor],
+) -> Optional[Union[torch.Tensor, AttentionBias]]:
+    if isinstance(attn_bias, torch.Tensor):
+        return op(attn_bias)
+    if isinstance(attn_bias, LowerTriangularMaskWithTensorBias):
+        return LowerTriangularMaskWithTensorBias(op(attn_bias._bias))
+    return attn_bias
+
+
 @dataclass
 class Inputs:
     """
@@ -49,14 +61,34 @@ def device(self) -> torch.device:
     def scale_float(self) -> float:
         return self.query.shape[-1] ** (-0.5) if self.scale is None else self.scale
 
+    def get_qkv_in_bmghk(self) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
+        if self.query.ndim == 5:
+            return self.query, self.key, self.value
+        if self.query.ndim == 4:
+            return (
+                self.query.unsqueeze(2),
+                self.key.unsqueeze(2),
+                self.value.unsqueeze(2),
+            )
+        if self.value.ndim == 3:
+            return (
+                self.query[:, :, None, None],
+                self.key[:, :, None, None],
+                self.value[:, :, None, None],
+            )
+        assert False
+
     def normalize_bmhk(self) -> Tuple[int, ...]:
-        if self.query.ndim not in [3, 4]:
+        if self.query.ndim not in [3, 4, 5]:
             raise ValueError(
                 f"Invalid shape for query: {self.query.shape}. "
-                "Expected shape [batch, seqlen, num_heads, K], or [batch, seqlen, K]."
+                "Expected shape [batch, seqlen, head_groups, num_heads_per_group, K]"
+                ", [batch, seqlen, num_heads, K], or [batch, seqlen, K]."
             )
         if self.value.dtype == torch.int32:
-            # Quantized K/V case, in which the last dims of Q and K/V are different
+            # Quantized K/V case, in which the last dims of Q and K are different.
+            # NB we currently don't have any implementations for quantized KV with
+            # SUPPORTS_DIFFERENT_VALUE_EMBED.
             output_shape = tuple(self.query.shape)
         else:
             output_shape = (self.query.shape[:-1]) + (self.value.shape[-1],)
@@ -65,12 +97,9 @@ def normalize_bmhk(self) -> Tuple[int, ...]:
             self.query = self.query.unsqueeze(2)
             self.key = self.key.unsqueeze(2)
             self.value = self.value.unsqueeze(2)
-            if isinstance(self.attn_bias, torch.Tensor):
-                if self.attn_bias.ndim != 3:
-                    raise ValueError(
-                        f"Expected BMK format for attn_bias, but got {self.attn_bias.shape}"
-                    )
-                self.attn_bias = self.attn_bias.unsqueeze(1)
+            self.attn_bias = _attn_bias_apply(
+                self.attn_bias, partial(torch.unsqueeze, dim=1)
+            )
         return output_shape
 
     def validate_inputs(self) -> None:

From 8ef8fed0fc497a1367044cb10c303a74f8b0e289 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 24 Nov 2023 20:20:58 -0500
Subject: [PATCH 258/837] support bmghk

---
 .../hip_fmha/attention_forward_decoder.cpp    | 22 +++++++-----
 .../hip_fmha/ck_attention_forward_decoder.h   | 30 ++++++++++++----
 xformers/ops/fmha/ck_decoder.py               | 34 +++++++++----------
 xformers/ops/fmha/common.py                   |  6 ++--
 4 files changed, 59 insertions(+), 33 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index a5c2f2796a..3678157aa9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -75,17 +75,20 @@ efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B
     TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
 
     TORCH_CHECK(cache_K.size(1) <= T_MAX);
-    TORCH_CHECK(cache_K.size(3) <= D_H);
+    TORCH_CHECK(cache_K.size(4) <= D_H);
+
+    constexpr auto rank = 5;
 
     auto B = XQ.size(0);
     auto M = XQ.size(1);
-    auto H = XQ.size(2);
+    auto G = XQ.size(2);
+    auto H = XQ.size(3);
 
     TORCH_CHECK(B <= 1024);
     TORCH_CHECK(M <= 1024);
     TORCH_CHECK(H <= 1024);
 
-    dim3 blocks(B * H * M);
+    dim3 blocks(B * H * M * G);
     dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
     int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
@@ -105,10 +108,10 @@ efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B
             using device_op_t = ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
             auto op           = device_op_t{};
 
-            auto XQ_acc = XQ.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
-            auto K_acc  = cache_K.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-            auto V_acc  = cache_V.packed_accessor64<scalar_t, 4, at::RestrictPtrTraits>();
-            auto O_acc  = O.packed_accessor32<scalar_t, 4, at::RestrictPtrTraits>();
+            auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto K_acc  = cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+            auto V_acc  = cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+            auto O_acc  = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
             auto seq_acc =
                 seq_kv_lens
                     ? seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data()
@@ -122,14 +125,17 @@ efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B
                 XQ_acc.stride(0),
                 XQ_acc.stride(1),
                 XQ_acc.stride(2),
+                XQ_acc.stride(3),
                 K_acc.stride(0),
                 K_acc.stride(1),
                 K_acc.stride(2),
+                K_acc.stride(3),
                 XQ_acc.size(1),
                 XQ_acc.size(2),
                 XQ_acc.size(3),
+                XQ_acc.size(4),
                 K_acc.size(1),
-                K_acc.size(2) == 1,
+                K_acc.size(3) == 1,
                 qk_scale,
                 blocks,
                 threads,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 5686ad4b7e..5d303f8a4d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -116,11 +116,14 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                                               const int32_t* __restrict__ seq_kv_lens,
                                               const ptrdiff_t XQ_stride_b,
                                               const ptrdiff_t XQ_stride_m,
+                                              const ptrdiff_t XQ_stride_g,
                                               const ptrdiff_t XQ_stride_h,
                                               const ptrdiff_t K_stride_b,
                                               const ptrdiff_t K_stride_m,
+                                              const ptrdiff_t K_stride_g,
                                               const ptrdiff_t K_stride_h,
                                               const int32_t Q_size_m,
+                                              const int32_t Q_size_g,
                                               const int32_t Q_size_h,
                                               const int32_t Q_size_k,
                                               const int32_t K_size_m,
@@ -129,10 +132,11 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
 {
     static_assert(n_loop_unroll_tail < n_loop_unroll, "");
 
-    // Each block handles a single batch and head and query
-    const int32_t b = blockIdx.x / (Q_size_m * Q_size_h);
-    const int32_t h = (blockIdx.x / Q_size_m) % Q_size_h;
-    const int32_t m = blockIdx.x % Q_size_m;
+    // Each block handles a single batch and head and query and group
+    const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+    const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+    const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+    const int32_t h = blockIdx.x % Q_size_h;
 
     // Note: this is decoding case where we attend to current and all previous
     // tokens.
@@ -145,10 +149,12 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
     const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
     const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
     // const auto* q_ = &(XQ_acc[b][m][h][0]);
-    const auto XQO_base_offset  = b * XQ_stride_b + m * XQ_stride_m + h * XQ_stride_h;
+    const auto XQO_base_offset =
+        b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
     const auto* __restrict__ q_ = XQ + XQO_base_offset;
 
-    const auto cache_KV_base_offset       = b * K_stride_b + (multiquery ? 0 : h * K_stride_h);
+    const auto cache_KV_base_offset =
+        b * K_stride_b + 0 * K_stride_m + g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
     const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
     const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
 
@@ -341,11 +347,14 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                     const int32_t* __restrict__ seq_kv_lens;
                     const ptrdiff_t XQ_stride_b;
                     const ptrdiff_t XQ_stride_m;
+                    const ptrdiff_t XQ_stride_g;
                     const ptrdiff_t XQ_stride_h;
                     const ptrdiff_t K_stride_b;
                     const ptrdiff_t K_stride_m;
+                    const ptrdiff_t K_stride_g;
                     const ptrdiff_t K_stride_h;
                     const int32_t Q_size_m;
+                    const int32_t Q_size_g;
                     const int32_t Q_size_h;
                     const int32_t Q_size_k;
                     const int32_t K_size_m;
@@ -363,11 +372,14 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                              const int32_t* __restrict__ seq_kv_lens,
                              const ptrdiff_t XQ_stride_b,
                              const ptrdiff_t XQ_stride_m,
+                             const ptrdiff_t XQ_stride_g,
                              const ptrdiff_t XQ_stride_h,
                              const ptrdiff_t K_stride_b,
                              const ptrdiff_t K_stride_m,
+                             const ptrdiff_t K_stride_g,
                              const ptrdiff_t K_stride_h,
                              const int32_t Q_size_m,
+                             const int32_t Q_size_g,
                              const int32_t Q_size_h,
                              const int32_t Q_size_k,
                              const int32_t K_size_m,
@@ -383,11 +395,14 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                           seq_kv_lens(seq_kv_lens),
                           XQ_stride_b(XQ_stride_b),
                           XQ_stride_m(XQ_stride_m),
+                          XQ_stride_g(XQ_stride_g),
                           XQ_stride_h(XQ_stride_h),
                           K_stride_b(K_stride_b),
                           K_stride_m(K_stride_m),
+                          K_stride_g(K_stride_g),
                           K_stride_h(K_stride_h),
                           Q_size_m(Q_size_m),
+                          Q_size_g(Q_size_g),
                           Q_size_h(Q_size_h),
                           Q_size_k(Q_size_k),
                           K_size_m(K_size_m),
@@ -447,11 +462,14 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                             arg.seq_kv_lens,
                             arg.XQ_stride_b,
                             arg.XQ_stride_m,
+                            arg.XQ_stride_g,
                             arg.XQ_stride_h,
                             arg.K_stride_b,
                             arg.K_stride_m,
+                            arg.K_stride_g,
                             arg.K_stride_h,
                             arg.Q_size_m,
+                            arg.Q_size_g,
                             arg.Q_size_h,
                             arg.Q_size_k,
                             arg.K_size_m,
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 9efad083ca..2fee16a003 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -75,35 +75,35 @@ def apply(
         if needs_gradient:
             raise NotImplementedError("backward pass is not supported")
         attn_bias = inp.attn_bias
-
+        q, k, v = inp.get_qkv_in_bmghk()
         if attn_bias is not None:
-            attn_bias.k_seqinfo.to(inp.key.device)
-            attn_bias.q_seqinfo.to(inp.query.device)
+            attn_bias.k_seqinfo.to(k.device)
+            attn_bias.q_seqinfo.to(q.device)
             padding = attn_bias.k_seqinfo.padding
             seq_positions_gpu = attn_bias.k_seqinfo.seqlen
         else:
-            padding = inp.key.shape[1]
+            padding = k.shape[1]
             seq_positions_gpu = None
 
         if attn_bias is not None:
-            # key: (1, B * padding, 1 if multiquery else Hkv, D)
+            # key: (1, B * padding, G, 1 if multiquery else Hkv, D)
             # value: like key
-            # query: (1, B * q_seqlen, Hq, D)
-            multiquery = inp.key.stride(2) == 0
+            # query: (1, B * q_seqlen, G, Hq, D)
+            multiquery = k.stride(3) == 0
             if multiquery:
-                key = inp.key[0, :, :1].unflatten(0, (-1, padding))
-                value = inp.value[0, :, :1].unflatten(0, (-1, padding))
+                key = k[0, :, :, :1].unflatten(0, (-1, padding))
+                value = v[0, :, :, :1].unflatten(0, (-1, padding))
             else:
-                key = inp.key[0].unflatten(0, (-1, padding))
-                value = inp.value[0].unflatten(0, (-1, padding))
-            query = inp.query[0].unflatten(0, (key.shape[0], -1))    
+                key = k[0].unflatten(0, (-1, padding))
+                value = v[0].unflatten(0, (-1, padding))
+            query = q[0].unflatten(0, (key.shape[0], -1))    
         else:
-            # key: (B, padding, 1 if multiquery else Hkv, D)
+            # key: (B, padding, G, 1 if multiquery else Hkv, D)
             # value: like key
-            # query: (B, q_seqlen, Hq, D)
-            key = inp.key
-            query = inp.query
-            value = inp.value
+            # query: (B, q_seqlen, G, Hq, D)
+            key = k
+            query = q
+            value = v
 
         if inp.scale is not None:
             qk_scale = inp.scale
diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index b318342aa8..db0a33344b 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -104,9 +104,11 @@ def normalize_bmhk(self) -> Tuple[int, ...]:
 
     def validate_inputs(self) -> None:
         qkv = (self.query, self.key, self.value)
-        if self.query.ndim not in (3, 4) or any(x.ndim != self.query.ndim for x in qkv):
+        if self.query.ndim not in (3, 4, 5) or any(
+            x.ndim != self.query.ndim for x in qkv
+        ):
             raise ValueError(
-                f"Query/Key/Value should all have BMHK or BMK shape.\n"
+                f"Query/Key/Value should all have BMGHK, BMHK or BMK shape.\n"
                 f"  query.shape: {self.query.shape}\n"
                 f"  key.shape  : {self.key.shape}\n"
                 f"  value.shape: {self.value.shape}"

From bcceb6b26aa415ef24e9e9b6ece7f1328209c7e4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 25 Nov 2023 01:07:54 -0500
Subject: [PATCH 259/837] benchmark bmghk

---
 xformers/benchmarks/benchmark_attn_decoding.py | 16 +++++-----------
 1 file changed, 5 insertions(+), 11 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 1a729a6456..8747db664e 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -17,13 +17,9 @@
 
 
 CASES = [
-    dict(B=max(1, 2 ** (16 - i)), Mq=1, Mkv=2**i, Hq=16, Hkv=1, K=128)
-    for i in range(8, 18)
+    dict(B=max(1, 2 ** (16 - i)), Mq=1, Mkv=2**i, Hq=16, Hkv=hkv, K=128)
+    for i in range(8, 18) for hkv in (1, 2)
 ]
-# + [
-#     dict(B=max(1, 2 ** (16 - i)), Mq=1, Mkv=2**i, Hq=16, Hkv=2, K=128)
-#     for i in range(8, 18)
-# ]
 
 
 def _setup_test(
@@ -98,21 +94,19 @@ def __init__(
     def fw(self) -> None:
         try:
             xops.memory_efficient_attention_forward(self.q, self.k, self.v, op=self.OP)
-        except RuntimeError as e:
+        except (RuntimeError, ValueError) as e:
             print(f"Runtime error: {e}")
 
 
-# class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
-#     OP = xops.fmha.triton_splitk.FwOp
+class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
+    OP = xops.fmha.triton_splitk.FwOp
 
 
 class AttentionDecodingCK(AttentionDecodingFlashDecoding):
-
     OP = xops.fmha.ck.FwOp
 
 
 class AttentionDecodingCKDecoder(AttentionDecodingFlashDecoding):
-
     OP = xops.fmha.ck_decoder.FwOp
 
 
From 6564d6901f31851d26128303c0891ef352046ad0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sun, 26 Nov 2023 00:41:27 -0500
Subject: [PATCH 260/837] comment back triton_splitk until merge with upstream
 happens

---
 xformers/benchmarks/benchmark_attn_decoding.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 8747db664e..64725dfd6e 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -98,8 +98,8 @@ def fw(self) -> None:
             print(f"Runtime error: {e}")
 
 
-class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
-    OP = xops.fmha.triton_splitk.FwOp
+# class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
+#     OP = xops.fmha.triton_splitk.FwOp
 
 
 class AttentionDecodingCK(AttentionDecodingFlashDecoding):

From beb4383a07c5d18c84116cd9c53a305bb7b81052 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sun, 26 Nov 2023 01:22:49 -0500
Subject: [PATCH 261/837] fix comments and standalone decoder runner

---
 .../hip_fmha/attention_forward_decoder.cpp    | 147 +++---
 .../hip_fmha/ck_attention_forward_decoder.h   | 450 +++++++++---------
 2 files changed, 300 insertions(+), 297 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 3678157aa9..b696831e43 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -56,13 +56,13 @@ template <int32_t ThreadsPerWavefront,
           int32_t WavefrontsPerBlock,
           int32_t T_MAX = 8192,
           int32_t D_H   = 256>
-at::Tensor&
-efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B, 1, H, D]
-                                                const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-                                                const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-                                                at::optional<at::Tensor> seq_kv_lens, // [B]
-                                                double qk_scale,
-                                                at::Tensor& O)
+at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, T_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, T_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    at::Tensor& O)
 {
     static_assert(4 * ThreadsPerWavefront == D_H, "");
     static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
@@ -153,8 +153,8 @@ efficient_attention_forward_decoder_ck_out_impl(const at::Tensor& XQ,      // [B
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor
-efficient_attention_forward_decoder_ck_impl(const at::Tensor& XQ,      // [B, 1, H, D]
-                                            const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+efficient_attention_forward_decoder_ck_impl(const at::Tensor& XQ,      // [B, 1, G, H, D]
+                                            const at::Tensor& cache_K, // [B, T_MAX, G, H or 1, D]
                                             const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
                                             at::optional<at::Tensor> seq_kv_lens, // [B]
                                             double qk_scale)
@@ -166,9 +166,9 @@ efficient_attention_forward_decoder_ck_impl(const at::Tensor& XQ,      // [B, 1,
 }
 
 at::Tensor
-efficient_attention_forward_decoder_ck(const at::Tensor& XQ,      // [B, 1, H, D]
-                                       const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-                                       const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+efficient_attention_forward_decoder_ck(const at::Tensor& XQ,      // [B, 1, G, H, D]
+                                       const at::Tensor& cache_K, // [B, T_MAX, G, H or 1, D]
+                                       const at::Tensor& cache_V, // [B, T_MAX, G, H or 1, D]
                                        at::optional<at::Tensor> seq_kv_lens, // [B]
                                        double qk_scale)
 {
@@ -200,11 +200,11 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m)
 (2) compile
  > mkdir build
  > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \ 
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
        -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
        -D CMAKE_PREFIX_PATH=/opt/rocm \
        -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="gfx90a" 
+       -D GPU_TARGETS="native" 
   > make
 
 (3a) run correctness check
@@ -221,15 +221,16 @@ static void do_correctness_check()
     const int32_t D = 4 * kThreadsPerWavefront;
     const int32_t B = 1;
     const int32_t H = 4;
+    const int32_t G = 1;
     auto options    = torch::TensorOptions()
                        .dtype(torch::kFloat32)
                        .layout(torch::kStrided)
                        .device(torch::kCUDA, 1)
                        .requires_grad(false);
     auto int_options = options.dtype(torch::kInt);
-    auto XQ          = at::randn({B, 1, H, D}, options);
-    auto K           = at::randn({B, 4096, H, D}, options);
-    auto V           = at::randn({B, 4096, H, D}, options);
+    auto XQ          = at::randn({B, 1, G, H, D}, options);
+    auto K           = at::randn({B, 4096, G, H, D}, options);
+    auto V           = at::randn({B, 4096, G, H, D}, options);
     auto seq         = at::randint(63, 128, {B}, int_options);
     double qk_scale  = 1. / sqrt(D);
 
@@ -246,76 +247,68 @@ int main(int argc, char** argv)
     {
         do_correctness_check();
     }
-    else
-    {
-        const auto args = std::vector<std::string>(argv + 1, argv + argc);
-        if(args.size() != 7)
-        {
-            std::cout << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-                         "n_wavefronts_per_block"
-                      << std::endl;
-            return 0;
-        }
-        const int32_t n_keys                 = std::stoi(args[0]);
-        const int32_t padding                = std::stoi(args[1]);
-        const int32_t batch_size             = std::stoi(args[2]);
-        const int32_t n_heads                = std::stoi(args[3]);
-        const int32_t multiquery             = (args[4] == "mq");
-        const auto dtype                     = (args[5] == "f32")   ? torch::kFloat32
-                                               : (args[5] == "f16") ? torch::kFloat16
-                                                                    : torch::kBFloat16;
-        const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-        const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-        const auto options = torch::TensorOptions()
-                                 .dtype(dtype)
-                                 .layout(torch::kStrided)
-                                 .device(torch::kCUDA, 1)
-                                 .requires_grad(false);
-
-        const auto int_options = options.dtype(torch::kInt);
-        const auto Q           = at::rand({batch_size, 1, n_heads, dim_per_head}, options);
-        const auto K = multiquery ? at::rand({batch_size, padding, 1, dim_per_head}, options)
-                                        .expand({batch_size, padding, n_heads, dim_per_head})
-                                  : at::rand({batch_size, padding, n_heads, dim_per_head}, options);
-        const auto V = at::rand_like(K);
-        auto O       = at::rand_like(Q);
-
-        const auto seq        = at::randint(1, n_keys, {batch_size}, int_options);
-        const double qk_scale = 1. / sqrt(dim_per_head);
-        auto call_ptr =
-            decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront,
-                                                                      kWavefrontsPerBlock>){};
+    const int32_t n_keys                 = std::stoi(args[0]);
+    const int32_t padding                = std::stoi(args[1]);
+    const int32_t batch_size             = std::stoi(args[2]);
+    const int32_t n_heads                = std::stoi(args[3]);
+    const int32_t n_groups               = 1;
+    const int32_t multiquery             = (args[4] == "mq");
+    const auto dtype                     = (args[5] == "f32")   ? torch::kFloat32
+                                           : (args[5] == "f16") ? torch::kFloat16
+                                                                : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q           = at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K           = multiquery
+                                 ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+                             .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+                                 : at::rand({batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V           = at::rand_like(K);
+    auto O                 = at::empty_like(Q);
+
+    const auto seq        = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr =
+        decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront,
+                                                                  kWavefrontsPerBlock>){};
 
 #define SWITCH_CASE_SET_CALLPTR(n)                                                              \
     case(n):                                                                                    \
         call_ptr = &efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, (n)>; \
         break;
 
-        switch(n_wavefronts_per_block)
-        {
-            SWITCH_CASE_SET_CALLPTR(1);
-            SWITCH_CASE_SET_CALLPTR(2);
-            SWITCH_CASE_SET_CALLPTR(4);
-            SWITCH_CASE_SET_CALLPTR(8);
-            SWITCH_CASE_SET_CALLPTR(16);
+    switch(n_wavefronts_per_block)
+    {
+        SWITCH_CASE_SET_CALLPTR(1);
+        SWITCH_CASE_SET_CALLPTR(2);
+        SWITCH_CASE_SET_CALLPTR(4);
+        SWITCH_CASE_SET_CALLPTR(8);
+        SWITCH_CASE_SET_CALLPTR(16);
 
-        default: call_ptr = nullptr; break;
-        }
+    default: call_ptr = nullptr; break;
+    }
 #undef SWITCH_CASE_SET_CALLPTR
 
-        if(call_ptr)
-        {
-            call_ptr(Q, K, V, seq, qk_scale, O);
-        }
-        else
-        {
-            std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                      << n_wavefronts_per_block << std::endl;
-        }
+    if(call_ptr)
+    {
+        call_ptr(Q, K, V, seq, qk_scale, O);
     }
-    return 0;
+    else
+    {
+        std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                  << n_wavefronts_per_block << std::endl;
+    }
+}
+return 0;
 }
 
 #endif // MAIN
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 5d303f8a4d..8270edc446 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -148,7 +148,7 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
     const int32_t wavefronts_per_block  = blockDim.y;
     const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
     const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
-    // const auto* q_ = &(XQ_acc[b][m][h][0]);
+    // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
     const auto XQO_base_offset =
         b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
     const auto* __restrict__ q_ = XQ + XQO_base_offset;
@@ -195,7 +195,7 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
             for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
             {
                 const int32_t t = tt + ttt;
-                // load the K[b][t][h|0][:] row into registers
+                // load the K[b][t][g][h|0][:] row into registers
                 load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
             }
         }
@@ -218,47 +218,22 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                     const int32_t t = tt + ttt;
                     if(t < t_max)
                     {
-                        // load the K[b][t][h|0][:] row into registers
+                        // load the K[b][t][g][h|0][:] row into registers
                         load_v<data_t, data_vec_t>(
                             cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
                     }
-                    compute_t qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-                    {
-                        const int32_t t = tt + ttt;
-                        // load the V[b][t][h|0][:] row into registers, reusing K register
-                        // storage
-                        load_v<data_t, data_vec_t>(
-                            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                        ps[ttt] = smem[t];
-                    }
+                    // Each block computes different B value
+                    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
-#pragma unroll n_loop_unroll
-                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-                    {
-                        o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-                    }
-                }
+                    // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+                    // Split T across wavefronts in a block, unroll loads to expose more
+                    // parallelism.
 
-                for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-                    tt += wavefronts_per_block * n_loop_unroll_tail)
-                {
-#pragma unroll n_loop_unroll_tail
-                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+                    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+                    for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+                        tt += wavefronts_per_block * n_loop_unroll_tail)
                     {
-                        const int32_t t = tt + ttt;
-                        if(t < t_max)
-                        {
-                            // load the V[b][t][h|0][:] row into registers, reusing K register
-                            // storage
-                            load_v<data_t, data_vec_t>(
-                                cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                            ps[ttt] = smem[t];
-                        }
-
-                        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-                            tt += wavefronts_per_block * n_loop_unroll_tail)
+                        if(lane_active_for_io)
                         {
 #pragma unroll n_loop_unroll_tail
                             for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
@@ -266,218 +241,253 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                                 const int32_t t = tt + ttt;
                                 if(t < t_max)
                                 {
-                                    // load the V[b][t][h|0][:] row into registers, reusing K
+                                    // load the K[b][t][h|0][:] row into registers
+                                    load_v<data_t, data_vec_t>(
+                                        cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                                }
+                                compute_t qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+                                for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+                                {
+                                    const int32_t t = tt + ttt;
+                                    // load the V[b][t][g][h|0][:] row into registers, reusing K
                                     // register storage
                                     load_v<data_t, data_vec_t>(
-                                        cache_V_base + t * K_stride_1, lane_idx, &k_loads[ttt]);
+                                        cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
                                     ps[ttt] = smem[t];
                                 }
-                            }
 
-#pragma unroll n_loop_unroll_tail
-                            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                            {
-                                const int32_t t = tt + ttt;
-                                if(t < t_max)
+#pragma unroll n_loop_unroll
+                                for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
                                 {
                                     o_acc = scalar_scale_acc<data_t, vec_size>(
                                         o_acc, k_loads[ttt], ps[ttt]);
                                 }
                             }
-                        }
-                    }
-                    // now, each thread has partial sums. Write to smem and get accumulated
-                    // results back.
-                    __syncthreads();
 
-                    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-                    if(lane_active_for_io)
-                    {
-                        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-                    }
+                            for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
+                                tt < t_max;
+                                tt += wavefronts_per_block * n_loop_unroll_tail)
+                            {
+#pragma unroll n_loop_unroll_tail
+                                for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+                                {
+                                    const int32_t t = tt + ttt;
+                                    if(t < t_max)
+                                    {
+                                        // load the V[b][t][g][h|0][:] row into registers, reusing K
+                                        // register storage
+                                        load_v<data_t, data_vec_t>(
+                                            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                                        ps[ttt] = smem[t];
+                                    }
+                                }
 
-                    __syncthreads();
-                    // sum up partial D rows from other wavefronts
-                    if(wavefront_idx == 0 && lane_active_for_io)
-                    {
-                        union
-                        {
-                            compute_vec_t vec = 0;
-                            compute_t arr[vec_size];
-                        } r;
-                        for(int32_t w = 0; w < wavefronts_per_block; ++w)
+#pragma unroll n_loop_unroll_tail
+                                for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+                                {
+                                    const int32_t t = tt + ttt;
+                                    if(t < t_max)
+                                    {
+                                        o_acc = scalar_scale_acc<data_t, vec_size>(
+                                            o_acc, k_loads[ttt], ps[ttt]);
+                                    }
+                                }
+                            }
+                        }
+                        // now, each thread has partial sums. Write to smem and get accumulated
+                        // results back.
+                        __syncthreads();
+
+                        // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) *
+                        // threadsPerBlock
+                        if(lane_active_for_io)
                         {
-                            compute_vec_t partial_r;
-                            load_v<compute_t, compute_vec_t>(
-                                smem, w * threads_per_wavefront + lane_idx, &partial_r);
-                            r.vec += partial_r;
+                            store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
                         }
-                        // elementwise convert from compute_t result to data_t out to be written
-                        union
+
+                        __syncthreads();
+                        // sum up partial D rows from other wavefronts
+                        if(wavefront_idx == 0 && lane_active_for_io)
                         {
-                            data_vec_t vec;
-                            data_t arr[vec_size];
-                        } bf_r;
+                            union
+                            {
+                                compute_vec_t vec = 0;
+                                compute_t arr[vec_size];
+                            } r;
+                            for(int32_t w = 0; w < wavefronts_per_block; ++w)
+                            {
+                                compute_vec_t partial_r;
+                                load_v<compute_t, compute_vec_t>(
+                                    smem, w * threads_per_wavefront + lane_idx, &partial_r);
+                                r.vec += partial_r;
+                            }
+                            // elementwise convert from compute_t result to data_t out to be written
+                            union
+                            {
+                                data_vec_t vec;
+                                data_t arr[vec_size];
+                            } bf_r;
 #pragma unroll
-                        for(int32_t i = 0; i < vec_size; ++i)
-                        {
-                            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+                            for(int32_t i = 0; i < vec_size; ++i)
+                            {
+                                bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+                            }
+                            // write output row O[b][m][g][h][:]
+                            data_t* __restrict__ o_ = O + XQO_base_offset;
+                            store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
                         }
-                        // write output row O[b][m][h][:]
-                        data_t* __restrict__ o_ = O + XQO_base_offset;
-                        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
                     }
-                }
 
-            } // namespace
+                } // namespace
 
-            namespace ck {
-            namespace tensor_operation {
-            namespace device {
-            template <typename scalar_t>
-            struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
-            {
-                using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-                struct Argument : public BaseArgument
+                namespace ck {
+                namespace tensor_operation {
+                namespace device {
+                template <typename scalar_t>
+                struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
                 {
-                    const scalar_t* __restrict__ XQ;
-                    const scalar_t* __restrict__ cache_K;
-                    const scalar_t* __restrict__ cache_V;
-                    scalar_t* __restrict__ O;
-                    const int32_t* __restrict__ seq_kv_lens;
-                    const ptrdiff_t XQ_stride_b;
-                    const ptrdiff_t XQ_stride_m;
-                    const ptrdiff_t XQ_stride_g;
-                    const ptrdiff_t XQ_stride_h;
-                    const ptrdiff_t K_stride_b;
-                    const ptrdiff_t K_stride_m;
-                    const ptrdiff_t K_stride_g;
-                    const ptrdiff_t K_stride_h;
-                    const int32_t Q_size_m;
-                    const int32_t Q_size_g;
-                    const int32_t Q_size_h;
-                    const int32_t Q_size_k;
-                    const int32_t K_size_m;
-                    const bool multiquery;
-                    const float qk_scale;
-
-                    const dim3 grid_dim;
-                    const dim3 block_dim;
-                    const size_t lds_bytes;
-
-                    Argument(const scalar_t* __restrict__ XQ,
-                             const scalar_t* __restrict__ cache_K,
-                             const scalar_t* __restrict__ cache_V,
-                             scalar_t* __restrict__ O,
-                             const int32_t* __restrict__ seq_kv_lens,
-                             const ptrdiff_t XQ_stride_b,
-                             const ptrdiff_t XQ_stride_m,
-                             const ptrdiff_t XQ_stride_g,
-                             const ptrdiff_t XQ_stride_h,
-                             const ptrdiff_t K_stride_b,
-                             const ptrdiff_t K_stride_m,
-                             const ptrdiff_t K_stride_g,
-                             const ptrdiff_t K_stride_h,
-                             const int32_t Q_size_m,
-                             const int32_t Q_size_g,
-                             const int32_t Q_size_h,
-                             const int32_t Q_size_k,
-                             const int32_t K_size_m,
-                             const bool multiquery,
-                             const float qk_scale,
-                             const dim3 grid_dim,
-                             const dim3 block_dim,
-                             const size_t lds_bytes)
-                        : XQ(XQ),
-                          cache_K(cache_K),
-                          cache_V(cache_V),
-                          O(O),
-                          seq_kv_lens(seq_kv_lens),
-                          XQ_stride_b(XQ_stride_b),
-                          XQ_stride_m(XQ_stride_m),
-                          XQ_stride_g(XQ_stride_g),
-                          XQ_stride_h(XQ_stride_h),
-                          K_stride_b(K_stride_b),
-                          K_stride_m(K_stride_m),
-                          K_stride_g(K_stride_g),
-                          K_stride_h(K_stride_h),
-                          Q_size_m(Q_size_m),
-                          Q_size_g(Q_size_g),
-                          Q_size_h(Q_size_h),
-                          Q_size_k(Q_size_k),
-                          K_size_m(K_size_m),
-                          multiquery(multiquery),
-                          qk_scale(qk_scale),
-                          grid_dim(grid_dim),
-                          block_dim(block_dim),
-                          lds_bytes(lds_bytes)
+                    using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+                    struct Argument : public BaseArgument
                     {
-                    }
-                };
+                        const scalar_t* __restrict__ XQ;
+                        const scalar_t* __restrict__ cache_K;
+                        const scalar_t* __restrict__ cache_V;
+                        scalar_t* __restrict__ O;
+                        const int32_t* __restrict__ seq_kv_lens;
+                        const ptrdiff_t XQ_stride_b;
+                        const ptrdiff_t XQ_stride_m;
+                        const ptrdiff_t XQ_stride_g;
+                        const ptrdiff_t XQ_stride_h;
+                        const ptrdiff_t K_stride_b;
+                        const ptrdiff_t K_stride_m;
+                        const ptrdiff_t K_stride_g;
+                        const ptrdiff_t K_stride_h;
+                        const int32_t Q_size_m;
+                        const int32_t Q_size_g;
+                        const int32_t Q_size_h;
+                        const int32_t Q_size_k;
+                        const int32_t K_size_m;
+                        const bool multiquery;
+                        const float qk_scale;
+
+                        const dim3 grid_dim;
+                        const dim3 block_dim;
+                        const size_t lds_bytes;
+
+                        Argument(const scalar_t* __restrict__ XQ,
+                                 const scalar_t* __restrict__ cache_K,
+                                 const scalar_t* __restrict__ cache_V,
+                                 scalar_t* __restrict__ O,
+                                 const int32_t* __restrict__ seq_kv_lens,
+                                 const ptrdiff_t XQ_stride_b,
+                                 const ptrdiff_t XQ_stride_m,
+                                 const ptrdiff_t XQ_stride_g,
+                                 const ptrdiff_t XQ_stride_h,
+                                 const ptrdiff_t K_stride_b,
+                                 const ptrdiff_t K_stride_m,
+                                 const ptrdiff_t K_stride_g,
+                                 const ptrdiff_t K_stride_h,
+                                 const int32_t Q_size_m,
+                                 const int32_t Q_size_g,
+                                 const int32_t Q_size_h,
+                                 const int32_t Q_size_k,
+                                 const int32_t K_size_m,
+                                 const bool multiquery,
+                                 const float qk_scale,
+                                 const dim3 grid_dim,
+                                 const dim3 block_dim,
+                                 const size_t lds_bytes)
+                            : XQ(XQ),
+                              cache_K(cache_K),
+                              cache_V(cache_V),
+                              O(O),
+                              seq_kv_lens(seq_kv_lens),
+                              XQ_stride_b(XQ_stride_b),
+                              XQ_stride_m(XQ_stride_m),
+                              XQ_stride_g(XQ_stride_g),
+                              XQ_stride_h(XQ_stride_h),
+                              K_stride_b(K_stride_b),
+                              K_stride_m(K_stride_m),
+                              K_stride_g(K_stride_g),
+                              K_stride_h(K_stride_h),
+                              Q_size_m(Q_size_m),
+                              Q_size_g(Q_size_g),
+                              Q_size_h(Q_size_h),
+                              Q_size_k(Q_size_k),
+                              K_size_m(K_size_m),
+                              multiquery(multiquery),
+                              qk_scale(qk_scale),
+                              grid_dim(grid_dim),
+                              block_dim(block_dim),
+                              lds_bytes(lds_bytes)
+                        {
+                        }
+                    };
 
-                struct Invoker : public BaseInvoker
-                {
-                    using Argument = DeviceOp::Argument;
-                    float Run(const Argument& arg,
-                              const StreamConfig& stream_config = StreamConfig{})
+                    struct Invoker : public BaseInvoker
                     {
-                        auto threads_per_wavefront = arg.block_dim.x;
+                        using Argument = DeviceOp::Argument;
+                        float Run(const Argument& arg,
+                                  const StreamConfig& stream_config = StreamConfig{})
+                        {
+                            auto threads_per_wavefront = arg.block_dim.x;
 
-                        auto Q_size_k_alignment_necessary = 0;
+                            auto Q_size_k_alignment_necessary = 0;
 
-                        for(auto vec_size : {4, 2, 1})
-                        {
-                            if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                            for(auto vec_size : {4, 2, 1})
+                            {
+                                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                                {
+                                    Q_size_k_alignment_necessary = vec_size;
+                                }
+                            };
+
+                            if(!Q_size_k_alignment_necessary)
                             {
-                                Q_size_k_alignment_necessary = vec_size;
+                                throw std::runtime_error("Unsupported Q_size_k");
                             }
-                        };
 
-                        if(!Q_size_k_alignment_necessary)
-                        {
-                            throw std::runtime_error("Unsupported Q_size_k");
-                        }
+                            if(arg.Q_size_k % Q_size_k_alignment_necessary)
+                            {
+                                throw std::runtime_error("Unsupported alignment for Q_size_k");
+                            }
 
-                        if(arg.Q_size_k % Q_size_k_alignment_necessary)
-                        {
-                            throw std::runtime_error("Unsupported alignment for Q_size_k");
+                            return launch_and_time_kernel(
+                                stream_config,
+                                Q_size_k_alignment_necessary == 4
+                                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+                                : Q_size_k_alignment_necessary == 2
+                                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                                : Q_size_k_alignment_necessary == 1
+                                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+                                    : nullptr,
+                                arg.grid_dim,
+                                arg.block_dim,
+                                arg.lds_bytes,
+                                arg.XQ,
+                                arg.cache_K,
+                                arg.cache_V,
+                                arg.O,
+                                arg.seq_kv_lens,
+                                arg.XQ_stride_b,
+                                arg.XQ_stride_m,
+                                arg.XQ_stride_g,
+                                arg.XQ_stride_h,
+                                arg.K_stride_b,
+                                arg.K_stride_m,
+                                arg.K_stride_g,
+                                arg.K_stride_h,
+                                arg.Q_size_m,
+                                arg.Q_size_g,
+                                arg.Q_size_h,
+                                arg.Q_size_k,
+                                arg.K_size_m,
+                                arg.multiquery,
+                                arg.qk_scale);
                         }
-
-                        return launch_and_time_kernel(
-                            stream_config,
-                            Q_size_k_alignment_necessary == 4
-                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-                            : Q_size_k_alignment_necessary == 2
-                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                            : Q_size_k_alignment_necessary == 1
-                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-                                : nullptr,
-                            arg.grid_dim,
-                            arg.block_dim,
-                            arg.lds_bytes,
-                            arg.XQ,
-                            arg.cache_K,
-                            arg.cache_V,
-                            arg.O,
-                            arg.seq_kv_lens,
-                            arg.XQ_stride_b,
-                            arg.XQ_stride_m,
-                            arg.XQ_stride_g,
-                            arg.XQ_stride_h,
-                            arg.K_stride_b,
-                            arg.K_stride_m,
-                            arg.K_stride_g,
-                            arg.K_stride_h,
-                            arg.Q_size_m,
-                            arg.Q_size_g,
-                            arg.Q_size_h,
-                            arg.Q_size_k,
-                            arg.K_size_m,
-                            arg.multiquery,
-                            arg.qk_scale);
-                    }
+                    };
                 };
-            };
-            } // namespace device
-            } // namespace tensor_operation
-            } // namespace ck
+                } // namespace device
+                } // namespace tensor_operation
+                } // namespace ck

From f306a0a18b6a6e0d754688974208a5740f593547 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sun, 26 Nov 2023 01:49:44 -0500
Subject: [PATCH 262/837] fix comments

---
 .../hip_fmha/attention_forward_decoder.cpp    |  38 +-
 .../hip_fmha/ck_attention_forward_decoder.h   | 609 ++++++++++--------
 2 files changed, 361 insertions(+), 286 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index b696831e43..7a780f1bad 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -15,8 +15,8 @@
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
 constexpr int32_t kWavefrontsPerBlock  = 16;
-constexpr int32_t D_H                  = 4 * kThreadsPerWavefront;
-} // namespace
+constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
+}
 
 namespace {
 
@@ -54,17 +54,17 @@ namespace {
 
 template <int32_t ThreadsPerWavefront,
           int32_t WavefrontsPerBlock,
-          int32_t T_MAX = 8192,
-          int32_t D_H   = 256>
+          int32_t KV_M_MAX = 8192,
+          int32_t K_MAX    = 256>
 at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, T_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, T_MAX, G, H or 1, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     at::Tensor& O)
 {
-    static_assert(4 * ThreadsPerWavefront == D_H, "");
+    static_assert(4 * ThreadsPerWavefront == K_MAX, "");
     static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
 
     at::OptionalDeviceGuard guard(XQ.device());
@@ -74,8 +74,8 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
 
     TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
 
-    TORCH_CHECK(cache_K.size(1) <= T_MAX);
-    TORCH_CHECK(cache_K.size(4) <= D_H);
+    TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+    TORCH_CHECK(cache_K.size(4) <= K_MAX);
 
     constexpr auto rank = 5;
 
@@ -91,8 +91,8 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     dim3 blocks(B * H * M * G);
     dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
-    int32_t smem_softmax = T_MAX * sizeof(float) + threads.y * sizeof(float);
-    int32_t smem_output  = D_H * sizeof(float) *
+    int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+    int32_t smem_output  = K_MAX * sizeof(float) *
                           threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
     const size_t lds_bytes = max(smem_softmax, smem_output);
     auto stream            = at::cuda::getCurrentHIPStream().stream();
@@ -152,12 +152,12 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
 #undef AT_DISPATCH_SWITCH_3
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor
-efficient_attention_forward_decoder_ck_impl(const at::Tensor& XQ,      // [B, 1, G, H, D]
-                                            const at::Tensor& cache_K, // [B, T_MAX, G, H or 1, D]
-                                            const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-                                            at::optional<at::Tensor> seq_kv_lens, // [B]
-                                            double qk_scale)
+at::Tensor efficient_attention_forward_decoder_ck_impl(
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale)
 {
     auto O = at::empty_like(XQ);
     efficient_attention_forward_decoder_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
@@ -167,8 +167,8 @@ efficient_attention_forward_decoder_ck_impl(const at::Tensor& XQ,      // [B, 1,
 
 at::Tensor
 efficient_attention_forward_decoder_ck(const at::Tensor& XQ,      // [B, 1, G, H, D]
-                                       const at::Tensor& cache_K, // [B, T_MAX, G, H or 1, D]
-                                       const at::Tensor& cache_V, // [B, T_MAX, G, H or 1, D]
+                                       const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+                                       const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
                                        at::optional<at::Tensor> seq_kv_lens, // [B]
                                        double qk_scale)
 {
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 8270edc446..ae13c44af9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -106,7 +106,7 @@ template <typename scalar_t,
           int32_t vec_size               = 4,
           int32_t n_loop_unroll          = 16,
           int32_t n_loop_unroll_tail     = 2,
-          int32_t T_MAX                  = 8192,
+          int32_t KV_M_MAX               = 8192,
           int32_t n_wavefronts_per_block = 16>
 __global__ void
 efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
@@ -158,9 +158,6 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
     const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
     const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
 
-    // Load Q into registers in all wavefronts.
-    // Each thread handles `vec_size` D dimensions
-
     using data_t        = scalar_t;
     using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
     using compute_t     = float;
@@ -171,16 +168,24 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
     extern __shared__ __align__(16) compute_t smem[];
 
     data_vec_t q_thread = 0;
+    // Load Q into registers in all wavefronts.
+    // Each thread handles `vec_size` D dimensions
     if(lane_active_for_io)
     {
         load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
     }
-    // Each block computes different B value
+
     compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
-    // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-    // Split T across wavefronts in a block, unroll loads to expose more
-    // parallelism.
+    // Compute S[0:t_max] =
+    // ```
+    // for t in range(t_max):
+    //   S[t] = dot(Q, K[t])
+    // ```
+    // Split the 0:t_max range across wavefronts in a block,
+    // unroll loads to expose more parallelism.
+    // Reduce the dot product with cross-lane operation;
+    // Q and K[t] are in the registers of threads in a single wavefront.
 
     data_vec_t k_loads[n_loop_unroll] = {};
 
@@ -206,288 +211,358 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
         // Split T across wavefronts in a block, unroll loads to expose more
         // parallelism.
 
-        // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-            tt += wavefronts_per_block * n_loop_unroll_tail)
+        data_vec_t k_loads[n_loop_unroll] = {};
+
+        constexpr auto dtt         = n_wavefronts_per_block * n_loop_unroll;
+        const int32_t t_max_unroll = (t_max / dtt) * dtt;
+
+        for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
         {
             if(lane_active_for_io)
             {
-#pragma unroll n_loop_unroll_tail
-                for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+#pragma unroll n_loop_unroll
+                for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
                 {
                     const int32_t t = tt + ttt;
-                    if(t < t_max)
-                    {
-                        // load the K[b][t][g][h|0][:] row into registers
-                        load_v<data_t, data_vec_t>(
-                            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                    }
-                    // Each block computes different B value
-                    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+                    // load the K[b][t][g][h|0][:] row into registers
+                    load_v<data_t, data_vec_t>(
+                        cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                }
+            }
+            // Each block computes different B value
+            compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
-                    // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-                    // Split T across wavefronts in a block, unroll loads to expose more
-                    // parallelism.
+            // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+            // Split T across wavefronts in a block, unroll loads to expose more
+            // parallelism.
 
-                    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-                    for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-                        tt += wavefronts_per_block * n_loop_unroll_tail)
+            // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+            for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+                tt += wavefronts_per_block * n_loop_unroll_tail)
+            {
+                if(lane_active_for_io)
+                {
+#pragma unroll n_loop_unroll_tail
+                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
                     {
-                        if(lane_active_for_io)
+                        const int32_t t = tt + ttt;
+                        if(t < t_max)
                         {
-#pragma unroll n_loop_unroll_tail
-                            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                            {
-                                const int32_t t = tt + ttt;
-                                if(t < t_max)
-                                {
-                                    // load the K[b][t][h|0][:] row into registers
-                                    load_v<data_t, data_vec_t>(
-                                        cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                                }
-                                compute_t qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-                                for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-                                {
-                                    const int32_t t = tt + ttt;
-                                    // load the V[b][t][g][h|0][:] row into registers, reusing K
-                                    // register storage
-                                    load_v<data_t, data_vec_t>(
-                                        cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                                    ps[ttt] = smem[t];
-                                }
-
-#pragma unroll n_loop_unroll
-                                for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-                                {
-                                    o_acc = scalar_scale_acc<data_t, vec_size>(
-                                        o_acc, k_loads[ttt], ps[ttt]);
-                                }
-                            }
-
-                            for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
-                                tt < t_max;
-                                tt += wavefronts_per_block * n_loop_unroll_tail)
-                            {
-#pragma unroll n_loop_unroll_tail
-                                for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                                {
-                                    const int32_t t = tt + ttt;
-                                    if(t < t_max)
-                                    {
-                                        // load the V[b][t][g][h|0][:] row into registers, reusing K
-                                        // register storage
-                                        load_v<data_t, data_vec_t>(
-                                            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                                        ps[ttt] = smem[t];
-                                    }
-                                }
-
-#pragma unroll n_loop_unroll_tail
-                                for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                                {
-                                    const int32_t t = tt + ttt;
-                                    if(t < t_max)
-                                    {
-                                        o_acc = scalar_scale_acc<data_t, vec_size>(
-                                            o_acc, k_loads[ttt], ps[ttt]);
-                                    }
-                                }
-                            }
+                            // load the K[b][t][g][h|0][:] row into registers
+                            load_v<data_t, data_vec_t>(
+                                cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
                         }
-                        // now, each thread has partial sums. Write to smem and get accumulated
-                        // results back.
-                        __syncthreads();
+                        // Each block computes different B value
+                        compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
 
-                        // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) *
-                        // threadsPerBlock
-                        if(lane_active_for_io)
-                        {
-                            store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-                        }
+                        // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
+                        // Split T across wavefronts in a block, unroll loads to expose more
+                        // parallelism.
 
-                        __syncthreads();
-                        // sum up partial D rows from other wavefronts
-                        if(wavefront_idx == 0 && lane_active_for_io)
+                        // write accumulated sums to smem.
+                        if(lane_idx == 0)
                         {
-                            union
-                            {
-                                compute_vec_t vec = 0;
-                                compute_t arr[vec_size];
-                            } r;
-                            for(int32_t w = 0; w < wavefronts_per_block; ++w)
-                            {
-                                compute_vec_t partial_r;
-                                load_v<compute_t, compute_vec_t>(
-                                    smem, w * threads_per_wavefront + lane_idx, &partial_r);
-                                r.vec += partial_r;
-                            }
-                            // elementwise convert from compute_t result to data_t out to be written
-                            union
-                            {
-                                data_vec_t vec;
-                                data_t arr[vec_size];
-                            } bf_r;
-#pragma unroll
-                            for(int32_t i = 0; i < vec_size; ++i)
-                            {
-                                bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-                            }
-                            // write output row O[b][m][g][h][:]
-                            data_t* __restrict__ o_ = O + XQO_base_offset;
-                            store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+                            smem[t] = qk_acc;
                         }
                     }
+                }
+            }
+
+            // Use shared reduction to compute max and compute softmax on shared memory.
+            // write max acc
+            if(lane_idx == 0)
+            {
+                smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+            }
+            __syncthreads();
+            if(lane_idx < wavefronts_per_block)
+            {
+                max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+            }
+            // shared across all threads in block
+            max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+            // each wavefront computes partial sum of exp.
+            compute_t softmax_denominator = 0.0f;
+            for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+            {
+                softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+            }
+            softmax_denominator =
+                wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+
+            if(lane_idx == 0)
+            {
+                smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+            }
+            __syncthreads();
+
+            // now, compute sum of exp(x - max(x)) over all intermediate results.
+            softmax_denominator = 0.0;
+            if(lane_idx < wavefronts_per_block)
+            {
+                softmax_denominator = smem[KV_M_MAX + lane_idx];
+            }
+            softmax_denominator =
+                wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+
+            const compute_t softmax_scale_factor = 1. / softmax_denominator;
+            // now, compute the normalization across all threads.
+            for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+            {
+                smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+            }
+            __syncthreads();
+
+            // Split T across wavefronts in a block
+            // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+            // outputs are of size float[D]
+
+            compute_t ps[n_loop_unroll] = {};
+            compute_vec_t o_acc         = 0;
+            if(lane_active_for_io)
+            {
+                for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
+                {
+#pragma unroll n_loop_unroll
+                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+                    {
+                        const int32_t t = tt + ttt;
+                        // load the V[b][t][g][h|0][:] row into registers, reusing K
+                        // register storage
+                        load_v<data_t, data_vec_t>(
+                            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                        ps[ttt] = smem[t];
+                    }
 
-                } // namespace
+#pragma unroll n_loop_unroll
+                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+                    {
+                        o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+                    }
+                }
 
-                namespace ck {
-                namespace tensor_operation {
-                namespace device {
-                template <typename scalar_t>
-                struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
+                for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+                    tt += wavefronts_per_block * n_loop_unroll_tail)
                 {
-                    using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-                    struct Argument : public BaseArgument
+#pragma unroll n_loop_unroll_tail
+                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
                     {
-                        const scalar_t* __restrict__ XQ;
-                        const scalar_t* __restrict__ cache_K;
-                        const scalar_t* __restrict__ cache_V;
-                        scalar_t* __restrict__ O;
-                        const int32_t* __restrict__ seq_kv_lens;
-                        const ptrdiff_t XQ_stride_b;
-                        const ptrdiff_t XQ_stride_m;
-                        const ptrdiff_t XQ_stride_g;
-                        const ptrdiff_t XQ_stride_h;
-                        const ptrdiff_t K_stride_b;
-                        const ptrdiff_t K_stride_m;
-                        const ptrdiff_t K_stride_g;
-                        const ptrdiff_t K_stride_h;
-                        const int32_t Q_size_m;
-                        const int32_t Q_size_g;
-                        const int32_t Q_size_h;
-                        const int32_t Q_size_k;
-                        const int32_t K_size_m;
-                        const bool multiquery;
-                        const float qk_scale;
-
-                        const dim3 grid_dim;
-                        const dim3 block_dim;
-                        const size_t lds_bytes;
-
-                        Argument(const scalar_t* __restrict__ XQ,
-                                 const scalar_t* __restrict__ cache_K,
-                                 const scalar_t* __restrict__ cache_V,
-                                 scalar_t* __restrict__ O,
-                                 const int32_t* __restrict__ seq_kv_lens,
-                                 const ptrdiff_t XQ_stride_b,
-                                 const ptrdiff_t XQ_stride_m,
-                                 const ptrdiff_t XQ_stride_g,
-                                 const ptrdiff_t XQ_stride_h,
-                                 const ptrdiff_t K_stride_b,
-                                 const ptrdiff_t K_stride_m,
-                                 const ptrdiff_t K_stride_g,
-                                 const ptrdiff_t K_stride_h,
-                                 const int32_t Q_size_m,
-                                 const int32_t Q_size_g,
-                                 const int32_t Q_size_h,
-                                 const int32_t Q_size_k,
-                                 const int32_t K_size_m,
-                                 const bool multiquery,
-                                 const float qk_scale,
-                                 const dim3 grid_dim,
-                                 const dim3 block_dim,
-                                 const size_t lds_bytes)
-                            : XQ(XQ),
-                              cache_K(cache_K),
-                              cache_V(cache_V),
-                              O(O),
-                              seq_kv_lens(seq_kv_lens),
-                              XQ_stride_b(XQ_stride_b),
-                              XQ_stride_m(XQ_stride_m),
-                              XQ_stride_g(XQ_stride_g),
-                              XQ_stride_h(XQ_stride_h),
-                              K_stride_b(K_stride_b),
-                              K_stride_m(K_stride_m),
-                              K_stride_g(K_stride_g),
-                              K_stride_h(K_stride_h),
-                              Q_size_m(Q_size_m),
-                              Q_size_g(Q_size_g),
-                              Q_size_h(Q_size_h),
-                              Q_size_k(Q_size_k),
-                              K_size_m(K_size_m),
-                              multiquery(multiquery),
-                              qk_scale(qk_scale),
-                              grid_dim(grid_dim),
-                              block_dim(block_dim),
-                              lds_bytes(lds_bytes)
+                        const int32_t t = tt + ttt;
+                        if(t < t_max)
                         {
+                            // load the V[b][t][g][h|0][:] row into registers, reusing K
+                            // register storage
+                            load_v<data_t, data_vec_t>(
+                                cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                            ps[ttt] = smem[t];
                         }
-                    };
+                    }
 
-                    struct Invoker : public BaseInvoker
+#pragma unroll n_loop_unroll_tail
+                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
                     {
-                        using Argument = DeviceOp::Argument;
-                        float Run(const Argument& arg,
-                                  const StreamConfig& stream_config = StreamConfig{})
+                        const int32_t t = tt + ttt;
+                        if(t < t_max)
                         {
-                            auto threads_per_wavefront = arg.block_dim.x;
-
-                            auto Q_size_k_alignment_necessary = 0;
-
-                            for(auto vec_size : {4, 2, 1})
-                            {
-                                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
-                                {
-                                    Q_size_k_alignment_necessary = vec_size;
-                                }
-                            };
-
-                            if(!Q_size_k_alignment_necessary)
-                            {
-                                throw std::runtime_error("Unsupported Q_size_k");
-                            }
-
-                            if(arg.Q_size_k % Q_size_k_alignment_necessary)
-                            {
-                                throw std::runtime_error("Unsupported alignment for Q_size_k");
-                            }
-
-                            return launch_and_time_kernel(
-                                stream_config,
-                                Q_size_k_alignment_necessary == 4
-                                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-                                : Q_size_k_alignment_necessary == 2
-                                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                                : Q_size_k_alignment_necessary == 1
-                                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-                                    : nullptr,
-                                arg.grid_dim,
-                                arg.block_dim,
-                                arg.lds_bytes,
-                                arg.XQ,
-                                arg.cache_K,
-                                arg.cache_V,
-                                arg.O,
-                                arg.seq_kv_lens,
-                                arg.XQ_stride_b,
-                                arg.XQ_stride_m,
-                                arg.XQ_stride_g,
-                                arg.XQ_stride_h,
-                                arg.K_stride_b,
-                                arg.K_stride_m,
-                                arg.K_stride_g,
-                                arg.K_stride_h,
-                                arg.Q_size_m,
-                                arg.Q_size_g,
-                                arg.Q_size_h,
-                                arg.Q_size_k,
-                                arg.K_size_m,
-                                arg.multiquery,
-                                arg.qk_scale);
+                            o_acc =
+                                scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
                         }
-                    };
+                    }
+                }
+            }
+            // now, each thread has partial sums. Write to smem and get accumulated
+            // results back.
+            __syncthreads();
+
+            // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) *
+            // threadsPerBlock
+            if(lane_active_for_io)
+            {
+                store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+            }
+
+            __syncthreads();
+            // sum up partial D rows from other wavefronts
+            if(wavefront_idx == 0 && lane_active_for_io)
+            {
+                union
+                {
+                    compute_vec_t vec = 0;
+                    compute_t arr[vec_size];
+                } r;
+                for(int32_t w = 0; w < wavefronts_per_block; ++w)
+                {
+                    compute_vec_t partial_r;
+                    load_v<compute_t, compute_vec_t>(
+                        smem, w * threads_per_wavefront + lane_idx, &partial_r);
+                    r.vec += partial_r;
+                }
+                // elementwise convert from compute_t result to data_t out to be written
+                union
+                {
+                    data_vec_t vec;
+                    data_t arr[vec_size];
+                } bf_r;
+#pragma unroll
+                for(int32_t i = 0; i < vec_size; ++i)
+                {
+                    bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+                }
+                // write output row O[b][m][g][h][:]
+                data_t* __restrict__ o_ = O + XQO_base_offset;
+                store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+            }
+        }
+
+    } // namespace
+
+    namespace ck {
+    namespace tensor_operation {
+    namespace device {
+    template <typename scalar_t>
+    struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
+    {
+        using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+        struct Argument : public BaseArgument
+        {
+            const scalar_t* __restrict__ XQ;
+            const scalar_t* __restrict__ cache_K;
+            const scalar_t* __restrict__ cache_V;
+            scalar_t* __restrict__ O;
+            const int32_t* __restrict__ seq_kv_lens;
+            const ptrdiff_t XQ_stride_b;
+            const ptrdiff_t XQ_stride_m;
+            const ptrdiff_t XQ_stride_g;
+            const ptrdiff_t XQ_stride_h;
+            const ptrdiff_t K_stride_b;
+            const ptrdiff_t K_stride_m;
+            const ptrdiff_t K_stride_g;
+            const ptrdiff_t K_stride_h;
+            const int32_t Q_size_m;
+            const int32_t Q_size_g;
+            const int32_t Q_size_h;
+            const int32_t Q_size_k;
+            const int32_t K_size_m;
+            const bool multiquery;
+            const float qk_scale;
+
+            const dim3 grid_dim;
+            const dim3 block_dim;
+            const size_t lds_bytes;
+
+            Argument(const scalar_t* __restrict__ XQ,
+                     const scalar_t* __restrict__ cache_K,
+                     const scalar_t* __restrict__ cache_V,
+                     scalar_t* __restrict__ O,
+                     const int32_t* __restrict__ seq_kv_lens,
+                     const ptrdiff_t XQ_stride_b,
+                     const ptrdiff_t XQ_stride_m,
+                     const ptrdiff_t XQ_stride_g,
+                     const ptrdiff_t XQ_stride_h,
+                     const ptrdiff_t K_stride_b,
+                     const ptrdiff_t K_stride_m,
+                     const ptrdiff_t K_stride_g,
+                     const ptrdiff_t K_stride_h,
+                     const int32_t Q_size_m,
+                     const int32_t Q_size_g,
+                     const int32_t Q_size_h,
+                     const int32_t Q_size_k,
+                     const int32_t K_size_m,
+                     const bool multiquery,
+                     const float qk_scale,
+                     const dim3 grid_dim,
+                     const dim3 block_dim,
+                     const size_t lds_bytes)
+                : XQ(XQ),
+                  cache_K(cache_K),
+                  cache_V(cache_V),
+                  O(O),
+                  seq_kv_lens(seq_kv_lens),
+                  XQ_stride_b(XQ_stride_b),
+                  XQ_stride_m(XQ_stride_m),
+                  XQ_stride_g(XQ_stride_g),
+                  XQ_stride_h(XQ_stride_h),
+                  K_stride_b(K_stride_b),
+                  K_stride_m(K_stride_m),
+                  K_stride_g(K_stride_g),
+                  K_stride_h(K_stride_h),
+                  Q_size_m(Q_size_m),
+                  Q_size_g(Q_size_g),
+                  Q_size_h(Q_size_h),
+                  Q_size_k(Q_size_k),
+                  K_size_m(K_size_m),
+                  multiquery(multiquery),
+                  qk_scale(qk_scale),
+                  grid_dim(grid_dim),
+                  block_dim(block_dim),
+                  lds_bytes(lds_bytes)
+            {
+            }
+        };
+
+        struct Invoker : public BaseInvoker
+        {
+            using Argument = DeviceOp::Argument;
+            float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
+            {
+                auto threads_per_wavefront = arg.block_dim.x;
+
+                auto Q_size_k_alignment_necessary = 0;
+
+                for(auto vec_size : {4, 2, 1})
+                {
+                    if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                    {
+                        Q_size_k_alignment_necessary = vec_size;
+                    }
                 };
-                } // namespace device
-                } // namespace tensor_operation
-                } // namespace ck
+
+                if(!Q_size_k_alignment_necessary)
+                {
+                    throw std::runtime_error("Unsupported Q_size_k");
+                }
+
+                if(arg.Q_size_k % Q_size_k_alignment_necessary)
+                {
+                    throw std::runtime_error("Unsupported alignment for Q_size_k");
+                }
+
+                return launch_and_time_kernel(
+                    stream_config,
+                    Q_size_k_alignment_necessary == 4
+                        ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+                    : Q_size_k_alignment_necessary == 2
+                        ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                    : Q_size_k_alignment_necessary == 1
+                        ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+                        : nullptr,
+                    arg.grid_dim,
+                    arg.block_dim,
+                    arg.lds_bytes,
+                    arg.XQ,
+                    arg.cache_K,
+                    arg.cache_V,
+                    arg.O,
+                    arg.seq_kv_lens,
+                    arg.XQ_stride_b,
+                    arg.XQ_stride_m,
+                    arg.XQ_stride_g,
+                    arg.XQ_stride_h,
+                    arg.K_stride_b,
+                    arg.K_stride_m,
+                    arg.K_stride_g,
+                    arg.K_stride_h,
+                    arg.Q_size_m,
+                    arg.Q_size_g,
+                    arg.Q_size_h,
+                    arg.Q_size_k,
+                    arg.K_size_m,
+                    arg.multiquery,
+                    arg.qk_scale);
+            }
+        };
+    };
+    } // namespace device
+    } // namespace tensor_operation
+    } // namespace ck

From f7bdc9982996204999b61ad0552c18bf8c8e9cde Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 27 Nov 2023 13:15:46 -0500
Subject: [PATCH 263/837] reflect bmghk in tests

---
 tests/test_mem_eff_attention_ck.py | 75 +++++++++++++++++++++++++-----
 xformers/ops/fmha/ck_decoder.py    |  4 --
 2 files changed, 63 insertions(+), 16 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 9d6ec70fba..1b4286c014 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -209,6 +209,26 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
 
 
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+    if q.ndim == 5:
+        def attn_bias_group(group: int):
+            if isinstance(attn_bias, torch.Tensor):
+                return attn_bias[:, group]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    attn_bias._bias[:, group]
+                )
+            return attn_bias
+
+        return torch.stack(
+            [
+                ref_attention_bmhk(
+                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), dtype=dtype
+                )
+                for g in range(q.shape[2])
+            ],
+            dim=2,
+        )
+     
     if q.ndim == 4:
         assert p == 0.0
         return ref_attention_bmhk(q, k, v, attn_bias=attn_bias, dtype=dtype)
@@ -1620,30 +1640,61 @@ def test_attn_bias_padded() -> None:
     )
 
 
+def _kv_heads_label(kv_heads: Optional[int]) -> str:
+    if kv_heads is None:
+        return ""
+    if kv_heads == 1:
+        return "mq"
+    return f"gqa{kv_heads}"
+
+
 @pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
-@pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "nomq")
-@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)], ids=lambda x: f"bsz-nh={x}")
-@pytest.mark.parametrize("padding", [32, 4096], ids=lambda x: f"pad={x}")
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
+@pytest.mark.parametrize("padding", [32, 4096])
 @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
 def test_decoder(
-    op, multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str
+    op,
+    n_heads: int,
+    kv_heads: Optional[int],
+    padding: int,
+    bsz: int,
+    dtype: str,
+    dequant: bool = False,
+    num_queries: int = 1,
+    d = 256,
 ) -> None:
+    # kv_heads = 1: multiquery
+    # kv_heads = None: neither MQA nor GQA
+    # kv_heads > 1: BMGHK
     dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
+    tensor_options = {"dtype": dtype_, "device": "cuda"}
     torch.manual_seed(1)
-    d = 256
     num_queries = 1
-    k_shape = (1, bsz * padding, n_heads, d)
-    k = torch.randn(k_shape, dtype=dtype_).cuda()
+    if kv_heads is not None and kv_heads > 1:
+        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
+        q_shape: Tuple[int, ...] = (
+            1,
+            bsz * num_queries,
+            kv_heads,
+            n_heads,
+            d,
+        )
+    else:
+        k_shape = (1, bsz * padding, n_heads, d)
+        q_shape = (1, bsz * num_queries, n_heads, d)
+
+    k = torch.randn(k_shape, **tensor_options)
     k_seqlen = torch.randint(num_queries, padding + 1, (bsz,)).tolist()
-    v = torch.randn(k_shape, dtype=dtype_).cuda()
-    q = torch.randn((1, bsz * num_queries, n_heads, d), dtype=dtype_).cuda()
+    v = torch.randn_like(k)
+    q = torch.randn(q_shape, **tensor_options)
     causal_diagonal = torch.tensor(  # TODO: make unnecessary
         [i - 1 for i in k_seqlen], dtype=torch.int32
     ).cuda()
 
-    if multiquery:
-        k = k[:, :, :1].expand(k_shape)
-        v = v[:, :, :1].expand(k_shape)
+    if kv_heads is not None:
+        k = k[..., :1, :].expand(k_shape)
+        v = v[..., :1, :].expand(k_shape)
 
     attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
         q_seqlen=[num_queries] * bsz,
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 2fee16a003..ff4a0fd602 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -27,10 +27,6 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
 
         attn_bias = d.attn_bias
         if isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
-            # If we don't get here, we've an error elsewhere
-            if d.query.ndim != 4 or d.key.ndim != 4:
-                reasons.append("Inputs must be BMHK. BMK not supported")
-
             if d.query.shape[0] != 1:
                 reasons.append(f"One formal batch element expected; got {d.query.shape[0]}")
 

From f0f17f5b5c9721751d1857d3f1ed19c4026a0a83 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 6 Dec 2023 13:46:05 -0500
Subject: [PATCH 264/837] fix rebase conflicts and clang-format

---
 .../hip_fmha/attention_forward_decoder.cpp    | 115 ++--
 .../hip_fmha/ck_attention_forward_decoder.h   | 620 +++++++++---------
 2 files changed, 371 insertions(+), 364 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 7a780f1bad..76fd3228c7 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -4,6 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
+
 #include <ATen/Dispatch.h>
 #include <ATen/Functions.h>
 #include <ATen/Tensor.h>
@@ -16,7 +17,7 @@ namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
 constexpr int32_t kWavefrontsPerBlock  = 16;
 constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
-}
+} // namespace
 
 namespace {
 
@@ -247,68 +248,78 @@ int main(int argc, char** argv)
     {
         do_correctness_check();
     }
-    const int32_t n_keys                 = std::stoi(args[0]);
-    const int32_t padding                = std::stoi(args[1]);
-    const int32_t batch_size             = std::stoi(args[2]);
-    const int32_t n_heads                = std::stoi(args[3]);
-    const int32_t n_groups               = 1;
-    const int32_t multiquery             = (args[4] == "mq");
-    const auto dtype                     = (args[5] == "f32")   ? torch::kFloat32
-                                           : (args[5] == "f16") ? torch::kFloat16
-                                                                : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q           = at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K           = multiquery
-                                 ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+    else
+    {
+        const auto args = std::vector<std::string>(argv + 1, argv + argc);
+        if(args.size() != 7)
+        {
+            std::cout << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+                         "n_wavefronts_per_block"
+                      << std::endl;
+            return 0;
+        }
+        const int32_t n_keys                 = std::stoi(args[0]);
+        const int32_t padding                = std::stoi(args[1]);
+        const int32_t batch_size             = std::stoi(args[2]);
+        const int32_t n_heads                = std::stoi(args[3]);
+        const int32_t n_groups               = 1;
+        const int32_t multiquery             = (args[4] == "mq");
+        const auto dtype                     = (args[5] == "f32")   ? torch::kFloat32
+                                               : (args[5] == "f16") ? torch::kFloat16
+                                                                    : torch::kBFloat16;
+        const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+        const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+        const auto options = torch::TensorOptions()
+                                 .dtype(dtype)
+                                 .layout(torch::kStrided)
+                                 .device(torch::kCUDA, 1)
+                                 .requires_grad(false);
+
+        const auto int_options = options.dtype(torch::kInt);
+        const auto Q = at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+        const auto K =
+            multiquery ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
                              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-                                 : at::rand({batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V           = at::rand_like(K);
-    auto O                 = at::empty_like(Q);
+                       : at::rand({batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+        const auto V = at::rand_like(K);
+        auto O       = at::empty_like(Q);
 
-    const auto seq        = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr =
-        decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront,
-                                                                  kWavefrontsPerBlock>){};
+        const auto seq        = at::randint(1, n_keys, {batch_size}, int_options);
+        const double qk_scale = 1. / sqrt(dim_per_head);
+        auto call_ptr =
+            decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront,
+                                                                      kWavefrontsPerBlock>){};
 
 #define SWITCH_CASE_SET_CALLPTR(n)                                                              \
     case(n):                                                                                    \
         call_ptr = &efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, (n)>; \
         break;
 
-    switch(n_wavefronts_per_block)
-    {
-        SWITCH_CASE_SET_CALLPTR(1);
-        SWITCH_CASE_SET_CALLPTR(2);
-        SWITCH_CASE_SET_CALLPTR(4);
-        SWITCH_CASE_SET_CALLPTR(8);
-        SWITCH_CASE_SET_CALLPTR(16);
+        switch(n_wavefronts_per_block)
+        {
+            SWITCH_CASE_SET_CALLPTR(1);
+            SWITCH_CASE_SET_CALLPTR(2);
+            SWITCH_CASE_SET_CALLPTR(4);
+            SWITCH_CASE_SET_CALLPTR(8);
+            SWITCH_CASE_SET_CALLPTR(16);
 
-    default: call_ptr = nullptr; break;
-    }
+        default: call_ptr = nullptr; break;
+        }
 #undef SWITCH_CASE_SET_CALLPTR
 
-    if(call_ptr)
-    {
-        call_ptr(Q, K, V, seq, qk_scale, O);
-    }
-    else
-    {
-        std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                  << n_wavefronts_per_block << std::endl;
+        if(call_ptr)
+        {
+            call_ptr(Q, K, V, seq, qk_scale, O);
+        }
+        else
+        {
+            std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                      << n_wavefronts_per_block << std::endl;
+        }
     }
-}
-return 0;
+    return 0;
 }
 
-#endif // MAIN
+#endif // MAIN
\ No newline at end of file
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index ae13c44af9..381bb4ed81 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -204,365 +204,361 @@ efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
                 load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
             }
         }
-        // Each block computes different B value
-        compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-        // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-        // Split T across wavefronts in a block, unroll loads to expose more
-        // parallelism.
-
-        data_vec_t k_loads[n_loop_unroll] = {};
+        compute_t qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+        for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+        {
+            ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+                q_thread, k_loads[ttt], qk_accs[ttt]);
+            qk_accs[ttt] *= qk_scale;
 
-        constexpr auto dtt         = n_wavefronts_per_block * n_loop_unroll;
-        const int32_t t_max_unroll = (t_max / dtt) * dtt;
+            qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
+            max_qk_acc   = ck::math::max(qk_accs[ttt], max_qk_acc);
+        }
+        if(lane_idx == 0)
+        {
+            auto* __restrict__ smem_base = smem + tt;
+#pragma unroll n_loop_unroll
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                smem_base[ttt] = qk_accs[ttt];
+            }
+        }
+    }
 
-        for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
+    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+    for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+        tt += wavefronts_per_block * n_loop_unroll_tail)
+    {
+        if(lane_active_for_io)
         {
-            if(lane_active_for_io)
+#pragma unroll n_loop_unroll_tail
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
             {
-#pragma unroll n_loop_unroll
-                for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+                const int32_t t = tt + ttt;
+                if(t < t_max)
                 {
-                    const int32_t t = tt + ttt;
                     // load the K[b][t][g][h|0][:] row into registers
                     load_v<data_t, data_vec_t>(
                         cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
                 }
             }
-            // Each block computes different B value
-            compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+        }
+#pragma unroll n_loop_unroll_tail
+        for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+        {
+            compute_t qk_acc = 0;
+            const int32_t t  = tt + ttt;
+            if(t < t_max)
+            {
+                ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+                    q_thread, k_loads[ttt], qk_acc);
+                qk_acc *= qk_scale;
 
-            // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-            // Split T across wavefronts in a block, unroll loads to expose more
-            // parallelism.
+                qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+                max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
 
-            // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-            for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-                tt += wavefronts_per_block * n_loop_unroll_tail)
-            {
-                if(lane_active_for_io)
+                // write accumulated sums to smem.
+                if(lane_idx == 0)
                 {
-#pragma unroll n_loop_unroll_tail
-                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                    {
-                        const int32_t t = tt + ttt;
-                        if(t < t_max)
-                        {
-                            // load the K[b][t][g][h|0][:] row into registers
-                            load_v<data_t, data_vec_t>(
-                                cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                        }
-                        // Each block computes different B value
-                        compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-                        // Compute S[T_MAX] = for i in range(T): S[t] = sum(Q[d] * K[t, d])
-                        // Split T across wavefronts in a block, unroll loads to expose more
-                        // parallelism.
-
-                        // write accumulated sums to smem.
-                        if(lane_idx == 0)
-                        {
-                            smem[t] = qk_acc;
-                        }
-                    }
+                    smem[t] = qk_acc;
                 }
             }
+        }
+    }
 
-            // Use shared reduction to compute max and compute softmax on shared memory.
-            // write max acc
-            if(lane_idx == 0)
-            {
-                smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-            }
-            __syncthreads();
-            if(lane_idx < wavefronts_per_block)
-            {
-                max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-            }
-            // shared across all threads in block
-            max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-            // each wavefront computes partial sum of exp.
-            compute_t softmax_denominator = 0.0f;
-            for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
-            {
-                softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
-            }
-            softmax_denominator =
-                wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+    // Use shared reduction to compute max and compute softmax on shared memory.
+    // write max acc
+    if(lane_idx == 0)
+    {
+        smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+    }
+    __syncthreads();
+    if(lane_idx < wavefronts_per_block)
+    {
+        max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+    }
+    // shared across all threads in block
+    max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
 
-            if(lane_idx == 0)
-            {
-                smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-            }
-            __syncthreads();
+    // each wavefront computes partial sum of exp.
+    compute_t softmax_denominator = 0.0f;
+    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    {
+        softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+    }
+    softmax_denominator =
+        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
 
-            // now, compute sum of exp(x - max(x)) over all intermediate results.
-            softmax_denominator = 0.0;
-            if(lane_idx < wavefronts_per_block)
-            {
-                softmax_denominator = smem[KV_M_MAX + lane_idx];
-            }
-            softmax_denominator =
-                wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+    if(lane_idx == 0)
+    {
+        smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+    }
+    __syncthreads();
 
-            const compute_t softmax_scale_factor = 1. / softmax_denominator;
-            // now, compute the normalization across all threads.
-            for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
-            {
-                smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
-            }
-            __syncthreads();
+    // now, compute sum of exp(x - max(x)) over all intermediate results.
+    softmax_denominator = 0.0;
+    if(lane_idx < wavefronts_per_block)
+    {
+        softmax_denominator = smem[KV_M_MAX + lane_idx];
+    }
+    softmax_denominator =
+        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
 
-            // Split T across wavefronts in a block
-            // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-            // outputs are of size float[D]
+    const compute_t softmax_scale_factor = 1. / softmax_denominator;
+    // now, compute the normalization across all threads.
+    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    {
+        smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+    }
+    __syncthreads();
 
-            compute_t ps[n_loop_unroll] = {};
-            compute_vec_t o_acc         = 0;
-            if(lane_active_for_io)
-            {
-                for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
-                {
-#pragma unroll n_loop_unroll
-                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-                    {
-                        const int32_t t = tt + ttt;
-                        // load the V[b][t][g][h|0][:] row into registers, reusing K
-                        // register storage
-                        load_v<data_t, data_vec_t>(
-                            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                        ps[ttt] = smem[t];
-                    }
+    // Split T across wavefronts in a block
+    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+    // outputs are of size float[D]
 
+    compute_t ps[n_loop_unroll] = {};
+    compute_vec_t o_acc         = 0;
+    if(lane_active_for_io)
+    {
+        for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
+        {
 #pragma unroll n_loop_unroll
-                    for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-                    {
-                        o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-                    }
-                }
-
-                for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-                    tt += wavefronts_per_block * n_loop_unroll_tail)
-                {
-#pragma unroll n_loop_unroll_tail
-                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                    {
-                        const int32_t t = tt + ttt;
-                        if(t < t_max)
-                        {
-                            // load the V[b][t][g][h|0][:] row into registers, reusing K
-                            // register storage
-                            load_v<data_t, data_vec_t>(
-                                cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                            ps[ttt] = smem[t];
-                        }
-                    }
-
-#pragma unroll n_loop_unroll_tail
-                    for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-                    {
-                        const int32_t t = tt + ttt;
-                        if(t < t_max)
-                        {
-                            o_acc =
-                                scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-                        }
-                    }
-                }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                // load the V[b][t][g][h|0][:] row into registers, reusing K register
+                // storage
+                load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                ps[ttt] = smem[t];
             }
-            // now, each thread has partial sums. Write to smem and get accumulated
-            // results back.
-            __syncthreads();
 
-            // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) *
-            // threadsPerBlock
-            if(lane_active_for_io)
+#pragma unroll n_loop_unroll
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
             {
-                store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+                o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
             }
+        }
 
-            __syncthreads();
-            // sum up partial D rows from other wavefronts
-            if(wavefront_idx == 0 && lane_active_for_io)
+        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+            tt += wavefronts_per_block * n_loop_unroll_tail)
+        {
+#pragma unroll n_loop_unroll_tail
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
             {
-                union
-                {
-                    compute_vec_t vec = 0;
-                    compute_t arr[vec_size];
-                } r;
-                for(int32_t w = 0; w < wavefronts_per_block; ++w)
+                const int32_t t = tt + ttt;
+                if(t < t_max)
                 {
-                    compute_vec_t partial_r;
-                    load_v<compute_t, compute_vec_t>(
-                        smem, w * threads_per_wavefront + lane_idx, &partial_r);
-                    r.vec += partial_r;
+                    // load the V[b][t][g][h|0][:] row into registers, reusing K register
+                    // storage
+                    load_v<data_t, data_vec_t>(
+                        cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                    ps[ttt] = smem[t];
                 }
-                // elementwise convert from compute_t result to data_t out to be written
-                union
-                {
-                    data_vec_t vec;
-                    data_t arr[vec_size];
-                } bf_r;
-#pragma unroll
-                for(int32_t i = 0; i < vec_size; ++i)
+            }
+
+#pragma unroll n_loop_unroll_tail
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
                 {
-                    bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+                    o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
                 }
-                // write output row O[b][m][g][h][:]
-                data_t* __restrict__ o_ = O + XQO_base_offset;
-                store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
             }
         }
+    }
+    // now, each thread has partial sums. Write to smem and get accumulated
+    // results back.
+    __syncthreads();
 
-    } // namespace
+    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+    if(lane_active_for_io)
+    {
+        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+    }
 
-    namespace ck {
-    namespace tensor_operation {
-    namespace device {
-    template <typename scalar_t>
-    struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
+    __syncthreads();
+    // sum up partial D rows from other wavefronts
+    if(wavefront_idx == 0 && lane_active_for_io)
     {
-        using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-        struct Argument : public BaseArgument
+        union
         {
-            const scalar_t* __restrict__ XQ;
-            const scalar_t* __restrict__ cache_K;
-            const scalar_t* __restrict__ cache_V;
-            scalar_t* __restrict__ O;
-            const int32_t* __restrict__ seq_kv_lens;
-            const ptrdiff_t XQ_stride_b;
-            const ptrdiff_t XQ_stride_m;
-            const ptrdiff_t XQ_stride_g;
-            const ptrdiff_t XQ_stride_h;
-            const ptrdiff_t K_stride_b;
-            const ptrdiff_t K_stride_m;
-            const ptrdiff_t K_stride_g;
-            const ptrdiff_t K_stride_h;
-            const int32_t Q_size_m;
-            const int32_t Q_size_g;
-            const int32_t Q_size_h;
-            const int32_t Q_size_k;
-            const int32_t K_size_m;
-            const bool multiquery;
-            const float qk_scale;
-
-            const dim3 grid_dim;
-            const dim3 block_dim;
-            const size_t lds_bytes;
-
-            Argument(const scalar_t* __restrict__ XQ,
-                     const scalar_t* __restrict__ cache_K,
-                     const scalar_t* __restrict__ cache_V,
-                     scalar_t* __restrict__ O,
-                     const int32_t* __restrict__ seq_kv_lens,
-                     const ptrdiff_t XQ_stride_b,
-                     const ptrdiff_t XQ_stride_m,
-                     const ptrdiff_t XQ_stride_g,
-                     const ptrdiff_t XQ_stride_h,
-                     const ptrdiff_t K_stride_b,
-                     const ptrdiff_t K_stride_m,
-                     const ptrdiff_t K_stride_g,
-                     const ptrdiff_t K_stride_h,
-                     const int32_t Q_size_m,
-                     const int32_t Q_size_g,
-                     const int32_t Q_size_h,
-                     const int32_t Q_size_k,
-                     const int32_t K_size_m,
-                     const bool multiquery,
-                     const float qk_scale,
-                     const dim3 grid_dim,
-                     const dim3 block_dim,
-                     const size_t lds_bytes)
-                : XQ(XQ),
-                  cache_K(cache_K),
-                  cache_V(cache_V),
-                  O(O),
-                  seq_kv_lens(seq_kv_lens),
-                  XQ_stride_b(XQ_stride_b),
-                  XQ_stride_m(XQ_stride_m),
-                  XQ_stride_g(XQ_stride_g),
-                  XQ_stride_h(XQ_stride_h),
-                  K_stride_b(K_stride_b),
-                  K_stride_m(K_stride_m),
-                  K_stride_g(K_stride_g),
-                  K_stride_h(K_stride_h),
-                  Q_size_m(Q_size_m),
-                  Q_size_g(Q_size_g),
-                  Q_size_h(Q_size_h),
-                  Q_size_k(Q_size_k),
-                  K_size_m(K_size_m),
-                  multiquery(multiquery),
-                  qk_scale(qk_scale),
-                  grid_dim(grid_dim),
-                  block_dim(block_dim),
-                  lds_bytes(lds_bytes)
-            {
-            }
-        };
+            compute_vec_t vec = 0;
+            compute_t arr[vec_size];
+        } r;
+        for(int32_t w = 0; w < wavefronts_per_block; ++w)
+        {
+            compute_vec_t partial_r;
+            load_v<compute_t, compute_vec_t>(
+                smem, w * threads_per_wavefront + lane_idx, &partial_r);
+            r.vec += partial_r;
+        }
+        // elementwise convert from compute_t result to data_t out to be written
+        union
+        {
+            data_vec_t vec;
+            data_t arr[vec_size];
+        } bf_r;
+#pragma unroll
+        for(int32_t i = 0; i < vec_size; ++i)
+        {
+            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+        }
+        // write output row O[b][m][g][h][:]
+        data_t* __restrict__ o_ = O + XQO_base_offset;
+        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+    }
+}
 
-        struct Invoker : public BaseInvoker
+} // namespace
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <typename scalar_t>
+struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
+{
+    using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+    struct Argument : public BaseArgument
+    {
+        const scalar_t* __restrict__ XQ;
+        const scalar_t* __restrict__ cache_K;
+        const scalar_t* __restrict__ cache_V;
+        scalar_t* __restrict__ O;
+        const int32_t* __restrict__ seq_kv_lens;
+        const ptrdiff_t XQ_stride_b;
+        const ptrdiff_t XQ_stride_m;
+        const ptrdiff_t XQ_stride_g;
+        const ptrdiff_t XQ_stride_h;
+        const ptrdiff_t K_stride_b;
+        const ptrdiff_t K_stride_m;
+        const ptrdiff_t K_stride_g;
+        const ptrdiff_t K_stride_h;
+        const int32_t Q_size_m;
+        const int32_t Q_size_g;
+        const int32_t Q_size_h;
+        const int32_t Q_size_k;
+        const int32_t K_size_m;
+        const bool multiquery;
+        const float qk_scale;
+
+        const dim3 grid_dim;
+        const dim3 block_dim;
+        const size_t lds_bytes;
+
+        Argument(const scalar_t* __restrict__ XQ,
+                 const scalar_t* __restrict__ cache_K,
+                 const scalar_t* __restrict__ cache_V,
+                 scalar_t* __restrict__ O,
+                 const int32_t* __restrict__ seq_kv_lens,
+                 const ptrdiff_t XQ_stride_b,
+                 const ptrdiff_t XQ_stride_m,
+                 const ptrdiff_t XQ_stride_g,
+                 const ptrdiff_t XQ_stride_h,
+                 const ptrdiff_t K_stride_b,
+                 const ptrdiff_t K_stride_m,
+                 const ptrdiff_t K_stride_g,
+                 const ptrdiff_t K_stride_h,
+                 const int32_t Q_size_m,
+                 const int32_t Q_size_g,
+                 const int32_t Q_size_h,
+                 const int32_t Q_size_k,
+                 const int32_t K_size_m,
+                 const bool multiquery,
+                 const float qk_scale,
+                 const dim3 grid_dim,
+                 const dim3 block_dim,
+                 const size_t lds_bytes)
+            : XQ(XQ),
+              cache_K(cache_K),
+              cache_V(cache_V),
+              O(O),
+              seq_kv_lens(seq_kv_lens),
+              XQ_stride_b(XQ_stride_b),
+              XQ_stride_m(XQ_stride_m),
+              XQ_stride_g(XQ_stride_g),
+              XQ_stride_h(XQ_stride_h),
+              K_stride_b(K_stride_b),
+              K_stride_m(K_stride_m),
+              K_stride_g(K_stride_g),
+              K_stride_h(K_stride_h),
+              Q_size_m(Q_size_m),
+              Q_size_g(Q_size_g),
+              Q_size_h(Q_size_h),
+              Q_size_k(Q_size_k),
+              K_size_m(K_size_m),
+              multiquery(multiquery),
+              qk_scale(qk_scale),
+              grid_dim(grid_dim),
+              block_dim(block_dim),
+              lds_bytes(lds_bytes)
         {
-            using Argument = DeviceOp::Argument;
-            float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
-            {
-                auto threads_per_wavefront = arg.block_dim.x;
+        }
+    };
 
-                auto Q_size_k_alignment_necessary = 0;
+    struct Invoker : public BaseInvoker
+    {
+        using Argument = DeviceOp::Argument;
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
+        {
+            auto threads_per_wavefront = arg.block_dim.x;
 
-                for(auto vec_size : {4, 2, 1})
-                {
-                    if(arg.Q_size_k <= vec_size * threads_per_wavefront)
-                    {
-                        Q_size_k_alignment_necessary = vec_size;
-                    }
-                };
+            auto Q_size_k_alignment_necessary = 0;
 
-                if(!Q_size_k_alignment_necessary)
+            for(auto vec_size : {4, 2, 1})
+            {
+                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
                 {
-                    throw std::runtime_error("Unsupported Q_size_k");
+                    Q_size_k_alignment_necessary = vec_size;
                 }
+            }
 
-                if(arg.Q_size_k % Q_size_k_alignment_necessary)
-                {
-                    throw std::runtime_error("Unsupported alignment for Q_size_k");
-                }
+            if(!Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported Q_size_k");
+            }
 
-                return launch_and_time_kernel(
-                    stream_config,
-                    Q_size_k_alignment_necessary == 4
-                        ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-                    : Q_size_k_alignment_necessary == 2
-                        ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                    : Q_size_k_alignment_necessary == 1
-                        ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-                        : nullptr,
-                    arg.grid_dim,
-                    arg.block_dim,
-                    arg.lds_bytes,
-                    arg.XQ,
-                    arg.cache_K,
-                    arg.cache_V,
-                    arg.O,
-                    arg.seq_kv_lens,
-                    arg.XQ_stride_b,
-                    arg.XQ_stride_m,
-                    arg.XQ_stride_g,
-                    arg.XQ_stride_h,
-                    arg.K_stride_b,
-                    arg.K_stride_m,
-                    arg.K_stride_g,
-                    arg.K_stride_h,
-                    arg.Q_size_m,
-                    arg.Q_size_g,
-                    arg.Q_size_h,
-                    arg.Q_size_k,
-                    arg.K_size_m,
-                    arg.multiquery,
-                    arg.qk_scale);
+            if(arg.Q_size_k % Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported alignment for Q_size_k");
             }
-        };
+
+            return launch_and_time_kernel(
+                stream_config,
+                Q_size_k_alignment_necessary == 4
+                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+                : Q_size_k_alignment_necessary == 2
+                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                : Q_size_k_alignment_necessary == 1
+                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+                    : nullptr,
+                arg.grid_dim,
+                arg.block_dim,
+                arg.lds_bytes,
+                arg.XQ,
+                arg.cache_K,
+                arg.cache_V,
+                arg.O,
+                arg.seq_kv_lens,
+                arg.XQ_stride_b,
+                arg.XQ_stride_m,
+                arg.XQ_stride_g,
+                arg.XQ_stride_h,
+                arg.K_stride_b,
+                arg.K_stride_m,
+                arg.K_stride_g,
+                arg.K_stride_h,
+                arg.Q_size_m,
+                arg.Q_size_g,
+                arg.Q_size_h,
+                arg.Q_size_k,
+                arg.K_size_m,
+                arg.multiquery,
+                arg.qk_scale);
+        }
     };
-    } // namespace device
-    } // namespace tensor_operation
-    } // namespace ck
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
\ No newline at end of file

From 59d6e4f3bcb1b8aae5ec4b702d888c24ff6a1835 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Dec 2023 20:04:30 +0000
Subject: [PATCH 265/837] Fix to use long_index_t as offset types in the kernel

---
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 50 +++++++++++--------
 1 file changed, 29 insertions(+), 21 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 29c13540aa..e0a3f14a0c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -425,11 +425,11 @@ struct FmhaFwdKernel
         const index_t i_m0 = __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
         const index_t i_n1 = __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
 
-        index_t batch_offset_q    = 0;
-        index_t batch_offset_k    = 0;
-        index_t batch_offset_v    = 0;
-        index_t batch_offset_bias = 0;
-        index_t batch_offset_o    = 0;
+        long_index_t batch_offset_q    = 0;
+        long_index_t batch_offset_k    = 0;
+        long_index_t batch_offset_v    = 0;
+        long_index_t batch_offset_bias = 0;
+        long_index_t batch_offset_o    = 0;
 
         if constexpr(kIsGroupMode)
         {
@@ -437,25 +437,26 @@ struct FmhaFwdKernel
             const index_t query_start = kargs.seqstart_q_ptr[i_batch];
             const index_t key_start   = kargs.seqstart_k_ptr[i_batch];
 
-            batch_offset_q = query_start * kargs.stride_q;
-            batch_offset_k = key_start * kargs.stride_k;
+            batch_offset_q = static_cast<long_index_t>(query_start) * kargs.stride_q;
+            batch_offset_k = static_cast<long_index_t>(key_start) * kargs.stride_k;
             if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
             {
-                batch_offset_v = key_start * kargs.stride_v;
+                batch_offset_v = static_cast<long_index_t>(key_start) * kargs.stride_v;
             }
             else
             {
-                batch_offset_v = key_start;
+                batch_offset_v = static_cast<long_index_t>(key_start);
             }
             if constexpr(kSupportsBias)
             {
-                batch_offset_bias = query_start * kargs.stride_bias + key_start;
+                batch_offset_bias =
+                    static_cast<long_index_t>(query_start) * kargs.stride_bias + key_start;
             }
             else
             {
-                batch_offset_bias = key_start;
+                batch_offset_bias = static_cast<long_index_t>(key_start);
             }
-            batch_offset_o = query_start * kargs.stride_o;
+            batch_offset_o = static_cast<long_index_t>(query_start) * kargs.stride_o;
 
             // get real # queries & # keys under group mode
             const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
@@ -476,21 +477,28 @@ struct FmhaFwdKernel
         }
         else
         {
-            batch_offset_q = i_batch * kargs.batch_stride_q;
-            batch_offset_k = i_batch * kargs.batch_stride_k;
-            batch_offset_v = i_batch * kargs.batch_stride_v;
+            batch_offset_q = static_cast<long_index_t>(i_batch) * kargs.batch_stride_q;
+            batch_offset_k = static_cast<long_index_t>(i_batch) * kargs.batch_stride_k;
+            batch_offset_v = static_cast<long_index_t>(i_batch) * kargs.batch_stride_v;
             if constexpr(kSupportsBias)
             {
-                batch_offset_bias = i_batch * kargs.batch_stride_bias;
+                batch_offset_bias = static_cast<long_index_t>(i_batch) * kargs.batch_stride_bias;
             }
-            batch_offset_o = i_batch * kargs.batch_stride_o;
+            batch_offset_o = static_cast<long_index_t>(i_batch) * kargs.batch_stride_o;
         }
 
         // for simplicity, batch stride we just modify the pointer
-        const QDataType* q_ptr = kargs.q_ptr + i_nhead * kargs.nhead_stride_q + batch_offset_q;
-        const KDataType* k_ptr = kargs.k_ptr + i_nhead * kargs.nhead_stride_k + batch_offset_k;
-        const VDataType* v_ptr = kargs.v_ptr + i_nhead * kargs.nhead_stride_v + batch_offset_v;
-        ODataType* o_ptr       = kargs.o_ptr + i_nhead * kargs.nhead_stride_o + batch_offset_o;
+        const QDataType* q_ptr = kargs.q_ptr +
+                                 static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_q +
+                                 batch_offset_q;
+        const KDataType* k_ptr = kargs.k_ptr +
+                                 static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_k +
+                                 batch_offset_k;
+        const VDataType* v_ptr = kargs.v_ptr +
+                                 static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_v +
+                                 batch_offset_v;
+        ODataType* o_ptr = kargs.o_ptr + static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
+                           batch_offset_o;
 
         // Q/K/V DRAM and DRAM window
         const auto q_dram = [&]() {

From 08e598145251eda3f17313f48d7cb010c81b0291 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 6 Dec 2023 20:09:10 +0000
Subject: [PATCH 266/837] Update the two benchmark scripts for ck-tiled to more
 be aligned with those of the non-tiled ones

---
 .../benchmarks/benchmark_mem_eff_attention_ck_tiled.py |  1 +
 .../benchmark_mem_eff_attn_decoder_ck_tiled.py         | 10 +++++++---
 2 files changed, 8 insertions(+), 3 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
index e9381e88ac..ee0c111ffb 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
@@ -159,6 +159,7 @@ def product_dict(**kwargs):
                 ##{"dropout_p": 0.3},
                 {"attn_bias_cfg": (torch.Tensor, False)},
                 ##{"attn_bias_cfg": (torch.Tensor, True)},
+                {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
                 ##{"dtype": torch.bfloat16},
                 ##{"dtype": torch.float},
             ]
diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
index 0aea1b7c40..1e8239ace7 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
@@ -119,6 +119,7 @@ def mem_eff_attention_decoder(
     torch.manual_seed(42)
     k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
     K = 128
+    ##dtype = torch.bfloat16
     dtype = torch.float16
     q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
     if multiquery:
@@ -132,9 +133,10 @@ def mem_eff_attention_decoder(
         k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
         v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
 
-    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+    bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
         q_seqlen=[1] * B,
         kv_seqlen=k_seqlen,
+        kv_padding=padding,
     )
 
     sub_label = f"{B}batch-{k_seqlen[0]}keys-{n_heads}heads"
@@ -151,6 +153,8 @@ def mem_eff_attention_decoder(
 
         fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
 
+        mem_size = get_memory_traffic(fw_op, q, k, v, bias)
+
         yield benchmark.Timer(
             stmt=f"fn(q, k, v, attn_bias)",
             globals={
@@ -162,7 +166,7 @@ def mem_eff_attention_decoder(
             },
             label="attention",
             description=fw_op.NAME,
-            sub_label=sub_label,
+            sub_label=f"{sub_label}_{mem_size//1024}k",
             num_threads=num_threads,
         )
 
@@ -176,7 +180,7 @@ def mem_eff_attention_decoder(
             },
             label="cuda graphed attention",
             description=fw_op.NAME,
-            sub_label=sub_label,
+            sub_label=f"{sub_label}_{mem_size//1024}k",
             num_threads=num_threads,
         )
 

From 3616eceb90b5f87550e32d29c3c87f28409c7803 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 6 Dec 2023 22:52:26 -0500
Subject: [PATCH 267/837] use clang-format-10

---
 .../hip_fmha/attention_forward_decoder.cpp     | 18 +++++++++---------
 .../hip_fmha/ck_attention_forward_decoder.h    | 10 +++++-----
 2 files changed, 14 insertions(+), 14 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 76fd3228c7..99de91741e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -258,15 +258,15 @@ int main(int argc, char** argv)
                       << std::endl;
             return 0;
         }
-        const int32_t n_keys                 = std::stoi(args[0]);
-        const int32_t padding                = std::stoi(args[1]);
-        const int32_t batch_size             = std::stoi(args[2]);
-        const int32_t n_heads                = std::stoi(args[3]);
-        const int32_t n_groups               = 1;
-        const int32_t multiquery             = (args[4] == "mq");
-        const auto dtype                     = (args[5] == "f32")   ? torch::kFloat32
-                                               : (args[5] == "f16") ? torch::kFloat16
-                                                                    : torch::kBFloat16;
+        const int32_t n_keys     = std::stoi(args[0]);
+        const int32_t padding    = std::stoi(args[1]);
+        const int32_t batch_size = std::stoi(args[2]);
+        const int32_t n_heads    = std::stoi(args[3]);
+        const int32_t n_groups   = 1;
+        const int32_t multiquery = (args[4] == "mq");
+        const auto dtype         = (args[5] == "f32")
+                               ? torch::kFloat32
+                               : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
         const int32_t n_wavefronts_per_block = std::stoi(args[6]);
 
         const int32_t dim_per_head = 4 * kThreadsPerWavefront;
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 381bb4ed81..08d0dbe065 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -528,11 +528,11 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
                 stream_config,
                 Q_size_k_alignment_necessary == 4
                     ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-                : Q_size_k_alignment_necessary == 2
-                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                : Q_size_k_alignment_necessary == 1
-                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-                    : nullptr,
+                    : Q_size_k_alignment_necessary == 2
+                          ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                          : Q_size_k_alignment_necessary == 1
+                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+                                : nullptr,
                 arg.grid_dim,
                 arg.block_dim,
                 arg.lds_bytes,

From 26f9b58b8bf5bad18d9fd066c8154b7a12bd1393 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 7 Dec 2023 08:41:21 +0000
Subject: [PATCH 268/837] Reduce static_cast<long_index_t> in the kernel

---
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index e0a3f14a0c..5b6f54a226 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -434,29 +434,29 @@ struct FmhaFwdKernel
         if constexpr(kIsGroupMode)
         {
             // get starting offset for each batch
-            const index_t query_start = kargs.seqstart_q_ptr[i_batch];
-            const index_t key_start   = kargs.seqstart_k_ptr[i_batch];
+            const long_index_t query_start =
+                static_cast<long_index_t>(kargs.seqstart_q_ptr[i_batch]);
+            const long_index_t key_start = static_cast<long_index_t>(kargs.seqstart_k_ptr[i_batch]);
 
-            batch_offset_q = static_cast<long_index_t>(query_start) * kargs.stride_q;
-            batch_offset_k = static_cast<long_index_t>(key_start) * kargs.stride_k;
+            batch_offset_q = query_start * kargs.stride_q;
+            batch_offset_k = key_start * kargs.stride_k;
             if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
             {
-                batch_offset_v = static_cast<long_index_t>(key_start) * kargs.stride_v;
+                batch_offset_v = key_start * kargs.stride_v;
             }
             else
             {
-                batch_offset_v = static_cast<long_index_t>(key_start);
+                batch_offset_v = key_start;
             }
             if constexpr(kSupportsBias)
             {
-                batch_offset_bias =
-                    static_cast<long_index_t>(query_start) * kargs.stride_bias + key_start;
+                batch_offset_bias = query_start * kargs.stride_bias + key_start;
             }
             else
             {
-                batch_offset_bias = static_cast<long_index_t>(key_start);
+                batch_offset_bias = key_start;
             }
-            batch_offset_o = static_cast<long_index_t>(query_start) * kargs.stride_o;
+            batch_offset_o = query_start * kargs.stride_o;
 
             // get real # queries & # keys under group mode
             const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;

From 09233e3e3aa6c1f5237157dee7b7e9de4d4c181b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 7 Dec 2023 13:20:15 +0000
Subject: [PATCH 269/837] Add nhead_ratio_qk kernel argument to support mqa/gqa

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 18 ++++----
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 43 +++++++++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 10 +++--
 3 files changed, 45 insertions(+), 26 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 336228f6fb..3003fa4043 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -171,10 +171,11 @@ struct batched_infer_masktype_attnbias_dispatched
                     param.k_ptr,
                     param.v_ptr,
                     param.out_ptr,
-                    param.M,  // seqlen_q
-                    param.N,  // seqlen_k
-                    param.K,  // hdim_q
-                    param.Kv, // hdim_v
+                    param.M,              // seqlen_q
+                    param.N,              // seqlen_k
+                    param.K,              // hdim_q
+                    param.Kv,             // hdim_v
+                    param.Hq / param.Hkv, // nhead_ratio_qk
                     param.scale,
                     param.q_strides[1], // q, k, v, out tensor seq-dim stride
                     param.k_strides[1],
@@ -197,10 +198,11 @@ struct batched_infer_masktype_attnbias_dispatched
                     param.k_ptr,
                     param.v_ptr,
                     param.out_ptr,
-                    param.M,  // seqlen_q
-                    param.N,  // seqlen_k
-                    param.K,  // hdim_q
-                    param.Kv, // hdim_v
+                    param.M,              // seqlen_q
+                    param.N,              // seqlen_k
+                    param.K,              // hdim_q
+                    param.Kv,             // hdim_v
+                    param.Hq / param.Hkv, // nhead_ratio_qk
                     param.scale,
                     param.q_strides[1], // q, k, v, out tensor seq-dim stride
                     param.k_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 5b6f54a226..534c2c5884 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -60,6 +60,7 @@ struct FmhaFwdKernel
                                        ck::index_t seqlen_k_,
                                        ck::index_t hdim_q_,
                                        ck::index_t hdim_v_,
+                                       ck::index_t nhead_ratio_qk_,
                                        float scale_,
                                        ck::index_t stride_q_,
                                        ck::index_t stride_k_,
@@ -77,6 +78,7 @@ struct FmhaFwdKernel
               seqlen_k{seqlen_k_},
               hdim_q{hdim_q_},
               hdim_v{hdim_v_},
+              nhead_ratio_qk{nhead_ratio_qk_},
               scale{scale_},
               stride_q{stride_q_},
               stride_k{stride_k_},
@@ -98,6 +100,7 @@ struct FmhaFwdKernel
         ck::index_t seqlen_k;
         ck::index_t hdim_q;
         ck::index_t hdim_v;
+        ck::index_t nhead_ratio_qk;
 
         float scale;
 
@@ -135,6 +138,7 @@ struct FmhaFwdKernel
                                           ck::index_t seqlen_k_,
                                           ck::index_t hdim_q_,
                                           ck::index_t hdim_v_,
+                                          ck::index_t nhead_ratio_qk_,
                                           float scale_,
                                           ck::index_t stride_q_,
                                           ck::index_t stride_k_,
@@ -156,6 +160,7 @@ struct FmhaFwdKernel
                           seqlen_k_,
                           hdim_q_,
                           hdim_v_,
+                          nhead_ratio_qk_,
                           scale_,
                           stride_q_,
                           stride_k_,
@@ -190,6 +195,7 @@ struct FmhaFwdKernel
                                           const void* seqlen_k_ptr_,
                                           ck::index_t hdim_q_,
                                           ck::index_t hdim_v_,
+                                          ck::index_t nhead_ratio_qk_,
                                           float scale_,
                                           ck::index_t stride_q_,
                                           ck::index_t stride_k_,
@@ -207,6 +213,7 @@ struct FmhaFwdKernel
                           -1 /* will be updated inside the kernel */,
                           hdim_q_,
                           hdim_v_,
+                          nhead_ratio_qk_,
                           scale_,
                           stride_q_,
                           stride_k_,
@@ -239,6 +246,7 @@ struct FmhaFwdKernel
                                                                       ck::index_t seqlen_k,
                                                                       ck::index_t hdim_q,
                                                                       ck::index_t hdim_v,
+                                                                      ck::index_t nhead_ratio_qk,
                                                                       float scale,
                                                                       ck::index_t stride_q,
                                                                       ck::index_t stride_k,
@@ -254,10 +262,10 @@ struct FmhaFwdKernel
                                                                       ck::index_t batch_stride_o)
     {
         return Kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
-                     seqlen_k,       hdim_q,         hdim_v,         scale,          stride_q,
-                     stride_k,       stride_v,       stride_o,       nhead_stride_q, nhead_stride_k,
-                     nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k, batch_stride_v,
-                     batch_stride_o};
+                     seqlen_k,       hdim_q,         hdim_v,         nhead_ratio_qk, scale,
+                     stride_q,       stride_k,       stride_v,       stride_o,       nhead_stride_q,
+                     nhead_stride_k, nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k,
+                     batch_stride_v, batch_stride_o};
     }
 
     template <bool Cond = !kIsGroupMode && kSupportsBias>
@@ -270,6 +278,7 @@ struct FmhaFwdKernel
               ck::index_t seqlen_k,
               ck::index_t hdim_q,
               ck::index_t hdim_v,
+              ck::index_t nhead_ratio_qk,
               float scale,
               ck::index_t stride_q,
               ck::index_t stride_k,
@@ -287,10 +296,10 @@ struct FmhaFwdKernel
                   std::nullopt)
     {
         Kargs kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
-                    seqlen_k,       hdim_q,         hdim_v,         scale,          stride_q,
-                    stride_k,       stride_v,       stride_o,       nhead_stride_q, nhead_stride_k,
-                    nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k, batch_stride_v,
-                    batch_stride_o};
+                    seqlen_k,       hdim_q,         hdim_v,         nhead_ratio_qk, scale,
+                    stride_q,       stride_k,       stride_v,       stride_o,       nhead_stride_q,
+                    nhead_stride_k, nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k,
+                    batch_stride_v, batch_stride_o};
 
         if(bias.has_value())
         {
@@ -313,6 +322,7 @@ struct FmhaFwdKernel
                                                                       const void* seqlen_k_ptr,
                                                                       ck::index_t hdim_q,
                                                                       ck::index_t hdim_v,
+                                                                      ck::index_t nhead_ratio_qk,
                                                                       float scale,
                                                                       ck::index_t stride_q,
                                                                       ck::index_t stride_k,
@@ -332,6 +342,7 @@ struct FmhaFwdKernel
                      seqlen_k_ptr,
                      hdim_q,
                      hdim_v,
+                     nhead_ratio_qk,
                      scale,
                      stride_q,
                      stride_k,
@@ -354,6 +365,7 @@ struct FmhaFwdKernel
               const void* seqlen_k_ptr,
               ck::index_t hdim_q,
               ck::index_t hdim_v,
+              ck::index_t nhead_ratio_qk,
               float scale,
               ck::index_t stride_q,
               ck::index_t stride_k,
@@ -374,6 +386,7 @@ struct FmhaFwdKernel
                     seqlen_k_ptr,
                     hdim_q,
                     hdim_v,
+                    nhead_ratio_qk,
                     scale,
                     stride_q,
                     stride_k,
@@ -491,12 +504,14 @@ struct FmhaFwdKernel
         const QDataType* q_ptr = kargs.q_ptr +
                                  static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_q +
                                  batch_offset_q;
-        const KDataType* k_ptr = kargs.k_ptr +
-                                 static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_k +
-                                 batch_offset_k;
-        const VDataType* v_ptr = kargs.v_ptr +
-                                 static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_v +
-                                 batch_offset_v;
+        const KDataType* k_ptr =
+            kargs.k_ptr +
+            static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) * kargs.nhead_stride_k +
+            batch_offset_k;
+        const VDataType* v_ptr =
+            kargs.v_ptr +
+            static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) * kargs.nhead_stride_v +
+            batch_offset_v;
         ODataType* o_ptr = kargs.o_ptr + static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
                            batch_offset_o;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 89b4348f34..abd0b9fc60 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -143,8 +143,9 @@ struct grouped_infer_masktype_attnbias_dispatched
                     param.seqstart_q_dev_ptr,
                     param.seqstart_k_dev_ptr,
                     param.seqlen_k_dev_ptr,
-                    param.K,  // hdim_q
-                    param.Kv, // hdim_v
+                    param.K,              // hdim_q
+                    param.Kv,             // hdim_v
+                    param.Hq / param.Hkv, // nhead_ratio_qk
                     param.scale,
                     param.q_strides[0], // q, k, v, out tensor seq-dim stride
                     param.k_strides[0],
@@ -166,8 +167,9 @@ struct grouped_infer_masktype_attnbias_dispatched
                     param.seqstart_q_dev_ptr,
                     param.seqstart_k_dev_ptr,
                     param.seqlen_k_dev_ptr,
-                    param.K,  // hdim_q
-                    param.Kv, // hdim_v
+                    param.K,              // hdim_q
+                    param.Kv,             // hdim_v
+                    param.Hq / param.Hkv, // nhead_ratio_qk
                     param.scale,
                     param.q_strides[0], // q, k, v, out tensor seq-dim stride
                     param.k_strides[0],

From 9030f5606e4363c823a27fdf289faa929fe78b18 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 7 Dec 2023 17:14:08 +0000
Subject: [PATCH 270/837] Update test_forward_ck_tiled.py to synchronize
 ref_attention from test_mem_eff_attention_ck.py

---
 tests/test_forward_ck_tiled.py | 25 +++++++++++++++++++++++++
 1 file changed, 25 insertions(+)

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index 3c5419525d..c8a60dee3e 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -209,6 +209,26 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
 
 
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+    if q.ndim == 5:
+        def attn_bias_group(group: int):
+            if isinstance(attn_bias, torch.Tensor):
+                return attn_bias[:, group]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    attn_bias._bias[:, group]
+                )
+            return attn_bias
+
+        return torch.stack(
+            [
+                ref_attention_bmhk(
+                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), dtype=dtype
+                )
+                for g in range(q.shape[2])
+            ],
+            dim=2,
+        )
+     
     if q.ndim == 4:
         assert p == 0.0
         return ref_attention_bmhk(q, k, v, attn_bias=attn_bias, dtype=dtype)
@@ -582,10 +602,14 @@ def test_forward(
     if not (k == kv and (kv == 64 or kv == 128)):
         pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
 
+    if kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
         )
+
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
         pytest.skip("BMK incompatible with this bias")
 
@@ -637,3 +661,4 @@ def test_forward(
         atol=op.ERROR_ATOL[dtype],
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
+

From 1f5952e5c39e7952d1c263b0277984ffcedde5ce Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 7 Dec 2023 17:25:00 -0500
Subject: [PATCH 271/837] fix ck_decoder op to run again with bmghk inputs

---
 xformers/ops/fmha/ck_decoder.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index ff4a0fd602..daa4689b81 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -19,6 +19,7 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {type(None), BlockDiagonalCausalWithOffsetPaddedKeysMask}
     SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
+    SUPPORTS_BMGHK = True
     NAME = "ck_decoderF"
 
     @classmethod

From 0cbacb2eb3db0474b897973808523276c918b994 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 8 Dec 2023 00:30:23 +0000
Subject: [PATCH 272/837] Add test_mqa_forward and some change to ref_attention

---
 tests/test_forward_ck_tiled.py | 124 +++++++++++++++++++++++++++++----
 1 file changed, 112 insertions(+), 12 deletions(-)

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index c8a60dee3e..6a7512f22b 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -207,31 +207,43 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
 )
 
-
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
-    if q.ndim == 5:
-        def attn_bias_group(group: int):
+    if q.ndim == 4:
+        B, M, Hq, K = q.shape
+        _, N, Hkv, Kv = v.shape
+        nhead_ratio_qk = Hq // Hkv
+
+        def attn_bias_head(head: int):
             if isinstance(attn_bias, torch.Tensor):
-                return attn_bias[:, group]
+                assert attn_bias.ndim == 4
+                _, H, _, _ = attn_bias.shape        
+                assert H == Hq
+                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+                return bias_bghmn[:, :, head]
             if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                assert attn_bias._bias.ndim == 4
+                _, H, _, _ = attn_bias._bias.shape        
+                assert H == Hq
+                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+
                 return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    attn_bias._bias[:, group]
+                    bias_bghmn[:, :, head]
                 )
             return attn_bias
 
+        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
+
         return torch.stack(
             [
                 ref_attention_bmhk(
-                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), dtype=dtype
+                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
                 )
-                for g in range(q.shape[2])
+                for h in range(q_bmghk.shape[3])
             ],
-            dim=2,
-        )
+            dim=3,
+        ).reshape((B, M, Hq, Kv))
      
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias, dtype=dtype)
+    assert q.ndim == 3
     if dtype is None:
         dtype = torch.float32
     q = q.to(dtype=dtype)
@@ -662,3 +674,91 @@ def test_forward(
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
+@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
+@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
+@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
+@pytest.mark.parametrize("batches", [100, 64, 1])
+@pytest.mark.parametrize("dtype", [torch.float16])
+@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize("op", [fmha.ck.FwOp])
+def test_mqa_forward(
+    op,
+    attn_bias_type,
+    dtype, 
+    batches: int, 
+    seqlen_kv: int, 
+    seqlen_q: int, 
+    nhead_kv: int, 
+    nhead_q: int, 
+    hdim_v: int, 
+    hdim_k: int, 
+):
+    B = batches
+    M = seqlen_q
+    N = seqlen_kv
+    Hq = nhead_q
+    Hkv = nhead_kv
+    K = hdim_k
+    Kv = hdim_v
+
+    print("Hq=", Hq, "Hkv=", Hkv)
+
+    device = torch.device("cuda")
+
+    if dtype is torch.bfloat16:
+        pytest.skip("bfloat16 is currently not supported by ck-tiled!")
+
+    if not (K == Kv and (Kv == 64 or Kv == 128)):
+        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
+
+    if Kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+
+    scale = 3
+    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
+    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
+    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
+
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=Hq,
+            q_len=M,
+            kv_len=N,
+            dtype=dtype,
+            device=device,
+            requires_grad=False,
+            fmt="BMHK",
+            op=op,
+        )
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+

From a74d5f39a7d285de63ce825a47bf91cfe6715e68 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 2 Nov 2023 12:50:40 -0400
Subject: [PATCH 273/837] implement boilerplate which creates an xformers op
 and binds it with a backend implementation

```
$> python -m xformers.info
...
memory_efficient_attention.ck_splitKF:             available
...
```
---
 xformers/csrc/attention/attention.cpp         |   2 +
 .../hip_fmha/attention_decoder_splitk.cpp     |   8 +
 .../hip_fmha/attention_forward_splitk.cpp     |  53 ++++++
 xformers/ops/__init__.py                      |   2 +
 xformers/ops/fmha/__init__.py                 |   5 +
 xformers/ops/fmha/forward_splitk.py           | 151 ++++++++++++++++++
 6 files changed, 221 insertions(+)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
 create mode 100644 xformers/ops/fmha/forward_splitk.py

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index d243a06168..5f802e56a6 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -48,6 +48,8 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
           "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, Tensor value, Tensor seq_positions, float scale, int split_k) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp
new file mode 100644
index 0000000000..e535ddb7e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp
@@ -0,0 +1,8 @@
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <c10/cuda/CUDAStream.h>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/inner_product.hpp>
+#include <torch/library.h>
+
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
new file mode 100644
index 0000000000..dc859c2ee6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -0,0 +1,53 @@
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <c10/cuda/CUDAStream.h>
+#include <torch/library.h>
+
+namespace {
+
+at::Tensor efficient_attention_forward_decoder_splitk_ck(
+    const at::Tensor& XQ, // [B, 1, H, D]
+    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
+    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
+    const at::Tensor& seq_positions, // [B]
+    double qk_scale,
+    int64_t split_k) {
+    
+    at::OptionalDeviceGuard guard(XQ.device());
+
+    TORCH_CHECK(XQ.is_cuda());
+    TORCH_CHECK(cache_K.is_cuda());
+    TORCH_CHECK(cache_V.is_cuda());
+
+    TORCH_CHECK(seq_positions.is_cuda());
+
+    auto B = XQ.size(0);
+    auto M = XQ.size(1);
+    auto G = XQ.size(2);
+    auto H = XQ.size(3);
+    auto K_q = XQ.size(4);
+    auto M_k = cache_K.size(1);
+
+    constexpr auto BLOCK_M = 16;
+
+    auto M_ceil = (M + BLOCK_M - 1) / BLOCK_M * BLOCK_M;
+
+    const auto options = at::TensorOptions()
+                             .dtype(XQ.dtype())
+                             .layout(at::kStrided)
+                             .device(XQ.device())
+                             .requires_grad(false);
+
+    auto O = at::empty({B * G * H, split_k, M_ceil, K_q}, options);
+    auto metadata = at::empty({B * G * H, 2, split_k, M_ceil}, options);
+
+    return O;
+}
+}
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_splitk_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+}
\ No newline at end of file
diff --git a/xformers/ops/__init__.py b/xformers/ops/__init__.py
index d14468c2b9..e0e12df4bc 100644
--- a/xformers/ops/__init__.py
+++ b/xformers/ops/__init__.py
@@ -18,6 +18,7 @@
     MemoryEfficientAttentionTritonFwdFlashBwOp,
     TritonFlashAttentionOp,
     MemoryEfficientAttentionCkOp,
+    MemoryEfficientAttentionSplitKCkOp,
     memory_efficient_attention,
     memory_efficient_attention_backward,
     memory_efficient_attention_forward,
@@ -75,6 +76,7 @@ def masked_matmul(a, b, mask=None):
     "MemoryEfficientAttentionOp",
     "MemoryEfficientAttentionTritonFwdFlashBwOp",
     "MemoryEfficientAttentionCkOp",
+    "MemoryEfficientAttentionSplitKCkOp",
     "memory_efficient_attention_backward",
     "memory_efficient_attention_forward",
     "memory_efficient_attention_forward_requires_grad",
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 9c2733f076..bfb524ece5 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -7,7 +7,11 @@
 
 import torch
 
+<<<<<<< HEAD
 from . import cutlass, decoder, flash, small_k, triton, ck, ck_decoder
+=======
+from . import cutlass, decoder, flash, small_k, triton, ck, forward_splitk
+>>>>>>> d7ba109 (implement boilerplate which creates an xformers op and binds it with a backend implementation)
 from .attn_bias import AttentionBias, BlockDiagonalMask, LowerTriangularMask
 from .common import (
     AttentionBwOpBase,
@@ -31,6 +35,7 @@
 TritonFlashAttentionOp = (triton.FwOp, triton.BwOp)
 MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp) 
 MemoryEfficientAttentionCkDecoderOp = (ck_decoder.FwOp, ck.BwOp)
+MemoryEfficientAttentionSplitKCkOp = (forward_splitk.FwOp, ck.BwOp) 
 
 class _fMHA(torch.autograd.Function):
     @staticmethod
diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/forward_splitk.py
new file mode 100644
index 0000000000..ff85d5f2d6
--- /dev/null
+++ b/xformers/ops/fmha/forward_splitk.py
@@ -0,0 +1,151 @@
+import torch
+from typing import Any, List, Set, Tuple, Optional
+from xformers.ops.common import get_xformers_operator, register_operator
+from xformers.ops.fmha.attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
+from xformers.ops.fmha.common import AttentionFwOpBase, Context, Inputs, check_lastdim_alignment_stride1
+
+@register_operator
+class FwOp(AttentionFwOpBase):
+    
+    OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_splitk_ck")
+    SUPPORTED_DEVICES = {"cuda"}
+    SUPPORTED_DTYPES = {
+        torch.half,
+        torch.bfloat16,
+    }  # Those are dtypes of Q. In the quantized case K/V has dtype int32
+    SUPPORTED_MAX_K = 128
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    }
+    SUPPORTS_DROPOUT = False
+    SUPPORTS_CUSTOM_SCALE = True
+    SUPPORTS_BMGHK = True
+    NAME = "ck_splitKF"
+
+    SPLIT_K: Optional[int] = None
+    BLOCK_M = 16
+    BLOCK_N = 64
+
+    NUM_GROUPS = 1  # Default quantization is row-wise
+
+    @classmethod
+    def shape_not_supported_reasons(
+        cls, Mq: int, Mkv: int, K: int, Kv: int
+    ) -> List[str]:
+        reasons = super().shape_not_supported_reasons(Mq, Mkv, K, Kv)
+        if K not in {16, 32, 64, 128}:
+            reasons.append(f"Embed dim {K} not supported")
+        return reasons
+
+    @classmethod
+    def not_supported_reasons(cls, d: Inputs) -> List[str]:
+        reasons = super(FwOp, cls).not_supported_reasons(d)
+        check_lastdim_alignment_stride1(reasons, "query", d.query, 8)
+        if d.key.dtype != torch.int32:
+            check_lastdim_alignment_stride1(reasons, "key", d.key, 8)
+            check_lastdim_alignment_stride1(reasons, "value", d.value, 8)
+        if cls.OPERATOR is None:
+            reasons.append("triton is not available")
+        if d.device.type == "cuda":
+            # Has only been tested on 8.0 / 9.0.
+            if torch.cuda.get_device_capability(d.device) < (7, 0):
+                reasons.append(
+                    "requires GPU with sm80 minimum compute capacity, e.g., A100/H100/L4"
+                )
+
+        q_len = d.query.shape[1]
+        if isinstance(d.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
+            seqinfo = d.attn_bias.q_seqinfo
+            if q_len != seqinfo.seqstart_py[-1]:
+                reasons.append(
+                    f"Expected total {seqinfo.seqstart_py[-1]} queries not {q_len}"
+                )
+            q_len = seqinfo.min_seqlen
+            if q_len != seqinfo.max_seqlen:
+                reasons.append(
+                    "Variable query len is not supported in the presence of causal mask."
+                )
+
+        if d.key.ndim in [4, 5] and d.key.shape[-2] != 1:
+            if d.key.stride(-2) == 0 and d.value.stride(-2) == 0 and q_len > 1:
+                reasons.append("multiquery is only supported with query seqlen=1")
+
+        if d.attn_bias is not None and q_len > 1:
+            reasons.append(
+                "query with seqlen > 1 is not supported in the presence of causal mask"
+            )
+        return reasons
+
+    @classmethod
+    def get_split_k(cls, B: int, H: int, Mk: int) -> int:
+        """Heuristic for the number of splits"""
+        bh = max(B * H, 1)  # NOTE: Handle B*h=0 case
+        split_k = max(Mk, 1024) // bh
+        max_chunk_size = 64 if Mk <= 512 and bh <= 64 else 128
+        while split_k > 0 and Mk / split_k < max_chunk_size:
+            split_k = split_k // 2
+        split_k = min(split_k, 64)
+        split_k = max(split_k, 1)
+        return split_k
+
+    @classmethod
+    def apply(
+        cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        attn_bias = inp.attn_bias
+        seq_len = None
+        q, k, v = inp.get_qkv_in_bmghk()
+        
+        if attn_bias is not None:
+            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+            seq_len = attn_bias.k_seqinfo.seqlen
+            B = len(seq_len)
+            G, H, Kq = q.shape[-3:]
+            Kkv = v.shape[-1]
+
+            # assume kv has been padded
+            q = q.reshape(B, -1, G, H, Kq)
+            k = k.reshape(B, -1, G, H, Kkv)
+            v = v.reshape(B, -1, G, H, Kkv)
+        
+        mqa_swap_seqlen_head = False
+        if k.shape[3] > 1 and k.stride(3) == 0 and v.stride(3) == 0:
+            mqa_swap_seqlen_head = True
+            assert q.shape[1] == 1
+            q = q.transpose(1, 3)
+            k = k[:, :, :, :1]
+            v = v[:, :, :, :1]
+
+        Lk = k.shape[-1]
+
+        B, Mk, G, H, Kkv = k.shape
+        B, M, G, H, Kq = q.shape
+        assert Lk == Kq, f"Keys have head dim {Lk} but queries have head dim {Kq}"
+
+        BLOCK_M = cls.BLOCK_M
+        BLOCK_N = cls.BLOCK_N
+        if cls.SPLIT_K is not None:
+            split_k = cls.SPLIT_K
+        else:
+            # Use heuristics
+            split_k = cls.get_split_k(B, H, Mk)
+
+        M_ceil = (M + BLOCK_M - 1) // BLOCK_M * BLOCK_M
+
+        # o_splitk = torch.empty(
+        #     [B * G * H, split_k, M_ceil, Kq], dtype=torch.float32, device=q.device
+        # )
+        # metadata = torch.empty(
+        #     [B * G * H, 2, split_k, M_ceil], dtype=torch.float32, device=q.device
+        # )
+
+        if inp.scale is not None:
+            qk_scale = inp.scale
+        else:
+            qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32))
+
+        out = cls.OPERATOR(query=q, key=k, value=v, seq_positions=seq_len, scale=qk_scale, split_k=split_k)
+
+        return out, None
+

From 21fbf99e801ad502bfc63ebf6cbdd0a73b463c81 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Nov 2023 19:27:19 -0500
Subject: [PATCH 274/837] add a (failing) test to verify splitk algorithm
 correctness

---
 tests/test_mem_eff_attention.py               | 69 +++++++++++++++++++
 .../hip_fmha/attention_forward_splitk.cpp     | 13 +++-
 2 files changed, 80 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index ae3f051b6d..7c86cd4e95 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -282,6 +282,75 @@ def T(t):
     return out.permute((0, 2, 1, 3))
 
 
+def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2) -> torch.Tensor:
+    assert q.ndim == 3
+
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    if scale is None:
+        scale = torch.rsqrt(q.shape[-1])
+    q = q * scale
+
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+
+    split_config = { "dim": -1, "split_size_or_sections": k.size(-1) // split_k}
+    k_split = torch.split(k, **split_config)
+    v_split = torch.split(v, **split_config)
+    attn_bias_split = torch.split(attn_bias_tensor, **split_config)
+
+    def compute_attention_split(q, k_slice, v_slice, attn_bias_slice):
+        p_slice = q @ k_slice.transpose(-2, -1)
+        p_slice += attn_bias_slice
+        m = p_slice.max(dim = -1)
+        s = torch.exp(p_slice - m[:, :, None])
+        l = torch.sum(s, dim = -1)
+        attn_slice = s @ v_slice
+        return {
+            "attn_slice": attn_slice,
+            "row_max": m,
+            "row_lse": l, 
+        }
+    
+    slices = map(lambda k, v, b: compute_attention_split(q, k, v, b), 
+        zip(k_split, v_split, attn_bias_split))
+    slices = list(slices)
+    out = torch.zero_like(q)
+
+    m_current_max = slices[0]["row_max"]
+    l_current_sum = torch.zero_like(slices[0]["row_lse"])
+
+    for s in slices:
+        (attn_slice, m, l) = s.values()
+        m_new = torch.max(m, m_current_max)
+        pick_new = m < m_current_max
+        pick_our = torch.logical_not(pick_new)
+
+        alpha = torch.exp(-torch.abs(m - m_current_max))
+
+        out = (pick_our * out + pick_new * attn_slice) * alpha
+        l_current_sum = (pick_our * l_current_sum + pick_new * l) * alpha
+        m_current_max = m_new
+    
+    out /= l_current_sum
+    return out
+
+
 def _rand_seqlens(
     r: random.Random,
     bs: int,
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index dc859c2ee6..237fcaca2c 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -30,18 +30,27 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
     auto M_k = cache_K.size(1);
 
     constexpr auto BLOCK_M = 16;
-
     auto M_ceil = (M + BLOCK_M - 1) / BLOCK_M * BLOCK_M;
 
+    constexpr auto kThreadsPerWarp = 64;
+    constexpr auto kWarpsPerBlock = 2; // original uses 2 warps
+
     const auto options = at::TensorOptions()
                              .dtype(XQ.dtype())
                              .layout(at::kStrided)
                              .device(XQ.device())
                              .requires_grad(false);
 
-    auto O = at::empty({B * G * H, split_k, M_ceil, K_q}, options);
+    auto O_splitk = at::empty({B * G * H, split_k, M_ceil, K_q}, options);
     auto metadata = at::empty({B * G * H, 2, split_k, M_ceil}, options);
 
+    dim3 attention_grid = {static_cast<uint32_t>(M / BLOCK_M), static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(split_k)};
+    dim3 reduce_grid = {static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(M)};
+
+    dim3 threads = {kThreadsPerWarp * kWarpsPerBlock};
+    
+    auto O = at::empty_like(XQ);
+
     return O;
 }
 }

From e4921b1baae3e9ffebc783fa147a4e7566df3e4e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Nov 2023 21:01:15 -0500
Subject: [PATCH 275/837] make the splitk reference test pass

---
 tests/test_mem_eff_attention_ck.py | 157 +++++++++++++++++++++++++++++
 1 file changed, 157 insertions(+)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 1b4286c014..b42dc7aaa5 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -283,6 +283,122 @@ def T(t):
     return out.permute((0, 2, 1, 3))
 
 
+def ref_attention_splitk_bmhk(q, k, v, attn_bias, scale=None, split_k=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention_splitk(T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2) -> torch.Tensor:
+    if q.ndim == 4:
+        return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k)
+    assert q.ndim == 3
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    if scale is None:
+        scale = q.shape[-1] ** -.5
+    assert not q.isnan().any()
+    q = q * scale
+    assert not q.isnan().any()
+
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+
+    split_size = k.size(-2) // split_k
+    split_config = { "dim": -2, "split_size_or_sections": split_size}
+    k_split = torch.split(k, **split_config)
+    v_split = torch.split(v, **split_config)
+    attn_bias_split = torch.split(attn_bias_tensor, dim=-1, split_size_or_sections=split_size)
+    
+    def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
+        assert not q_whole.isnan().any(), "q_whole is nan"
+        assert not k_slice.isnan().any(), "k_slice is nan"
+        p_slice = q_whole @ k_slice.transpose(-2, -1)
+        assert not p_slice.isnan().any(), "p_slice is nan"
+        assert not p_slice.isinf().any(), "p_slice is inf"
+        p_slice += attn_bias_slice
+        assert not p_slice.isnan().any(), "p_slice is nan after bias add"
+        m = torch.max(p_slice, dim = -1, keepdim=True).values
+        assert not m.isnan().any(), "m is nan"
+        p_slice_scaled = p_slice - m
+        p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
+        assert not p_slice_scaled.isnan().any(), f"p_slice_scaled is nan: {p_slice_scaled.isnan().sum()} of {p_slice_scaled.numel()} values"
+        s = torch.exp(p_slice_scaled)
+        assert s.shape == p_slice.shape
+        assert not s.isnan().any(), f"s is nan: {s.isnan().sum()} of {s.numel()} values"
+        l = torch.sum(s, dim = -1)
+        assert not l.isnan().any(), "l is nan"
+        attn_slice = s @ v_slice
+        assert not attn_slice.isnan().any(), "attn_slice is nan"
+        return {
+            "attn_slice": attn_slice,
+            "row_max": m,
+            "row_lse": l, 
+        }
+    
+    splits = list(zip(k_split, v_split, attn_bias_split))
+
+    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]), 
+        splits))
+    out = torch.zeros_like(q)
+
+    assert(not slices[0]["attn_slice"].isnan().any())
+
+    # reduce out over split-k slices
+
+    m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
+    l_current_sum = torch.zeros_like(slices[0]["row_lse"]).unsqueeze(-1)
+
+    for s in slices:
+        attn_slice = s["attn_slice"]
+        m = s["row_max"]
+        l = s["row_lse"].unsqueeze(-1)
+        m_new = torch.max(m, m_current_max)
+        assert not m_new.isnan().any(), "m_new is nan"
+        pick_new = m < m_current_max
+        pick_our = torch.logical_not(pick_new)
+
+        log_alpha = -torch.abs(m - m_current_max)
+        log_alpha[log_alpha.isnan()] = 0
+        alpha = torch.exp(log_alpha)
+        assert not alpha.isnan().any(), "alpha is nan"
+        out = out + attn_slice + (pick_our * out + pick_new * attn_slice) * (torch.sub(alpha, 1))
+        assert not out.isnan().any(), "out acc is nan"
+        l_current_sum = l_current_sum + l + (pick_our * l_current_sum + pick_new * l) * (torch.sub(alpha, 1))
+        assert not l_current_sum.isnan().any(), "l acc is nan"
+        m_current_max = m_new
+    out /= l_current_sum
+    assert not out.isnan().any(), "final out is nan"
+    return out
+
 def _rand_seqlens(
     r: random.Random,
     bs: int,
@@ -1639,6 +1755,47 @@ def test_attn_bias_padded() -> None:
         rtol=fmha.ck.FwOp.ERROR_RTOL[torch.float16],
     )
 
+@pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "nomq")
+@pytest.mark.parametrize("n_heads", [1, 16, 32])
+@pytest.mark.parametrize("padding", [32, 4096])
+@pytest.mark.parametrize("bsz", [1, 8])
+@pytest.mark.parametrize("dtype", ["f16"])
+@pytest.mark.parametrize("split_k", [1, 2])
+def test_splitk_reference(
+    multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
+):
+    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
+    torch.manual_seed(1)
+    d = 256
+    k_shape = (1, bsz * padding, n_heads, d)
+    # TODO: support 2 kv heads etc.
+    k = torch.rand(k_shape, dtype=dtype_).cuda()
+    k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
+    v = torch.rand(k_shape, dtype=dtype_).cuda()
+    q = torch.rand((1, bsz, n_heads, d), dtype=dtype_).cuda()
+    causal_diagonal = torch.tensor(  # TODO: make unnecessary
+        [i - 1 for i in k_seqlen], dtype=torch.int32
+    ).cuda()
+
+    if multiquery:
+        k = k[:, :, :1].expand(k_shape)
+        v = v[:, :, :1].expand(k_shape)
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=[1] * bsz,
+        kv_seqlen=k_seqlen,
+        causal_diagonal=causal_diagonal,
+        kv_padding=padding,
+    )
+    ref_out = ref_attention(q, k, v, attn_bias)
+    splitk_out = ref_attention_splitk(q, k, v, attn_bias, None, split_k=split_k)
+    assert_allclose(
+        ref_out,
+        splitk_out,
+        atol=fmha.ck.FwOp.ERROR_ATOL[dtype_],
+        rtol=fmha.ck.FwOp.ERROR_RTOL[dtype_],
+    )
+
 
 def _kv_heads_label(kv_heads: Optional[int]) -> str:
     if kv_heads is None:

From 656e85cad423c2345ec6645be02b604f7bf249a5 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Nov 2023 21:13:14 -0500
Subject: [PATCH 276/837] use keepdim instead of reshaping in the test

---
 tests/test_mem_eff_attention_ck.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index b42dc7aaa5..b26e467104 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -354,7 +354,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         s = torch.exp(p_slice_scaled)
         assert s.shape == p_slice.shape
         assert not s.isnan().any(), f"s is nan: {s.isnan().sum()} of {s.numel()} values"
-        l = torch.sum(s, dim = -1)
+        l = torch.sum(s, dim=-1, keepdim=True)
         assert not l.isnan().any(), "l is nan"
         attn_slice = s @ v_slice
         assert not attn_slice.isnan().any(), "attn_slice is nan"
@@ -375,12 +375,12 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     # reduce out over split-k slices
 
     m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
-    l_current_sum = torch.zeros_like(slices[0]["row_lse"]).unsqueeze(-1)
+    l_current_sum = torch.zeros_like(slices[0]["row_lse"])
 
     for s in slices:
         attn_slice = s["attn_slice"]
         m = s["row_max"]
-        l = s["row_lse"].unsqueeze(-1)
+        l = s["row_lse"]
         m_new = torch.max(m, m_current_max)
         assert not m_new.isnan().any(), "m_new is nan"
         pick_new = m < m_current_max

From 8722b1c979475d4ffeeb514dd49d41111cc484d0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Nov 2023 21:42:49 -0500
Subject: [PATCH 277/837] remove redundant assert

---
 tests/test_mem_eff_attention_ck.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index b26e467104..301351f3d7 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -370,8 +370,6 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         splits))
     out = torch.zeros_like(q)
 
-    assert(not slices[0]["attn_slice"].isnan().any())
-
     # reduce out over split-k slices
 
     m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))

From 30f34a6a70f90c7a85c4fc5d3c7a4677c65f9e95 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 14:02:08 -0500
Subject: [PATCH 278/837] clean up test

---
 tests/test_mem_eff_attention_ck.py | 34 ++++++++++++++++++++++++++++--
 1 file changed, 32 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 301351f3d7..e344518429 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1758,7 +1758,7 @@ def test_attn_bias_padded() -> None:
 @pytest.mark.parametrize("padding", [32, 4096])
 @pytest.mark.parametrize("bsz", [1, 8])
 @pytest.mark.parametrize("dtype", ["f16"])
-@pytest.mark.parametrize("split_k", [1, 2])
+@pytest.mark.parametrize("split_k", [1, 2, 4])
 def test_splitk_reference(
     multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
 ):
@@ -1766,7 +1766,6 @@ def test_splitk_reference(
     torch.manual_seed(1)
     d = 256
     k_shape = (1, bsz * padding, n_heads, d)
-    # TODO: support 2 kv heads etc.
     k = torch.rand(k_shape, dtype=dtype_).cuda()
     k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
     v = torch.rand(k_shape, dtype=dtype_).cuda()
@@ -1874,6 +1873,37 @@ def test_decoder(
         rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
     )
 
+def _kv_heads_label(kv_heads: Optional[int]) -> str:
+    if kv_heads is None:
+        return ""
+    if kv_heads == 1:
+        return "mq"
+    return f"gqa{kv_heads}"
+
+
+@pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp])
+@pytest.mark.parametrize("dtype", ["f16"])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("n_heads", [16])
+@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
+def test_triton_splitk_decoder(
+    op,
+    kv_heads: Optional[int],
+    n_heads: int,
+    padding: int,
+    bsz: int,
+    dtype: str,
+) -> None:
+    # no quantized impl compared to cuda
+    test_decoder(
+        op,
+        kv_heads=kv_heads,
+        n_heads=n_heads,
+        padding=padding,
+        bsz=bsz,
+        dtype=dtype,
+    )
+
 
 def test_attn_bias_from_seqlens() -> None:
     bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])

From 5348d38bdfd4e57a1931692ebaa26439f4085efa Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 14:09:21 -0500
Subject: [PATCH 279/837] fix rebase conflict

---
 xformers/ops/fmha/__init__.py | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index bfb524ece5..c186d284b7 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -7,11 +7,7 @@
 
 import torch
 
-<<<<<<< HEAD
-from . import cutlass, decoder, flash, small_k, triton, ck, ck_decoder
-=======
-from . import cutlass, decoder, flash, small_k, triton, ck, forward_splitk
->>>>>>> d7ba109 (implement boilerplate which creates an xformers op and binds it with a backend implementation)
+from . import cutlass, decoder, flash, small_k, triton, ck, forward_splitk, ck_decoder
 from .attn_bias import AttentionBias, BlockDiagonalMask, LowerTriangularMask
 from .common import (
     AttentionBwOpBase,

From e0048df2dffdefeb7a27664ef218e54fce723456 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Nov 2023 17:20:07 -0500
Subject: [PATCH 280/837] stash changes

---
 .../hip_fmha/attention_forward_splitk.cpp       | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 237fcaca2c..9775a1e0ae 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -4,6 +4,18 @@
 #include <c10/cuda/CUDAStream.h>
 #include <torch/library.h>
 
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
 namespace {
 
 at::Tensor efficient_attention_forward_decoder_splitk_ck(
@@ -59,4 +71,7 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
       TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_splitk_ck"),
       TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
-}
\ No newline at end of file
+}
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
\ No newline at end of file

From c9a882f87f4e8a6e1136b1bbca0f7a074d538631 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sun, 26 Nov 2023 02:41:47 -0500
Subject: [PATCH 281/837] add an (incorrect) kernel implementation and (failing
 numerically) test

---
 setup.py                                      |   8 +-
 xformers/csrc/attention/attention.cpp         |   2 +-
 .../hip_fmha/attention_forward_splitk.cpp     | 253 ++++++-
 .../ck_attention_forward_decoder_splitk.h     | 710 ++++++++++++++++++
 xformers/ops/fmha/forward_splitk.py           |  49 +-
 5 files changed, 983 insertions(+), 39 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h

diff --git a/setup.py b/setup.py
index 9f21987ad9..31391dff10 100644
--- a/setup.py
+++ b/setup.py
@@ -211,13 +211,17 @@ def get_extensions():
 
     source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"), recursive=False)
     
+    source_hip_decoder = [
+        *glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False),
+        *glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_splitk.cpp"), recursive=False)
+    ]
+
     if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_infer_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
     else:
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_backward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"), recursive=False)
@@ -229,6 +233,8 @@ def get_extensions():
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_backward_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances", "ck_fmha_*.cpp"), recursive=False)
         
+    source_hip += source_hip_decoder
+    
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
     cutlass_dir = os.path.join(this_dir, "third_party", "cutlass", "include")
     cutlass_examples_dir = os.path.join(this_dir, "third_party", "cutlass", "examples")
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 5f802e56a6..dbd65072d7 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -49,7 +49,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, Tensor value, Tensor seq_positions, float scale, int split_k) -> Tensor"));
+      "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, Tensor value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 9775a1e0ae..1dad0fa61b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -4,6 +4,34 @@
 #include <c10/cuda/CUDAStream.h>
 #include <torch/library.h>
 
+#include "ck_attention_forward_decoder_splitk.h"
+
+namespace {
+  constexpr int32_t kThreadsPerWavefront = 64;
+  constexpr int32_t kWavefrontsPerBlock = 16;
+  constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+}
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+}
+
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
   AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
   AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
@@ -18,54 +46,211 @@
 
 namespace {
 
-at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ, // [B, 1, H, D]
-    const at::Tensor& cache_K, // [B, T_MAX, H or 1, D]
-    const at::Tensor& cache_V, // [B, T_MAX, H or 1, D]
-    const at::Tensor& seq_positions, // [B]
-    double qk_scale,
-    int64_t split_k) {
+// at::Tensor efficient_attention_forward_decoder_splitk_ck(
+//     const at::Tensor& XQ, // [B, 1, G, H, D]
+//     const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+//     const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+//     at::optional<at::Tensor> seq_kv_lens, // [B]
+//     double qk_scale,
+//     at::Tensor& O,
+//     int64_t split_k) {
     
-    at::OptionalDeviceGuard guard(XQ.device());
+//     at::OptionalDeviceGuard guard(XQ.device());
 
-    TORCH_CHECK(XQ.is_cuda());
-    TORCH_CHECK(cache_K.is_cuda());
-    TORCH_CHECK(cache_V.is_cuda());
+//     TORCH_CHECK(XQ.is_cuda());
+//     TORCH_CHECK(cache_K.is_cuda());
+//     TORCH_CHECK(cache_V.is_cuda());
 
-    TORCH_CHECK(seq_positions.is_cuda());
+//     TORCH_CHECK(seq_positions.is_cuda());
 
-    auto B = XQ.size(0);
-    auto M = XQ.size(1);
-    auto G = XQ.size(2);
-    auto H = XQ.size(3);
-    auto K_q = XQ.size(4);
-    auto M_k = cache_K.size(1);
+//     auto M = XQ.size(1);
+//     auto B = XQ.size(0);
+//     auto G = XQ.size(2);
+//     auto H = XQ.size(3);
+//     auto K_q = XQ.size(4);
+//     auto M_k = cache_K.size(1);
 
-    constexpr auto BLOCK_M = 16;
-    auto M_ceil = (M + BLOCK_M - 1) / BLOCK_M * BLOCK_M;
+//     constexpr auto BLOCK_M = 16;
+//     auto M_ceil = (M + BLOCK_M - 1) / BLOCK_M * BLOCK_M;
 
-    constexpr auto kThreadsPerWarp = 64;
-    constexpr auto kWarpsPerBlock = 2; // original uses 2 warps
+//     constexpr auto kThreadsPerWarp = 64;
+//     constexpr auto kWarpsPerBlock = 2; // original uses 2 warps
 
-    const auto options = at::TensorOptions()
-                             .dtype(XQ.dtype())
-                             .layout(at::kStrided)
-                             .device(XQ.device())
-                             .requires_grad(false);
+//     const auto options = at::TensorOptions()
+//                              .dtype(XQ.dtype())
+//                              .layout(at::kStrided)
+//                              .device(XQ.device())
+//                              .requires_grad(false);
 
-    auto O_splitk = at::empty({B * G * H, split_k, M_ceil, K_q}, options);
-    auto metadata = at::empty({B * G * H, 2, split_k, M_ceil}, options);
+//     auto O_splitk = at::empty({B * G * H, split_k, M_ceil, K_q}, options);
+//     auto metadata = at::empty({B * G * H, 2, split_k, M_ceil}, options);
 
-    dim3 attention_grid = {static_cast<uint32_t>(M / BLOCK_M), static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(split_k)};
-    dim3 reduce_grid = {static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(M)};
+//     dim3 attention_grid = {static_cast<uint32_t>(M / BLOCK_M), static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(split_k)};
+//     dim3 reduce_grid = {static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(M)};
 
-    dim3 threads = {kThreadsPerWarp * kWarpsPerBlock};
+//     dim3 threads = {kThreadsPerWarp * kWarpsPerBlock};
     
-    auto O = at::empty_like(XQ);
+//     auto O = at::empty_like(XQ);
+
+//     return O;
+// }
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock,
+          int32_t KV_M_MAX = 8192,
+          int32_t K_MAX = 256>
+at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k,
+    at::Tensor& split_max,
+    at::Tensor& split_sumexp,
+    at::Tensor& split_O,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
 
-    return O;
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_splitk_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc = split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens ?
+            seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data() : nullptr;
+        auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc = split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            O_acc.stride(2),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+
+  return O;
+}
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    int64_t split_k,
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  constexpr auto splitk_dim = 0;
+  // auto O_unsqueeze = at::unsqueeze(O, splitk_dim);
+  auto O_splits = at::stack(O, splitk_dim);
+
+  TORCH_CHECK(XQ.dim() == 5);
+  TORCH_CHECK(cache_K.dim() == 5);
+  TORCH_CHECK(cache_V.dim() == 5);
+  TORCH_CHECK(O_splits.dim() == 6);
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  efficient_attention_forward_decoder_splitk_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
+  return O;
 }
+
+at::Tensor efficient_attention_forward_decoder_splitk_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  return efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
 }
+} // namespace
+
 
 TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
   m.impl(
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
new file mode 100644
index 0000000000..b093a57f0a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -0,0 +1,710 @@
+#pragma once
+
+#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/stream_config.hpp>
+#include <ck/tensor_operation/gpu/device/device_base.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/inner_product.hpp>
+#include <ck/utility/math.hpp>
+
+namespace ck {
+template <>
+__device__ void inner_product<bhalf_t, bhalf_t, float>(
+    const bhalf_t& a,
+    const bhalf_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+
+__device__ void inner_product<half_t, half_t, float>(
+    const half_t& a,
+    const half_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<bhalf2_t, bhalf2_t, float>(
+    const bhalf2_t& a,
+    const bhalf2_t& b,
+    float& c) {
+  const vector_type<bhalf_t, 2> a_vector{a};
+  const vector_type<bhalf_t, 2> b_vector{b};
+  ck::static_for<0, 2, 1>{}([&](auto i) {
+    inner_product(
+        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+  });
+}
+
+template <>
+__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
+    const bhalf4_t& a,
+    const bhalf4_t& b,
+    float& c) {
+  const vector_type<bhalf_t, 4> a_vector{a};
+  const vector_type<bhalf_t, 4> b_vector{b};
+  ck::static_for<0, 4, 1>{}([&](auto i) {
+    inner_product(
+        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
+  });
+}
+} // namespace ck
+
+namespace {
+
+template <typename data_t, int32_t vec_size>
+__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
+    typename ck::vector_type<float, vec_size>::type acc,
+    typename ck::vector_type<data_t, vec_size>::type a,
+    float b) {
+  union {
+    decltype(acc) vec;
+    float arr[vec_size];
+  } acc_u{acc};
+  union {
+    decltype(a) vec;
+    data_t arr[vec_size];
+  } a_u{a};
+
+#pragma unroll
+  for (int32_t i = 0; i < vec_size; ++i) {
+    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+  }
+
+  return acc_u.vec;
+}
+
+template <typename F, int32_t n_threads_per_wavefront = 64>
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
+#pragma unroll
+  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
+    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+  }
+  return val;
+}
+
+template <typename TData, typename TDataVec>
+__forceinline__ __device__ void load_v(
+    const TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec* __restrict__ load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+}
+
+template <typename TData, typename TDataVec>
+__forceinline__ __device__ void store_v(
+    TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+}
+
+template<
+typename scalar_t,
+int32_t vec_size = 4,
+typename compute_t = float
+> 
+__global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
+  const scalar_t* __restrict__ O_splits,
+  const compute_t* __restrict__ split_max,
+  const compute_t* __restrict__ split_sumexp,
+  scalar_t* __restrict__ O,
+  int32_t Q_size_m,
+  int32_t Q_size_g,
+  int32_t Q_size_h,
+  int32_t Q_size_k,
+  ptrdiff_t O_stride_split,
+  ptrdiff_t O_stride_b,
+  ptrdiff_t O_stride_m,
+  ptrdiff_t O_stride_g,
+  ptrdiff_t O_stride_h,
+  int32_t split_k
+) {
+  
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  union {
+    data_vec_t vec;
+    data_t arr[vec_size];
+  } O_split_data;
+  union {
+    compute_vec_t vec;
+    compute_t arr[vec_size];
+  } O_split_compute;
+  union {
+    data_vec_t vec;
+    data_t arr[vec_size];
+  } global_O_data;
+  union {
+    compute_vec_t vec;
+    compute_t arr[vec_size];
+  } global_O_compute;
+
+  global_O_compute.vec = 0;
+
+  const int32_t lane_idx = threadIdx.x;
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  if (!lane_active_for_io) {
+    return;
+  }
+
+  // for s in slices:
+  //       attn_slice = s["attn_slice"]
+  //       m = s["row_max"]
+  //       l = s["row_lse"]
+  //       m_new = torch.max(m, m_current_max)
+  //       assert not m_new.isnan().any(), "m_new is nan"
+  //       pick_new = m < m_current_max
+  //       pick_our = torch.logical_not(pick_new)
+
+  //       log_alpha = -torch.abs(m - m_current_max)
+  //       log_alpha[log_alpha.isnan()] = 0
+  //       alpha = torch.exp(log_alpha)
+  //       assert not alpha.isnan().any(), "alpha is nan"
+  //       out = out + attn_slice + (pick_our * out + pick_new * attn_slice) * (torch.sub(alpha, 1))
+  //       assert not out.isnan().any(), "out acc is nan"
+  //       l_current_sum = l_current_sum + l + (pick_our * l_current_sum + pick_new * l) * (torch.sub(alpha, 1))
+  //       assert not l_current_sum.isnan().any(), "l acc is nan"
+  //       m_current_max = m_new
+  //   out /= l_current_sum
+
+  compute_t new_max = 0;
+  compute_t global_sumexp = 0;
+  compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
+
+  for (size_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    load_v<data_t, data_vec_t>(O_splits 
+                               + b * O_stride_b 
+                               + m * O_stride_m 
+                               + g * O_stride_g 
+                               + h * O_stride_h
+                               + split_idx * O_stride_split, lane_idx, &O_split_data.vec);
+    #pragma unroll
+    for (int32_t i = 0; i < vec_size; ++i) {
+      O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
+    }
+    compute_t local_max = *(split_max + blockIdx.x * split_k + split_idx); 
+    compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx); 
+    new_max = ck::math::max(local_max, global_max);
+    bool pick_new = local_max < global_max;
+    compute_t log_alpha = -std::abs(local_max - global_max);
+    compute_t alpha = ck::math::exp(log_alpha);
+    compute_t pick_current_coef = (1 + (1 - pick_new) * (alpha - 1));
+    compute_t pick_new_coef = (1 + pick_new * (alpha - 1));
+    global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
+    global_O_compute.vec = pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
+    global_max = new_max;
+  }
+  global_O_compute.vec /= global_sumexp;
+  #pragma unroll
+  for (int32_t i = 0; i < vec_size; ++i) {
+    global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+  }
+  store_v<data_t, data_vec_t>(O + b * O_stride_b + m * O_stride_m + g * O_stride_g + h * O_stride_h, lane_idx, global_O_data.vec);
+}
+
+template <
+    typename scalar_t,
+    int32_t vec_size = 4,
+    int32_t n_loop_unroll = 16,
+    int32_t n_loop_unroll_tail = 2,
+    int32_t KV_M_MAX = 8192,
+    int32_t n_wavefronts_per_block = 16,
+    typename compute_t = float>
+__global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O_splits,
+    compute_t* __restrict__ split_max,
+    compute_t* __restrict__ split_sumexp,
+    const int32_t* __restrict__ seq_kv_lens,
+    const ptrdiff_t XQ_stride_b,
+    const ptrdiff_t XQ_stride_m,
+    const ptrdiff_t XQ_stride_g,
+    const ptrdiff_t XQ_stride_h,
+    const ptrdiff_t K_stride_b,
+    const ptrdiff_t K_stride_m,
+    const ptrdiff_t K_stride_g,
+    const ptrdiff_t K_stride_h,
+    const ptrdiff_t O_stride_split,
+    const int32_t Q_size_m,
+    const int32_t Q_size_g,
+    const int32_t Q_size_h,
+    const int32_t Q_size_k,
+    const int32_t K_size_m,
+    const bool multiquery,
+    const float qk_scale,
+    const int32_t split_k) {
+  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
+
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+  const int32_t split_idx = blockIdx.y;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
+
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
+  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+  const auto XQO_base_offset =
+      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
+  const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+  const auto cache_KV_base_offset =
+      b * K_stride_b + 0 * K_stride_m + g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
+  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  extern __shared__ __align__(16) compute_t smem[];
+
+  data_vec_t q_thread = 0;
+  // Load Q into registers in all wavefronts.
+  // Each thread handles `vec_size` D dimensions
+  if (lane_active_for_io) {
+    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  }
+
+  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+  // Compute S[0:t_max] = 
+  // ```
+  // for t in range(t_max): 
+  //   S[t] = dot(Q, K[t])
+  // ```
+  // Split the 0:t_max range across wavefronts in a block, 
+  // unroll loads to expose more parallelism.
+  // Reduce the dot product with cross-lane operation;
+  // Q and K[t] are in the registers of threads in a single wavefront.
+
+  data_vec_t k_loads[n_loop_unroll] = {};
+
+  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
+  const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
+  const int32_t tt_low = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
+  const int32_t tt_high = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t dtt_tail = n_wavefronts_per_block * n_loop_unroll_tail;
+  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail + wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
+  const int32_t t_max_unroll = (t_max / dtt) * dtt;
+
+  for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+    if (lane_active_for_io) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the K[b][t][g][h|0][:] row into registers
+        load_v<data_t, data_vec_t>(
+            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+      }
+    }
+    compute_t qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+          q_thread, k_loads[ttt], qk_accs[ttt]);
+      qk_accs[ttt] *= qk_scale;
+
+      qk_accs[ttt] =
+          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
+      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
+    }
+    if (lane_idx == 0) {
+      auto* __restrict__ smem_base = smem + tt;
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        smem_base[ttt] = qk_accs[ttt];
+      }
+    }
+  }
+
+  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+  for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+    if (lane_active_for_io) {
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the K[b][t][g][h|0][:] row into registers
+          load_v<data_t, data_vec_t>(
+              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        }
+      }
+    }
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      compute_t qk_acc = 0;
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+            q_thread, k_loads[ttt], qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t] = qk_acc;
+        }
+      }
+    }
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+  }
+  // shared across all threads in block
+  max_qk_acc =
+      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+  split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+
+  // each wavefront computes partial sum of exp.
+  compute_t softmax_denominator = 0.0f;
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](auto a, auto b) { return a + b; });
+
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+  }
+  __syncthreads();
+
+  // now, compute sum of exp(x - max(x)) over all intermediate results.
+  softmax_denominator = 0.0;
+  if (lane_idx < wavefronts_per_block) {
+    softmax_denominator = smem[KV_M_MAX + lane_idx];
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](auto a, auto b) { return a + b; });
+
+  split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+  // or maybe after scaling?
+  
+  const compute_t softmax_scale_factor = 1. / softmax_denominator;
+  // now, compute the normalization across all threads.
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+  }
+  __syncthreads();
+
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
+
+  compute_t ps[n_loop_unroll] = {};
+  compute_vec_t o_acc = 0;
+  if (lane_active_for_io) {
+    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the V[b][t][g][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<data_t, data_vec_t>(
+            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        ps[ttt] = smem[t];
+      }
+
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        o_acc =
+            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      }
+    }
+
+    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the V[b][t][g][h|0][:] row into registers, reusing K register
+          // storage
+          load_v<data_t, data_vec_t>(
+              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+          ps[ttt] = smem[t];
+        }
+      }
+
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          o_acc =
+              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+        }
+      }
+    }
+  }
+  // now, each thread has partial sums. Write to smem and get accumulated
+  // results back.
+  __syncthreads();
+
+  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+  if (lane_active_for_io) {
+    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+
+  __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0 && lane_active_for_io) {
+    union {
+      compute_vec_t vec = 0;
+      compute_t arr[vec_size];
+    } r;
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      r.vec += partial_r;
+    }
+    // elementwise convert from compute_t result to data_t out to be written
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } bf_r;
+#pragma unroll
+    for (int32_t i = 0; i < vec_size; ++i) {
+      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+    }
+    // write output row O[b][m][g][h][:]
+    data_t* __restrict__ o_ = O_splits + XQO_base_offset + split_idx * O_stride_split;
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+  }
+}
+
+} // namespace
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitKDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitKDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
+              : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+        const dim3 reduce_gridsize = {arg.grid_dim.x};
+        const dim3 reduce_blocksize = {arg.block_dim.x};
+        constexpr int32_t reduce_lds_bytes = 0;
+
+        float reduce_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 1>
+              : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes, 
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.O_stride_split,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.split_k
+        );
+        return split_attention_result + reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
\ No newline at end of file
diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/forward_splitk.py
index ff85d5f2d6..f67fceb0c2 100644
--- a/xformers/ops/fmha/forward_splitk.py
+++ b/xformers/ops/fmha/forward_splitk.py
@@ -13,7 +13,7 @@ class FwOp(AttentionFwOpBase):
         torch.half,
         torch.bfloat16,
     }  # Those are dtypes of Q. In the quantized case K/V has dtype int32
-    SUPPORTED_MAX_K = 128
+    SUPPORTED_MAX_K = 256
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
         type(None),
         BlockDiagonalCausalWithOffsetPaddedKeysMask,
@@ -34,8 +34,8 @@ def shape_not_supported_reasons(
         cls, Mq: int, Mkv: int, K: int, Kv: int
     ) -> List[str]:
         reasons = super().shape_not_supported_reasons(Mq, Mkv, K, Kv)
-        if K not in {16, 32, 64, 128}:
-            reasons.append(f"Embed dim {K} not supported")
+        # if K not in {16, 32, 64, 128}:
+        #     reasons.append(f"Embed dim {K} not supported")
         return reasons
 
     @classmethod
@@ -99,6 +99,8 @@ def apply(
         
         if attn_bias is not None:
             assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+            attn_bias.k_seqinfo.to(k.device)
+            attn_bias.q_seqinfo.to(q.device)
             seq_len = attn_bias.k_seqinfo.seqlen
             B = len(seq_len)
             G, H, Kq = q.shape[-3:]
@@ -145,7 +147,48 @@ def apply(
         else:
             qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32))
 
+        print(f"{q.shape=} {k.shape=} {v.shape=}")
+
         out = cls.OPERATOR(query=q, key=k, value=v, seq_positions=seq_len, scale=qk_scale, split_k=split_k)
 
         return out, None
 
+
+class FwOp_S1(FwOp):
+    SPLIT_K = 1
+    NAME = "ck_splitK1"
+
+
+class FwOp_S2(FwOp):
+    SPLIT_K = 2
+    NAME = "ck_splitK2"
+
+
+class FwOp_S4(FwOp):
+    SPLIT_K = 4
+    NAME = "ck_splitK4"
+
+
+class FwOp_S8(FwOp):
+    SPLIT_K = 8
+    NAME = "ck_splitK8"
+
+
+class FwOp_S16(FwOp):
+    SPLIT_K = 16
+    NAME = "ck_splitK16"
+
+
+class FwOp_S32(FwOp):
+    SPLIT_K = 32
+    NAME = "ck_splitK32"
+
+
+class FwOp_S64(FwOp):
+    SPLIT_K = 64
+    NAME = "ck_splitK64"
+
+
+class FwOp_S128(FwOp):
+    SPLIT_K = 128
+    NAME = "ck_splitK128"

From bc2333331f3f2d95e2eabb350a092616bf320bbf Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 5 Dec 2023 18:30:26 -0500
Subject: [PATCH 282/837] add option to build a standalone runner for splitk
 decoder; debugging numerics in reduction

---
 tests/test_mem_eff_attention_ck.py            |   8 +-
 .../csrc/attention/hip_fmha/CMakeLists.txt    |  51 +++++-
 .../hip_fmha/attention_forward_splitk.cpp     | 149 +++++++++++++++++-
 .../ck_attention_forward_decoder_splitk.h     |  12 +-
 4 files changed, 206 insertions(+), 14 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index e344518429..073adcc4d1 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1864,6 +1864,10 @@ def test_decoder(
         q, k, v, attn_bias, op=op
     )
     
+    print(f"{decoder_output.shape=}")
+    nans_in_result = torch.sum(torch.isnan(decoder_output))
+    print(f"{nans_in_result=}")
+
     ref_output = ref_attention(q, k, v, attn_bias, dtype=dtype_)
 
     assert_allclose(
@@ -1881,12 +1885,12 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
     return f"gqa{kv_heads}"
 
 
-@pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp])
+@pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp_S1, fmha.forward_splitk.FwOp_S2])
 @pytest.mark.parametrize("dtype", ["f16"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
 @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
-def test_triton_splitk_decoder(
+def test_splitk_decoder(
     op,
     kv_heads: Optional[int],
     n_heads: int,
diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index a95c68fbed..056bb06bb4 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -9,15 +9,17 @@ set(CMAKE_CXX_STANDARD_REQUIRED ON)
 set(CMAKE_CXX_EXTENSIONS OFF)
 
 set(exe_name attention_forward_decoder_main)
+set(splitk_exe_name attention_forward_splitk_decoder_main)
 set(project_root_dir /xformers)
 set(xformers_csrc ${project_root_dir}/xformers/csrc)
 set(sources ${xformers_csrc}/attention/hip_fmha/attention_forward_decoder.hip)
-
+set(splitk_sources ${xformers_csrc}/attention/hip_fmha/attention_forward_splitk.hip)
 set(ck_include ${project_root_dir}/third_party/composable_kernel/include/)
 set(torch_include /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include)
 
-set_source_files_properties(${sources} PROPERTIES LANGUAGE HIP)
+set_source_files_properties(${sources} ${splitk_sources} PROPERTIES LANGUAGE HIP)
 add_executable(${exe_name} ${sources})
+add_executable(${splitk_exe_name} ${splitk_sources})
 
 find_package(HIP REQUIRED)
 find_package(ROCM REQUIRED PATHS /opt/rocm)
@@ -25,9 +27,9 @@ include(ROCMInstallTargets)
 
 message("HIP_VERSION: ${HIP_VERSION_MAJOR}.${HIP_VERSION_MINOR}.${HIP_VERSION_PATCH}")
 
-set_target_properties(${exe_name} PROPERTIES LINKER_LANGUAGE CXX)
-set_target_properties(${exe_name} PROPERTIES POSITION_INDEPENDENT_CODE ON)
-set_target_properties(${exe_name} PROPERTIES HIP_ARCHITECTURES ${GPU_TARGETS})
+set_target_properties(${exe_name} ${splitk_exe_name} PROPERTIES LINKER_LANGUAGE CXX)
+set_target_properties(${exe_name} ${splitk_exe_name} PROPERTIES POSITION_INDEPENDENT_CODE ON)
+set_target_properties(${exe_name} ${splitk_exe_name} PROPERTIES HIP_ARCHITECTURES ${GPU_TARGETS})
 
 target_compile_options(${exe_name} PUBLIC 
   -fno-gpu-rdc
@@ -36,17 +38,35 @@ target_compile_options(${exe_name} PUBLIC
   >
 )
 
+target_compile_options(${splitk_exe_name} PUBLIC 
+  -fno-gpu-rdc
+  $<$<CONFIG:Debug>:
+  --save-temps
+  >
+)
+
 target_include_directories(${exe_name} PUBLIC 
   ${ck_include}                           # ck includes
   ${torch_include}                        # aten includes
   ${torch_include}/torch/csrc/api/include # torch includes
 )
 
+target_include_directories(${splitk_exe_name} PUBLIC 
+  ${ck_include}                           # ck includes
+  ${torch_include}                        # aten includes
+  ${torch_include}/torch/csrc/api/include # torch includes
+)
+
 target_link_directories(${exe_name} PUBLIC
   /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib # c10, torch
   /opt/rocm/hip/lib
 )
 
+target_link_directories(${splitk_exe_name} PUBLIC
+  /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib # c10, torch
+  /opt/rocm/hip/lib
+)
+
 target_link_libraries(${exe_name} PUBLIC
   c10
   c10_hip
@@ -56,6 +76,16 @@ target_link_libraries(${exe_name} PUBLIC
   amdhip64
 )
 
+
+target_link_libraries(${splitk_exe_name} PUBLIC
+  c10
+  c10_hip
+  torch
+  torch_hip
+  torch_cpu
+  amdhip64
+)
+
 target_compile_definitions(${exe_name} PUBLIC 
   ATTN_FWD_DECODER_MAIN=1
   GLIBCXX_USE_CXX11_ABI=1
@@ -63,8 +93,15 @@ target_compile_definitions(${exe_name} PUBLIC
   USE_ROCM=1
 )
 
+target_compile_definitions(${splitk_exe_name} PUBLIC 
+  ATTN_FWD_SPLITK_DECODER_MAIN=1
+  GLIBCXX_USE_CXX11_ABI=1
+  __HIP_PLATFORM_HCC__=1
+  USE_ROCM=1
+)
+
 include(CMakePrintHelpers)
-cmake_print_properties(TARGETS ${exe_name} PROPERTIES 
+cmake_print_properties(TARGETS ${exe_name} ${splitk_exe_name} PROPERTIES 
   LINK_LIBRARIES 
   LINK_DIRECTORIES 
   INCLUDE_DIRECTORIES 
@@ -73,4 +110,4 @@ cmake_print_properties(TARGETS ${exe_name} PROPERTIES
   SOURCES
   HIP_ARCHITECTURES)
 
-rocm_install(TARGETS ${exe_name})
\ No newline at end of file
+rocm_install(TARGETS ${exe_name} ${splitk_exe_name})
\ No newline at end of file
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 1dad0fa61b..f0406b522d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -259,4 +259,151 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 }
 
 #undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
\ No newline at end of file
+#undef AT_DISPATCH_SWITCH_3
+
+#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_splitk_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t H = 4;
+  const int32_t G = 1;
+  auto options = torch::TensorOptions()
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, G, H, D}, options);
+  auto K = at::randn({B, 4096, G, H, D}, options);
+  auto V = at::randn({B, 4096, G, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
+  double qk_scale = 1. / sqrt(D);
+  constexpr auto split_k = 1;
+
+  auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale, split_k);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block"
+          << std::endl;
+      return 0;
+    }
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t n_groups = 1;
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q = at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+        : at::rand({batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::empty_like(Q);
+
+    constexpr auto splitk_dim = 0;
+    constexpr auto split_k = 1;
+    auto O_splits = at::stack(O, splitk_dim);
+
+    auto split_max = at::empty({batch_size, padding, n_groups, n_heads, split_k}, options.dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
\ No newline at end of file
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index b093a57f0a..e7421c7c34 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -189,7 +189,7 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
                                + m * O_stride_m 
                                + g * O_stride_g 
                                + h * O_stride_h
-                               + split_idx * O_stride_split, lane_idx, &O_split_data.vec);
+                               + split_idx * O_stride_split, lane_idx, &O_split_data.vec);                       
     #pragma unroll
     for (int32_t i = 0; i < vec_size; ++i) {
       O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
@@ -199,11 +199,16 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
     new_max = ck::math::max(local_max, global_max);
     bool pick_new = local_max < global_max;
     compute_t log_alpha = -std::abs(local_max - global_max);
-    compute_t alpha = ck::math::exp(log_alpha);
+    compute_t alpha = isnan(log_alpha) ? compute_t{1} : ck::math::exp(log_alpha);
+    // assert(!isnan(alpha));
+    // assert(isnan(alpha));
     compute_t pick_current_coef = (1 + (1 - pick_new) * (alpha - 1));
+    // assert(!isnan(pick_current_coef));
     compute_t pick_new_coef = (1 + pick_new * (alpha - 1));
+    // assert(!isnan(pick_new_coef));
     global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
-    global_O_compute.vec = pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
+    // global_O_compute.vec = pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
+    global_O_compute.vec = O_split_compute.vec;
     global_max = new_max;
   }
   global_O_compute.vec /= global_sumexp;
@@ -673,7 +678,6 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
         const dim3 reduce_gridsize = {arg.grid_dim.x};
         const dim3 reduce_blocksize = {arg.block_dim.x};
         constexpr int32_t reduce_lds_bytes = 0;
-
         float reduce_result = launch_and_time_kernel(
           stream_config,
           Q_size_k_alignment_necessary == 4

From 2c7b9bbfded2379d546ffbcb9804ad0fcb0aec1d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 5 Dec 2023 19:43:49 -0500
Subject: [PATCH 283/837] fix a few bugs

---
 .../hip_fmha/attention_forward_splitk.cpp     |  7 +++---
 .../ck_attention_forward_decoder_splitk.h     | 22 +++++++++----------
 2 files changed, 14 insertions(+), 15 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index f0406b522d..5998f3fc83 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -183,7 +183,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
             K_acc.stride(1),
             K_acc.stride(2),
             K_acc.stride(3),
-            O_acc.stride(2),
+            split_O_acc.stride(0),
             XQ_acc.size(1),
             XQ_acc.size(2),
             XQ_acc.size(3),
@@ -212,11 +212,10 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
     const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
-    int64_t split_k,
-    double qk_scale) {
+    double qk_scale,
+    int64_t split_k) {
   auto O = at::empty_like(XQ);
   constexpr auto splitk_dim = 0;
-  // auto O_unsqueeze = at::unsqueeze(O, splitk_dim);
   auto O_splits = at::stack(O, splitk_dim);
 
   TORCH_CHECK(XQ.dim() == 5);
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index e7421c7c34..486c96ee71 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -183,7 +183,7 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
   compute_t global_sumexp = 0;
   compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
 
-  for (size_t split_idx = 0; split_idx < split_k; ++split_idx) {
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
     load_v<data_t, data_vec_t>(O_splits 
                                + b * O_stride_b 
                                + m * O_stride_m 
@@ -200,15 +200,10 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
     bool pick_new = local_max < global_max;
     compute_t log_alpha = -std::abs(local_max - global_max);
     compute_t alpha = isnan(log_alpha) ? compute_t{1} : ck::math::exp(log_alpha);
-    // assert(!isnan(alpha));
-    // assert(isnan(alpha));
     compute_t pick_current_coef = (1 + (1 - pick_new) * (alpha - 1));
-    // assert(!isnan(pick_current_coef));
     compute_t pick_new_coef = (1 + pick_new * (alpha - 1));
-    // assert(!isnan(pick_new_coef));
     global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
-    // global_O_compute.vec = pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
-    global_O_compute.vec = O_split_compute.vec;
+    global_O_compute.vec = pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
     global_max = new_max;
   }
   global_O_compute.vec /= global_sumexp;
@@ -397,7 +392,9 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
   max_qk_acc =
       wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
 
-  split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+  if (wavefront_idx == 0 && lane_idx == 0) {
+    split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+  }
 
   // each wavefront computes partial sum of exp.
   compute_t softmax_denominator = 0.0f;
@@ -420,13 +417,16 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](auto a, auto b) { return a + b; });
 
-  split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+  if (wavefront_idx == 0 && lane_idx == 0) {
+    split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+  }
   // or maybe after scaling?
   
-  const compute_t softmax_scale_factor = 1. / softmax_denominator;
+  // const compute_t softmax_scale_factor = 1. / softmax_denominator;
   // now, compute the normalization across all threads.
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+    // smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+    smem[t] = ck::math::exp(smem[t] - max_qk_acc);
   }
   __syncthreads();
 

From 709727f7c078e8b1d6ff90b5fdbd37fcbb27e8d1 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 5 Dec 2023 20:50:10 -0500
Subject: [PATCH 284/837] fix an indexing bug

---
 .../ck_attention_forward_decoder_splitk.h     | 34 ++++++++++++++++---
 1 file changed, 29 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 486c96ee71..a76aacfa1a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -220,7 +220,6 @@ template <
     int32_t n_loop_unroll = 16,
     int32_t n_loop_unroll_tail = 2,
     int32_t KV_M_MAX = 8192,
-    int32_t n_wavefronts_per_block = 16,
     typename compute_t = float>
 __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
     const scalar_t* __restrict__ XQ,
@@ -307,15 +306,40 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
 
   data_vec_t k_loads[n_loop_unroll] = {};
 
-  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
+  const auto dtt = wavefronts_per_block * n_loop_unroll;
   const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
   const int32_t tt_low = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
   const int32_t tt_high = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t dtt_tail = n_wavefronts_per_block * n_loop_unroll_tail;
-  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail + wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
+  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
   const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
-  const int32_t t_max_unroll = (t_max / dtt) * dtt;
 
+  // if (lane_idx == 0)
+  //   printf("wavefront_idx: %d "
+  //          "t_max: %d " 
+  //          "(runtime) wavefronts_per_block: %d "
+  //          "n_loop_unroll: %d "
+  //          "n_loop_unroll_tail: %d "
+  //          "dtt: %d "
+  //          "n_unrolled_loops: %d "
+  //          "tt_low: %d "
+  //          "tt_high: %d "
+  //          "dtt_tail: %d "
+  //          "tt_tail_low: %d "
+  //          "tt_tail_high: %d "
+  //          "\n", 
+  //          wavefront_idx,
+  //          t_max, 
+  //          wavefronts_per_block,
+  //          n_loop_unroll,
+  //          n_loop_unroll_tail,
+  //          dtt,
+  //          n_unrolled_loops,
+  //          tt_low,
+  //          tt_high,
+  //          dtt_tail,
+  //          tt_tail_low,
+  //          tt_tail_high);
   for (auto tt = tt_low; tt < tt_high; tt += dtt) {
     if (lane_active_for_io) {
 #pragma unroll n_loop_unroll

From 785481c76f28719a42db0aae0239e5fec9961314 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 6 Dec 2023 13:03:28 -0500
Subject: [PATCH 285/837] stash changes

---
 xformers/ops/fmha/forward_splitk.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/forward_splitk.py
index f67fceb0c2..008ce1fc79 100644
--- a/xformers/ops/fmha/forward_splitk.py
+++ b/xformers/ops/fmha/forward_splitk.py
@@ -150,7 +150,9 @@ def apply(
         print(f"{q.shape=} {k.shape=} {v.shape=}")
 
         out = cls.OPERATOR(query=q, key=k, value=v, seq_positions=seq_len, scale=qk_scale, split_k=split_k)
-
+        
+        print(f"{out.shape=}")
+        
         return out, None
 
 
From ff0ebdbf5a101e670846379e70356970baac23cb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 8 Dec 2023 12:49:44 +0000
Subject: [PATCH 286/837] Add benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py to
 benchmark mqa/gqa performance on ck-tiled fmha

---
 ...benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py | 271 ++++++++++++++++++
 1 file changed, 271 insertions(+)
 create mode 100644 xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
new file mode 100644
index 0000000000..ee3326a228
--- /dev/null
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
@@ -0,0 +1,271 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+
+import itertools
+import random
+from functools import partial
+
+import torch
+from torch.utils import benchmark
+from xformers.benchmarks.utils import benchmark_main_helper
+
+import xformers.ops
+import xformers.ops.fmha as fmha
+
+torch.backends.cuda.matmul.allow_tf32 = False
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    bias_requires_grad: bool = False,
+):
+    NoneType = type(None)
+    if bias_type is NoneType:
+        return None
+    if bias_type is torch.Tensor:
+        attn_bias = torch.randn((1, 1, q_len, kv_len), device=device, dtype=dtype)
+        return attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return bias_type()
+    assert False, f"Unsupported bias type: {bias_type}"
+
+## ref_attention is completely the same as used by test_forward_ck_tiled.py
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+    if q.ndim == 4:
+        B, M, Hq, K = q.shape
+        _, N, Hkv, Kv = v.shape
+        nhead_ratio_qk = Hq // Hkv
+
+        def attn_bias_head(head: int):
+            if isinstance(attn_bias, torch.Tensor):
+                assert attn_bias.ndim == 4
+                _, H, _, _ = attn_bias.shape
+                assert H == Hq
+                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+                return bias_bghmn[:, :, head]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                assert attn_bias._bias.ndim == 4
+                _, H, _, _ = attn_bias._bias.shape
+                assert H == Hq
+                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    bias_bghmn[:, :, head]
+                )
+            return attn_bias
+
+        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
+
+        return torch.stack(
+            [
+                ref_attention_bmhk(
+                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
+                )
+                for h in range(q_bmghk.shape[3])
+            ],
+            dim=3,
+        ).reshape((B, M, Hq, Kv))
+
+    assert q.ndim == 3
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
+
+    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=dtype,
+            )
+        else:
+            attn_bias_tensor = attn_bias.to(dtype=dtype)
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+## ref_attention_bmhk is completely the same as used by test_forward_ck_tiled.py
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+min_run_time = 0.5
+device = torch.device("cuda")
+
+NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
+SHAPES = [
+    (1, 512, 8192, 64, 8, 128),
+    (1, 1024, 8192, 64, 8, 128),
+    (1, 2048, 8192, 64, 8, 128),
+    (1, 4096, 8192, 64, 8, 128),
+    (1, 8192, 8192, 64, 8, 128),
+    (1, 16384, 8192, 64, 8, 128),
+    (1, 1024, 8192, 64, 8, 64),
+    (1, 1024, 8192, 8, 1, 64),
+    (1, 1024, 8192, 4, 4, 64),
+    ##*sorted(itertools.product([1, 2], [2048, 4096], [2048, 4096], [4, 8], [1, 2], [128])),
+    ##*sorted(
+    ##    itertools.product([16], [128, 512], [512, 1024], [16], [2, 4], [64, 128])
+    #),
+]
+
+OPS = [
+    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
+    #(xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
+    # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
+    # and its performance varies a lot between runs.
+    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
+]
+
+
+def product_dict(**kwargs):
+    keys = kwargs.keys()
+    vals = kwargs.values()
+    for instance in itertools.product(*vals):
+        yield dict(zip(keys, instance))
+
+
+CASES = list(
+    product_dict(
+        shape=SHAPES,
+        num_threads=NUM_THREADS,
+        dropout_p=[0.0],
+        attn_bias_cfg=[(type(None), False)],
+        dtype=[torch.half],
+    )
+)
+
+# Add more cases with some variations
+for c in CASES.copy():
+    c = c.copy()
+    c.update(
+        random.Random(str(c["shape"])).choice(
+            [
+                ##{"dropout_p": 0.3},
+                {"attn_bias_cfg": (torch.Tensor, False)},
+                ##{"attn_bias_cfg": (torch.Tensor, True)},
+                {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
+                ##{"dtype": torch.bfloat16},
+                ##{"dtype": torch.float},
+            ]
+        )
+    )
+    CASES.append(c)
+
+
+def create_tensors(shape, dtype, requires_grad=False):
+    B, M, N, Hq, Hkv, K = shape
+    q = torch.rand([B, M, Hq, K], device=device, dtype=dtype, requires_grad=requires_grad)
+    k = torch.rand([B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad)
+    v = torch.rand([B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad)
+    return q, k, v
+
+def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+    B, M, N, Hq, Hkv, K = shape
+    q, k, v = create_tensors(shape, dtype)
+    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
+    if attn_bias_requires_grad:
+        return
+    bias = create_attn_bias(
+        attn_bias_type,
+        batch_size=B,
+        num_heads=Hq,
+        q_len=M,
+        kv_len=N,
+        device=device,
+        dtype=dtype,
+        bias_requires_grad=attn_bias_requires_grad,
+    )
+    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+
+    dtype_str = {
+        torch.bfloat16: "b16",
+        torch.half: "f16",
+        torch.float: "f32",
+    }[dtype]
+    sub_label = (
+        f"{dtype_str} {B}-{M}-{Hq}-{Hkv}-{K}, p={dropout_p}, "
+        f"BiasT={attn_bias_type.__name__}"
+    )
+
+    has_run = False
+    for fw_op, bw_op in OPS:
+        if not fw_op.supports(inp):
+            continue
+
+        yield benchmark.Timer(
+            stmt="fn(q, k, v, attn_bias, p)",
+            globals={
+                "q": q,
+                "k": k,
+                "v": v,
+                "attn_bias": inp.attn_bias,
+                "p": dropout_p,
+                "fn": partial(
+                    xformers.ops.memory_efficient_attention, op=(fw_op, bw_op)
+                ),
+            },
+            label=f"attention (attn_bias={attn_bias_type})",
+            description=fw_op.NAME,
+            sub_label=sub_label,
+            num_threads=num_threads,
+        )
+        has_run = True
+
+    if not has_run:
+        return
+
+    yield benchmark.Timer(
+        stmt="fn(q, k, v, attn_bias, p)",
+        globals={
+            "q": q,
+            "k": k,
+            "v": v,
+            "attn_bias": inp.attn_bias,
+            "p": dropout_p,
+            "fn": ref_attention,
+        },
+        label=f"attention (attn_bias={attn_bias_type})",
+        description="eager",
+        sub_label=sub_label,
+        num_threads=num_threads,
+    )
+
+benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)

From 9a8baf7baf0e65ef5b8622daf4bc96fe99eb7ee1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 8 Dec 2023 17:22:27 +0000
Subject: [PATCH 287/837] Synchronize with latest update in
 composable_kernel_tiled feature/fmha-pad-support branch

---
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  92 +++-----
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 205 ++++++------------
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |   8 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  82 +++----
 5 files changed, 124 insertions(+), 265 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index ddce91a44b..e36287d5dd 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit ddce91a44b2da6eb74e7e3d7bf14b54930719983
+Subproject commit e36287d5dd83b01cec46c915e4fea9fc3d1c484f
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 3003fa4043..193e0989f4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -157,74 +157,38 @@ struct batched_infer_masktype_attnbias_dispatched
     static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream)
     {
         const auto kargs = [&] {
-            if constexpr(FmhaKernel::kSupportsBias)
-            {
-                std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias;
-
-                bias = std::make_tuple(param.attn_bias_ptr,
-                                       param.attn_bias_strides[2],
-                                       param.attn_bias_strides[1],
-                                       param.attn_bias_strides[0]);
-
-                return FmhaKernel::MakeKargs(
-                    param.q_ptr,
-                    param.k_ptr,
-                    param.v_ptr,
-                    param.out_ptr,
-                    param.M,              // seqlen_q
-                    param.N,              // seqlen_k
-                    param.K,              // hdim_q
-                    param.Kv,             // hdim_v
-                    param.Hq / param.Hkv, // nhead_ratio_qk
-                    param.scale,
-                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
-                    param.k_strides[1],
-                    param.v_strides[1],
-                    param.out_strides[1],
-                    param.q_strides[2], // q, k, v, out tensor head-dim stride
-                    param.k_strides[2],
-                    param.v_strides[2],
-                    param.out_strides[2],
-                    param.q_strides[0], // q, k, v, out tensor batch-dim stride
-                    param.k_strides[0],
-                    param.v_strides[0],
-                    param.out_strides[0],
-                    bias);
-            }
-            else
-            {
-                return FmhaKernel::MakeKargs(
-                    param.q_ptr,
-                    param.k_ptr,
-                    param.v_ptr,
-                    param.out_ptr,
-                    param.M,              // seqlen_q
-                    param.N,              // seqlen_k
-                    param.K,              // hdim_q
-                    param.Kv,             // hdim_v
-                    param.Hq / param.Hkv, // nhead_ratio_qk
-                    param.scale,
-                    param.q_strides[1], // q, k, v, out tensor seq-dim stride
-                    param.k_strides[1],
-                    param.v_strides[1],
-                    param.out_strides[1],
-                    param.q_strides[2], // q, k, v, out tensor head-dim stride
-                    param.k_strides[2],
-                    param.v_strides[2],
-                    param.out_strides[2],
-                    param.q_strides[0], // q, k, v, out tensor batch-dim stride
-                    param.k_strides[0],
-                    param.v_strides[0],
-                    param.out_strides[0]);
-            };
+            return FmhaKernel::MakeKargs(
+                param.q_ptr,
+                param.k_ptr,
+                param.v_ptr,
+                param.attn_bias_ptr,
+                param.out_ptr,
+                param.M,              // seqlen_q
+                param.N,              // seqlen_k
+                param.K,              // hdim_q
+                param.Kv,             // hdim_v
+                param.Hq / param.Hkv, // nhead_ratio_qk
+                param.scale,
+                param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+                param.k_strides[1],
+                param.v_strides[1],
+                param.attn_bias_strides[2],
+                param.out_strides[1],
+                param.q_strides[2], // q, k, v, bias, out tensor head-dim stride
+                param.k_strides[2],
+                param.v_strides[2],
+                param.attn_bias_strides[1],
+                param.out_strides[2],
+                param.q_strides[0], // q, k, v, bias, out tensor batch-dim stride
+                param.k_strides[0],
+                param.v_strides[0],
+                param.attn_bias_strides[0],
+                param.out_strides[0]);
         }();
 
         dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
         constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-
-        constexpr ck::index_t kWarpPerCu    = 8; // 2 warps per SIMD
-        constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
-        constexpr ck::index_t kBlockPerCu   = kWarpPerCu / kWarpPerBlock;
+        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
 
         (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
             StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 534c2c5884..288629a798 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -6,7 +6,6 @@
  */
 #pragma once
 
-#include <optional>
 #include <type_traits>
 
 #include "ck/utility/common_header.hpp"
@@ -24,10 +23,11 @@
 template <typename TilePartitioner_, typename FmhaPipeline_, typename EpiloguePipeline_>
 struct FmhaFwdKernel
 {
-    using TilePartitioner                   = ck::remove_cvref_t<TilePartitioner_>;
-    using FmhaPipeline                      = ck::remove_cvref_t<FmhaPipeline_>;
-    using EpiloguePipeline                  = ck::remove_cvref_t<EpiloguePipeline_>;
-    static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
+    using TilePartitioner                    = ck::remove_cvref_t<TilePartitioner_>;
+    using FmhaPipeline                       = ck::remove_cvref_t<FmhaPipeline_>;
+    using EpiloguePipeline                   = ck::remove_cvref_t<EpiloguePipeline_>;
+    static constexpr ck::index_t kBlockSize  = FmhaPipeline::kBlockSize;
+    static constexpr ck::index_t kBlockPerCu = FmhaPipeline::kBlockPerCu;
 
     using QDataType    = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
     using KDataType    = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
@@ -40,7 +40,7 @@ struct FmhaFwdKernel
     static constexpr bool kIsGroupMode     = FmhaPipeline::kIsGroupMode;
     static constexpr bool kM0NeedPadding   = FmhaPipeline::kM0NeedPadding;
     static constexpr bool kN0K1NeedPadding = FmhaPipeline::kN0K1NeedPadding;
-    static constexpr bool kSupportsBias    = FmhaPipeline::kSupportsBias;
+    static constexpr bool kHasBias         = FmhaPipeline::kHasBias;
 
     using C0MatrixMask = ck::tile_program::block::C0MatrixMask_impl<
         ck::remove_cvref_t<typename FmhaPipeline::BlockFmhaMask>>;
@@ -79,7 +79,11 @@ struct FmhaFwdKernel
               hdim_q{hdim_q_},
               hdim_v{hdim_v_},
               nhead_ratio_qk{nhead_ratio_qk_},
+#if CK_FMHA_FWD_FAST_EXP2
+              scale{static_cast<float>(scale_ * C_LOG2E)},
+#else
               scale{scale_},
+#endif
               stride_q{stride_q_},
               stride_k{stride_k_},
               stride_v{stride_v_},
@@ -100,8 +104,10 @@ struct FmhaFwdKernel
         ck::index_t seqlen_k;
         ck::index_t hdim_q;
         ck::index_t hdim_v;
-        ck::index_t nhead_ratio_qk;
 
+        // for MQA/GQA, nhead could be different. This parameter is nhead_q / nhead_k
+        // if this param is larger than 1, indicate MQA/GQA case
+        ck::index_t nhead_ratio_qk;
         float scale;
 
         ck::index_t stride_q;
@@ -128,7 +134,7 @@ struct FmhaFwdKernel
     };
 
     struct BatchModeKargs : CommonKargs,
-                            std::conditional_t<kSupportsBias, BatchModeBiasKargs, EmptyKargs>
+                            std::conditional_t<kHasBias, BatchModeBiasKargs, EmptyKargs>
     {
         __host__ constexpr BatchModeKargs(const void* q_ptr_,
                                           const void* k_ptr_,
@@ -183,8 +189,7 @@ struct FmhaFwdKernel
         ck::index_t batch_stride_o;
     };
 
-    struct GroupModeKargs : CommonKargs,
-                            std::conditional_t<kSupportsBias, CommonBiasKargs, EmptyKargs>
+    struct GroupModeKargs : CommonKargs, std::conditional_t<kHasBias, CommonBiasKargs, EmptyKargs>
     {
         __host__ constexpr GroupModeKargs(const void* q_ptr_,
                                           const void* k_ptr_,
@@ -237,10 +242,11 @@ struct FmhaFwdKernel
     public:
     using Kargs = std::conditional_t<kIsGroupMode, GroupModeKargs, BatchModeKargs>;
 
-    template <bool Cond = !kIsGroupMode && !kSupportsBias>
+    template <bool Cond = !kIsGroupMode>
     __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
                                                                       const void* k_ptr,
                                                                       const void* v_ptr,
+                                                                      const void* bias_ptr,
                                                                       void* o_ptr,
                                                                       ck::index_t seqlen_q,
                                                                       ck::index_t seqlen_k,
@@ -251,49 +257,18 @@ struct FmhaFwdKernel
                                                                       ck::index_t stride_q,
                                                                       ck::index_t stride_k,
                                                                       ck::index_t stride_v,
+                                                                      ck::index_t stride_bias,
                                                                       ck::index_t stride_o,
                                                                       ck::index_t nhead_stride_q,
                                                                       ck::index_t nhead_stride_k,
                                                                       ck::index_t nhead_stride_v,
+                                                                      ck::index_t nhead_stride_bias,
                                                                       ck::index_t nhead_stride_o,
                                                                       ck::index_t batch_stride_q,
                                                                       ck::index_t batch_stride_k,
                                                                       ck::index_t batch_stride_v,
+                                                                      ck::index_t batch_stride_bias,
                                                                       ck::index_t batch_stride_o)
-    {
-        return Kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
-                     seqlen_k,       hdim_q,         hdim_v,         nhead_ratio_qk, scale,
-                     stride_q,       stride_k,       stride_v,       stride_o,       nhead_stride_q,
-                     nhead_stride_k, nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k,
-                     batch_stride_v, batch_stride_o};
-    }
-
-    template <bool Cond = !kIsGroupMode && kSupportsBias>
-    __host__ static constexpr std::enable_if_t<Cond, Kargs>
-    MakeKargs(const void* q_ptr,
-              const void* k_ptr,
-              const void* v_ptr,
-              void* o_ptr,
-              ck::index_t seqlen_q,
-              ck::index_t seqlen_k,
-              ck::index_t hdim_q,
-              ck::index_t hdim_v,
-              ck::index_t nhead_ratio_qk,
-              float scale,
-              ck::index_t stride_q,
-              ck::index_t stride_k,
-              ck::index_t stride_v,
-              ck::index_t stride_o,
-              ck::index_t nhead_stride_q,
-              ck::index_t nhead_stride_k,
-              ck::index_t nhead_stride_v,
-              ck::index_t nhead_stride_o,
-              ck::index_t batch_stride_q,
-              ck::index_t batch_stride_k,
-              ck::index_t batch_stride_v,
-              ck::index_t batch_stride_o,
-              std::optional<std::tuple<const void*, ck::index_t, ck::index_t, ck::index_t>> bias =
-                  std::nullopt)
     {
         Kargs kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
                     seqlen_k,       hdim_q,         hdim_v,         nhead_ratio_qk, scale,
@@ -301,21 +276,22 @@ struct FmhaFwdKernel
                     nhead_stride_k, nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k,
                     batch_stride_v, batch_stride_o};
 
-        if(bias.has_value())
+        if constexpr(kHasBias)
         {
-            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(std::get<0>(*bias));
-            kargs.stride_bias       = std::get<1>(*bias);
-            kargs.nhead_stride_bias = std::get<2>(*bias);
-            kargs.batch_stride_bias = std::get<3>(*bias);
+            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(bias_ptr);
+            kargs.stride_bias       = stride_bias;
+            kargs.nhead_stride_bias = nhead_stride_bias;
+            kargs.batch_stride_bias = batch_stride_bias;
         }
 
         return kargs;
     }
 
-    template <bool Cond = kIsGroupMode && !kSupportsBias>
+    template <bool Cond = kIsGroupMode>
     __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
                                                                       const void* k_ptr,
                                                                       const void* v_ptr,
+                                                                      const void* bias_ptr,
                                                                       void* o_ptr,
                                                                       const void* seqstart_q_ptr,
                                                                       const void* seqstart_k_ptr,
@@ -327,55 +303,13 @@ struct FmhaFwdKernel
                                                                       ck::index_t stride_q,
                                                                       ck::index_t stride_k,
                                                                       ck::index_t stride_v,
+                                                                      ck::index_t stride_bias,
                                                                       ck::index_t stride_o,
                                                                       ck::index_t nhead_stride_q,
                                                                       ck::index_t nhead_stride_k,
                                                                       ck::index_t nhead_stride_v,
+                                                                      ck::index_t nhead_stride_bias,
                                                                       ck::index_t nhead_stride_o)
-    {
-        return Kargs{q_ptr,
-                     k_ptr,
-                     v_ptr,
-                     o_ptr,
-                     seqstart_q_ptr,
-                     seqstart_k_ptr,
-                     seqlen_k_ptr,
-                     hdim_q,
-                     hdim_v,
-                     nhead_ratio_qk,
-                     scale,
-                     stride_q,
-                     stride_k,
-                     stride_v,
-                     stride_o,
-                     nhead_stride_q,
-                     nhead_stride_k,
-                     nhead_stride_v,
-                     nhead_stride_o};
-    }
-
-    template <bool Cond = kIsGroupMode&& kSupportsBias>
-    __host__ static constexpr std::enable_if_t<Cond, Kargs>
-    MakeKargs(const void* q_ptr,
-              const void* k_ptr,
-              const void* v_ptr,
-              void* o_ptr,
-              const void* seqstart_q_ptr,
-              const void* seqstart_k_ptr,
-              const void* seqlen_k_ptr,
-              ck::index_t hdim_q,
-              ck::index_t hdim_v,
-              ck::index_t nhead_ratio_qk,
-              float scale,
-              ck::index_t stride_q,
-              ck::index_t stride_k,
-              ck::index_t stride_v,
-              ck::index_t stride_o,
-              ck::index_t nhead_stride_q,
-              ck::index_t nhead_stride_k,
-              ck::index_t nhead_stride_v,
-              ck::index_t nhead_stride_o,
-              std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias = std::nullopt)
     {
         Kargs kargs{q_ptr,
                     k_ptr,
@@ -397,11 +331,11 @@ struct FmhaFwdKernel
                     nhead_stride_v,
                     nhead_stride_o};
 
-        if(bias.has_value())
+        if constexpr(kHasBias)
         {
-            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(std::get<0>(*bias));
-            kargs.stride_bias       = std::get<1>(*bias);
-            kargs.nhead_stride_bias = std::get<2>(*bias);
+            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(bias_ptr);
+            kargs.stride_bias       = stride_bias;
+            kargs.nhead_stride_bias = nhead_stride_bias;
         }
 
         return kargs;
@@ -447,9 +381,8 @@ struct FmhaFwdKernel
         if constexpr(kIsGroupMode)
         {
             // get starting offset for each batch
-            const long_index_t query_start =
-                static_cast<long_index_t>(kargs.seqstart_q_ptr[i_batch]);
-            const long_index_t key_start = static_cast<long_index_t>(kargs.seqstart_k_ptr[i_batch]);
+            const long_index_t query_start = kargs.seqstart_q_ptr[i_batch];
+            const long_index_t key_start   = kargs.seqstart_k_ptr[i_batch];
 
             batch_offset_q = query_start * kargs.stride_q;
             batch_offset_k = key_start * kargs.stride_k;
@@ -461,7 +394,7 @@ struct FmhaFwdKernel
             {
                 batch_offset_v = key_start;
             }
-            if constexpr(kSupportsBias)
+            if constexpr(kHasBias)
             {
                 batch_offset_bias = query_start * kargs.stride_bias + key_start;
             }
@@ -475,6 +408,13 @@ struct FmhaFwdKernel
             const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
             kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
 
+            // # of required blocks is different in each groups, terminate unnecessary blocks
+            // earlier
+            if(kargs.seqlen_q <= i_m0)
+            {
+                return;
+            }
+
             if(kargs.seqlen_k_ptr != nullptr)
             {
                 kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
@@ -484,16 +424,13 @@ struct FmhaFwdKernel
                 const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
                 kargs.seqlen_k = adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
             }
-
-            if(i_m0 >= kargs.seqlen_q)
-                return;
         }
         else
         {
             batch_offset_q = static_cast<long_index_t>(i_batch) * kargs.batch_stride_q;
             batch_offset_k = static_cast<long_index_t>(i_batch) * kargs.batch_stride_k;
             batch_offset_v = static_cast<long_index_t>(i_batch) * kargs.batch_stride_v;
-            if constexpr(kSupportsBias)
+            if constexpr(kHasBias)
             {
                 batch_offset_bias = static_cast<long_index_t>(i_batch) * kargs.batch_stride_bias;
             }
@@ -635,39 +572,29 @@ struct FmhaFwdKernel
             constexpr auto bias_dram_window_lengths =
                 make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
 
-            if constexpr(kSupportsBias)
+            if constexpr(kHasBias)
             {
-                if(kargs.bias_ptr != nullptr)
-                {
-                    const BiasDataType* bias_ptr =
-                        kargs.bias_ptr + i_nhead_ * kargs.nhead_stride_bias + batch_offset_bias;
-
-                    const auto bias_dram = [&]() {
-                        const auto bias_dram_naive =
-                            make_naive_tensor_view<AddressSpaceEnum::Global>(
-                                bias_ptr,
-                                make_tuple(kargs.seqlen_q, kargs.seqlen_k),
-                                make_tuple(kargs.stride_bias, 1),
-                                Number<32>{},
-                                Number<1>{});
-
-                        return pad_tensor_view(bias_dram_naive,
-                                               bias_dram_window_lengths,
-                                               Sequence<kM0NeedPadding, kN0K1NeedPadding>{});
-                    }();
-
-                    const auto bias_dram_window =
-                        make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
-
-                    return run_pipeline_with(bias_dram_window);
-                }
-                else
-                {
-                    const auto dummy_bias_dram_window =
-                        make_null_tile_window(bias_dram_window_lengths);
-
-                    return run_pipeline_with(dummy_bias_dram_window);
-                }
+                const BiasDataType* bias_ptr =
+                    kargs.bias_ptr + static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_bias +
+                    batch_offset_bias;
+
+                const auto bias_dram = [&]() {
+                    const auto bias_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
+                        bias_ptr,
+                        make_tuple(kargs.seqlen_q, kargs.seqlen_k),
+                        make_tuple(kargs.stride_bias, 1),
+                        Number<32>{},
+                        Number<1>{});
+
+                    return pad_tensor_view(bias_dram_naive,
+                                           bias_dram_window_lengths,
+                                           Sequence<kM0NeedPadding, kN0K1NeedPadding>{});
+                }();
+
+                const auto bias_dram_window =
+                    make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
+
+                return run_pipeline_with(bias_dram_window);
             }
             else
             {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
index 7a3ab882ff..ee385408cd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
@@ -29,8 +29,8 @@ struct FmhaFwdTilePartitioner
         // TODO: this may need tuning
         return dim3(ck::math::integer_divide_ceil(seqlen_q_, kM0) *
                         ck::math::integer_divide_ceil(hdim_v_, kN1),
-                    batch_size_,
-                    nhead_);
+                    nhead_,
+                    batch_size_);
     }
 
     __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v)
@@ -41,8 +41,8 @@ struct FmhaFwdTilePartitioner
         const index_t num_tile_n1 = hdim_v / kN1;
 
         const index_t i_block = blockIdx.x;
-        const index_t i_batch = blockIdx.y;
-        const index_t i_nhead = blockIdx.z;
+        const index_t i_nhead = blockIdx.y;
+        const index_t i_batch = blockIdx.z;
 
         const auto f = [](index_t dividend, index_t divisor) {
             index_t quotient = dividend / divisor;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index abd0b9fc60..20bc131304 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -128,67 +128,35 @@ struct grouped_infer_masktype_attnbias_dispatched
     static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream)
     {
         const auto kargs = [&] {
-            if constexpr(FmhaKernel::kSupportsBias)
-            {
-                std::optional<std::tuple<const void*, ck::index_t, ck::index_t>> bias;
-
-                bias = std::make_tuple(
-                    param.attn_bias_ptr, param.attn_bias_strides[2], param.attn_bias_strides[1]);
-
-                return FmhaKernel::MakeKargs(
-                    param.q_ptr,
-                    param.k_ptr,
-                    param.v_ptr,
-                    param.out_ptr,
-                    param.seqstart_q_dev_ptr,
-                    param.seqstart_k_dev_ptr,
-                    param.seqlen_k_dev_ptr,
-                    param.K,              // hdim_q
-                    param.Kv,             // hdim_v
-                    param.Hq / param.Hkv, // nhead_ratio_qk
-                    param.scale,
-                    param.q_strides[0], // q, k, v, out tensor seq-dim stride
-                    param.k_strides[0],
-                    param.v_strides[0],
-                    param.out_strides[0],
-                    param.q_strides[1], // q, k, v, out tensor head-dim stride
-                    param.k_strides[1],
-                    param.v_strides[1],
-                    param.out_strides[1],
-                    bias);
-            }
-            else
-            {
-                return FmhaKernel::MakeKargs(
-                    param.q_ptr,
-                    param.k_ptr,
-                    param.v_ptr,
-                    param.out_ptr,
-                    param.seqstart_q_dev_ptr,
-                    param.seqstart_k_dev_ptr,
-                    param.seqlen_k_dev_ptr,
-                    param.K,              // hdim_q
-                    param.Kv,             // hdim_v
-                    param.Hq / param.Hkv, // nhead_ratio_qk
-                    param.scale,
-                    param.q_strides[0], // q, k, v, out tensor seq-dim stride
-                    param.k_strides[0],
-                    param.v_strides[0],
-                    param.out_strides[0],
-                    param.q_strides[1], // q, k, v, out tensor head-dim stride
-                    param.k_strides[1],
-                    param.v_strides[1],
-                    param.out_strides[1]);
-            };
+            return FmhaKernel::MakeKargs(
+                param.q_ptr,
+                param.k_ptr,
+                param.v_ptr,
+                param.attn_bias_ptr,
+                param.out_ptr,
+                param.seqstart_q_dev_ptr,
+                param.seqstart_k_dev_ptr,
+                param.seqlen_k_dev_ptr,
+                param.K,              // hdim_q
+                param.Kv,             // hdim_v
+                param.Hq / param.Hkv, // nhead_ratio_qk
+                param.scale,
+                param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+                param.k_strides[0],
+                param.v_strides[0],
+                param.attn_bias_strides[2],
+                param.out_strides[0],
+                param.q_strides[1], // q, k, v, bias, out tensor head-dim stride
+                param.k_strides[1],
+                param.v_strides[1],
+                param.attn_bias_strides[1],
+                param.out_strides[1]);
         }();
 
         dim3 kGridSize =
             FmhaKernel::GridSize(param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
-        constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-
-        constexpr ck::index_t kWarpPerCu    = 8; // 2 warps per SIMD
-        constexpr ck::index_t kWarpPerBlock = kBlockSize.x / warpSize;
-        constexpr ck::index_t kBlockPerCu   = kWarpPerCu / kWarpPerBlock;
+        constexpr dim3 kBlockSize         = FmhaKernel::BlockSize();
+        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
 
         (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
             StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);

From 959ae7f71c9d29b1aa18d3ddd8a1d99dad92c4cd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 8 Dec 2023 22:08:50 +0000
Subject: [PATCH 288/837] Tiny fix in
 benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py

---
 xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
index ee3326a228..9984644bb2 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
@@ -221,7 +221,7 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
         torch.float: "f32",
     }[dtype]
     sub_label = (
-        f"{dtype_str} {B}-{M}-{Hq}-{Hkv}-{K}, p={dropout_p}, "
+        f"{dtype_str} {B}-{M}-{N}-{Hq}-{Hkv}-{K}, p={dropout_p}, "
         f"BiasT={attn_bias_type.__name__}"
     )
 

From cc2f487d64c35936e18cfa4234a016c81a376ed7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 15:26:08 +0000
Subject: [PATCH 289/837] Synchronize with latest update in
 composable_kernel_tiled and make all unit_tests passed

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index e36287d5dd..60795e0c1a 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit e36287d5dd83b01cec46c915e4fea9fc3d1c484f
+Subproject commit 60795e0c1a9f08a9b1d479dda69faa9034b863ae

From 2162b45ae34b60f5bb305bfa9148fbe34d7302b3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 16:26:30 +0000
Subject: [PATCH 290/837] Swith to new branch for composable_kernel_tiled
 submodule

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index bf26780538..0e8e306fed 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -11,4 +11,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/asroy/ck_tile
-        branch = feature/fmha-pad-support
+        branch = fmha_attemp_async_copy_unify 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 60795e0c1a..c1814f90e2 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 60795e0c1a9f08a9b1d479dda69faa9034b863ae
+Subproject commit c1814f90e2dd5b0659c6e1ed577fb1bba596c126

From d6cf5451dd5c387750fc8d58ac1c41c08f0fdb02 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 16:27:15 +0000
Subject: [PATCH 291/837] Add bfp16 instances for ck-tiled inference

---
 .../attention_forward_generic_ck_tiled.cpp    | 12 ++---
 .../ck_tiled_fmha_batched_infer_bp16.cpp      | 53 +++++++++++++++++++
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      | 53 +++++++++++++++++++
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp | 13 +++++
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp | 13 +++++
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp | 13 +++++
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp | 13 +++++
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp | 13 +++++
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp | 13 +++++
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp | 13 +++++
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp | 13 +++++
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp | 13 +++++
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp | 13 +++++
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp | 13 +++++
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp | 13 +++++
 15 files changed, 266 insertions(+), 8 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 922f829090..dbaecf40fa 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -37,11 +37,9 @@ extern void grouped_forward_bp16(
 */
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
-// extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t
-// stream);
+extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
 extern void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream);
-// extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t
-// stream);
+extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream);
 
 namespace {
 
@@ -380,8 +378,7 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
             }
             else if(inDataType == at::ScalarType::BFloat16)
             {
-                // batched_infer_bp16(batched_forward_params, stream);
-                throw std::runtime_error("input data-type is not supported!");
+                batched_infer_bp16(batched_forward_params, stream);
             }
             else
                 throw std::runtime_error("input data-type is not supported!");
@@ -414,8 +411,7 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
             }
             else if(inDataType == at::ScalarType::BFloat16)
             {
-                // grouped_infer_bp16(grouped_forward_params, stream);
-                throw std::runtime_error("input data-type is not supported!");
+                grouped_infer_bp16(grouped_forward_params, stream);
             }
             else
                 throw std::runtime_error("input data-type is not supported!");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
new file mode 100644
index 0000000000..c45f4ba004
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -0,0 +1,53 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_bool_switch.h"
+#include "ck_tiled_fmha_batched_infer.h"
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
+                                                                      hipStream_t stream);
+
+void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 1)
+            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 2)
+            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
new file mode 100644
index 0000000000..b0c3318af1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -0,0 +1,53 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_bool_switch.h"
+#include "ck_tiled_fmha_grouped_infer.h"
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
+
+extern template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
+                                                                      hipStream_t stream);
+
+void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        if(param.custom_mask_type == 0)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 1)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else if(param.custom_mask_type == 2)
+            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
+                                                                                          stream);
+        else
+            throw std::runtime_error("Invalid custom_mask_type value");
+    });
+};
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..23c8375db8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..893cf803af
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..ce1adafad0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..e45b01c1cc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..3bf55fe50a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..861f63d352
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void
+run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
new file mode 100644
index 0000000000..a5e5e5aa40
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
new file mode 100644
index 0000000000..d2a0f9f30e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
new file mode 100644
index 0000000000..176ff416d8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
new file mode 100644
index 0000000000..9f9dd97f17
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
new file mode 100644
index 0000000000..dc213019ff
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
+                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
new file mode 100644
index 0000000000..a63206d4eb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
@@ -0,0 +1,13 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void
+run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
+                                                                    hipStream_t stream);

From 5cfda98528131fe0d33f527d614651982c595b93 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 16:39:23 +0000
Subject: [PATCH 292/837] Update to test and benchmark scripts to include
 bfloat16

---
 tests/test_forward_ck_tiled.py                            | 8 +-------
 .../benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py | 2 +-
 2 files changed, 2 insertions(+), 8 deletions(-)

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index 6a7512f22b..e2d6abc6fd 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -608,9 +608,6 @@ def test_forward(
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if dtype is torch.bfloat16:
-        pytest.skip("bfloat16 is currently not supported by ck-tiled!")
-
     if not (k == kv and (kv == 64 or kv == 128)):
         pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
 
@@ -678,7 +675,7 @@ def test_forward(
 @pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
 @pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
 @pytest.mark.parametrize("batches", [100, 64, 1])
-@pytest.mark.parametrize("dtype", [torch.float16])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
 @pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
 @pytest.mark.parametrize("op", [fmha.ck.FwOp])
 def test_mqa_forward(
@@ -705,9 +702,6 @@ def test_mqa_forward(
 
     device = torch.device("cuda")
 
-    if dtype is torch.bfloat16:
-        pytest.skip("bfloat16 is currently not supported by ck-tiled!")
-
     if not (K == Kv and (Kv == 64 or Kv == 128)):
         pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
 
diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
index 9984644bb2..d2e57b8497 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
@@ -168,7 +168,7 @@ def product_dict(**kwargs):
         num_threads=NUM_THREADS,
         dropout_p=[0.0],
         attn_bias_cfg=[(type(None), False)],
-        dtype=[torch.half],
+        dtype=[torch.half, torch.bfloat16],
     )
 )
 

From ab605478530ee9a6780960ab6c556eb6b2df7994 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 16:57:58 +0000
Subject: [PATCH 293/837] Tiny update to ck_tiled kernel

---
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 42 ++++++++-----------
 1 file changed, 18 insertions(+), 24 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 288629a798..a36f3cb1c3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -18,7 +18,9 @@
 // P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
 // O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
 
+#ifndef C_LOG2E
 #define C_LOG2E 1.44269504088896340736 // log2(e)
+#endif
 
 template <typename TilePartitioner_, typename FmhaPipeline_, typename EpiloguePipeline_>
 struct FmhaFwdKernel
@@ -550,28 +552,12 @@ struct FmhaFwdKernel
             make_tile_window(v_dram,
                              make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
                              {i_n1, 0});
-
-        const auto run_pipeline_with = [&](auto bias_dram_window) {
-            C0MatrixMask casual_mask{kargs.seqlen_q, kargs.seqlen_k};
-
-            return FmhaPipeline{}(q_dram_window,
-                                  k_dram_window,
-                                  v_dram_window,
-                                  bias_dram_window,
-                                  casual_mask,
-                                  kargs.scale,
-                                  ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
-                                  ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
-                                  smem_ptr);
-        };
-
         /// FIXME: Before C++20, capturing structured binding variables is not supported. Remove
         /// following copy capture of the 'i_nhead'
         ///        if compiled in C++20
-        auto o_acc_tile = [&, i_nhead_ = i_nhead]() {
+        const auto bias_dram_window = [&, i_nhead_ = i_nhead]() {
             constexpr auto bias_dram_window_lengths =
                 make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
-
             if constexpr(kHasBias)
             {
                 const BiasDataType* bias_ptr =
@@ -591,19 +577,27 @@ struct FmhaFwdKernel
                                            Sequence<kM0NeedPadding, kN0K1NeedPadding>{});
                 }();
 
-                const auto bias_dram_window =
-                    make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
-
-                return run_pipeline_with(bias_dram_window);
+                return make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
             }
             else
             {
-                const auto dummy_bias_dram_window = make_null_tile_window(bias_dram_window_lengths);
-
-                return run_pipeline_with(dummy_bias_dram_window);
+                return make_null_tile_window(bias_dram_window_lengths);
             }
         }();
 
+        C0MatrixMask casual_mask{kargs.seqlen_q, kargs.seqlen_k};
+
+        auto o_acc_tile =
+            FmhaPipeline{}(q_dram_window,
+                           k_dram_window,
+                           v_dram_window,
+                           bias_dram_window,
+                           casual_mask,
+                           kargs.scale,
+                           ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
+                           ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
+                           smem_ptr);
+
         // O DRAM and O DRAM window
         auto o_dram = [&]() {
             const auto o_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(

From a2af789e85642812f4f342d28bc75fd1746e20e5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 17:21:21 +0000
Subject: [PATCH 294/837] Change to benchmark_mem_eff_attn_mqa_gqa_ck_tiled
 benchmark cases

---
 .../benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py   | 16 ++++++++--------
 1 file changed, 8 insertions(+), 8 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
index d2e57b8497..69b092788c 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
@@ -131,15 +131,15 @@ def T(t):
 
 NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
 SHAPES = [
-    (1, 512, 8192, 64, 8, 128),
-    (1, 1024, 8192, 64, 8, 128),
-    (1, 2048, 8192, 64, 8, 128),
-    (1, 4096, 8192, 64, 8, 128),
+    (1, 512, 512, 64, 8, 128),
+    (1, 1024, 1024, 64, 8, 128),
+    (1, 2048, 2048, 64, 8, 128),
+    (1, 4096, 4096, 64, 8, 128),
     (1, 8192, 8192, 64, 8, 128),
-    (1, 16384, 8192, 64, 8, 128),
-    (1, 1024, 8192, 64, 8, 64),
-    (1, 1024, 8192, 8, 1, 64),
-    (1, 1024, 8192, 4, 4, 64),
+    (1, 16384, 16384, 64, 8, 128),
+    (1, 1024, 1024, 64, 8, 64),
+    (1, 1024, 1024, 8, 1, 64),
+    (1, 1024, 1024, 4, 4, 64),
     ##*sorted(itertools.product([1, 2], [2048, 4096], [2048, 4096], [4, 8], [1, 2], [128])),
     ##*sorted(
     ##    itertools.product([16], [128, 512], [512, 1024], [16], [2, 4], [64, 128])

From d957dd98a220c1a999eb135286896e1a59349c6a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 11 Dec 2023 14:03:08 -0500
Subject: [PATCH 295/837] stash changes

---
 tests/test_mem_eff_attention_ck.py            |  4 +++
 .../hip_fmha/attention_decoder_splitk.cpp     |  8 ------
 .../ck_attention_forward_decoder_splitk.h     | 26 +++++++++----------
 3 files changed, 16 insertions(+), 22 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 073adcc4d1..3f17eebf8b 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1807,6 +1807,10 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
 @pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
 @pytest.mark.parametrize("padding", [32, 4096])
 @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
+# @pytest.mark.parametrize("dtype", ["f16"])
+# @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+# @pytest.mark.parametrize("n_heads", [16])
+# @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
 def test_decoder(
     op,
     n_heads: int,
diff --git a/xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp
deleted file mode 100644
index e535ddb7e9..0000000000
--- a/xformers/csrc/attention/hip_fmha/attention_decoder_splitk.cpp
+++ /dev/null
@@ -1,8 +0,0 @@
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <c10/cuda/CUDAStream.h>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/inner_product.hpp>
-#include <torch/library.h>
-
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index a76aacfa1a..29f330b291 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -111,16 +111,16 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
   const compute_t* __restrict__ split_max,
   const compute_t* __restrict__ split_sumexp,
   scalar_t* __restrict__ O,
-  int32_t Q_size_m,
-  int32_t Q_size_g,
-  int32_t Q_size_h,
-  int32_t Q_size_k,
-  ptrdiff_t O_stride_split,
-  ptrdiff_t O_stride_b,
-  ptrdiff_t O_stride_m,
-  ptrdiff_t O_stride_g,
-  ptrdiff_t O_stride_h,
-  int32_t split_k
+  const int32_t Q_size_m,
+  const int32_t Q_size_g,
+  const int32_t Q_size_h,
+  const int32_t Q_size_k,
+  const ptrdiff_t O_stride_split,
+  const ptrdiff_t O_stride_b,
+  const ptrdiff_t O_stride_m,
+  const ptrdiff_t O_stride_g,
+  const ptrdiff_t O_stride_h,
+  const int32_t split_k
 ) {
   
   // Each block handles a single batch and head and query and group
@@ -444,12 +444,10 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
   if (wavefront_idx == 0 && lane_idx == 0) {
     split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
   }
-  // or maybe after scaling?
   
-  // const compute_t softmax_scale_factor = 1. / softmax_denominator;
   // now, compute the normalization across all threads.
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    // smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) { 
+    // softmax scale by sumexp will happen in the reduction kernel
     smem[t] = ck::math::exp(smem[t] - max_qk_acc);
   }
   __syncthreads();

From 40aa88435a10f95de8ff4a055433967281686151 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 22:53:00 +0000
Subject: [PATCH 296/837] Use Async pipeline for no M/N0K1 padding cases

---
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 193e0989f4..9ad19cb6f2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -21,6 +21,7 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs_default_policy.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
@@ -115,7 +116,7 @@ struct batched_infer_masktype_attnbias_dispatched
                 using FmhaTraits = ck::tile_program::TileFmhaTraits<false, false, has_attn_bias>;
                 using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
                 using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
                 using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
                 RunWithKernel<FmhaKernel>(param, stream);

From 73e97d8f5d4f4c2853be081916db7e864cc1b552 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Dec 2023 23:32:24 +0000
Subject: [PATCH 297/837] Add CF_FMHA_FWD_FAST_EXP2 to buiding

---
 setup.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/setup.py b/setup.py
index 9f21987ad9..673e760a51 100644
--- a/setup.py
+++ b/setup.py
@@ -336,6 +336,8 @@ def get_extensions():
                     f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'native')}",
                     "-U__CUDA_NO_HALF_OPERATORS__",
                     "-U__CUDA_NO_HALF_CONVERSIONS__",
+                    "-DCK_FMHA_FWD_FAST_EXP2=1",
+                    "-fgpu-flush-denormals-to-zero",
                 ]
                 + generator_flag
                 + cc_flag

From b0c7023c0ad46e8c26f714163961d7dc7713130c Mon Sep 17 00:00:00 2001
From: Grigory Sizov <grigorysizov@fb.com>
Date: Tue, 12 Dec 2023 06:16:39 -0800
Subject: [PATCH 298/837] Add Triton FA2 forward op

---
 xformers/ops/fmha/__init__.py |   5 +-
 xformers/ops/fmha/triton.py   | 695 ++++++++++++++++++++++++++++------
 2 files changed, 573 insertions(+), 127 deletions(-)

diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 9c2733f076..5dd416bd55 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -28,8 +28,8 @@
 MemoryEfficientAttentionTritonFwdFlashBwOp = (triton.FwOp, flash.BwOp)
 MemoryEfficientAttentionFlashAttentionOp = (flash.FwOp, flash.BwOp)
 MemoryEfficientAttentionOp = (small_k.FwOp, small_k.BwOp)
-TritonFlashAttentionOp = (triton.FwOp, triton.BwOp)
-MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp) 
+TritonFlashAttentionOp = (triton.FwOp, cutlass.BwOp if torch.version.cuda else ck.BwOp)
+MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp)
 MemoryEfficientAttentionCkDecoderOp = (ck_decoder.FwOp, ck.BwOp)
 
 class _fMHA(torch.autograd.Function):
@@ -395,7 +395,6 @@ def _memory_efficient_attention_backward(
 ALL_BW_OPS: Sequence[Type[AttentionBwOpBase]] = [
     cutlass.BwOp,
     flash.BwOp,
-    triton.BwOp,
     small_k.BwOp,
 ]
 
diff --git a/xformers/ops/fmha/triton.py b/xformers/ops/fmha/triton.py
index 2d6e2a059a..d575dca277 100644
--- a/xformers/ops/fmha/triton.py
+++ b/xformers/ops/fmha/triton.py
@@ -3,63 +3,432 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
+"""
+Triton Flash Attention 2
+Based on
+https://github.com/openai/triton/blob/293b7fd592a1602f2305c1bd0bc978bbd97337d6/python/tutorials/06-fused-attention.py  # noqa: E501
+https://github.com/openai/triton/blob/293b7fd592a1602f2305c1bd0bc978bbd97337d6/python/triton/ops/flash_attention.py  # noqa: E501
+https://github.com/Dao-AILab/flash-attention/blob/dd9a6fa45a9b90ff954d2b3f3f44241b9216190e/flash_attn/flash_attn_triton.py  # noqa: E501
+https://github.com/ROCmSoftwarePlatform/triton/blob/670ae8054da008424097989a5b6e3816aa601e07/python/perf-kernels/06-fused-attention-transV.py  # noqa: E501
+"""
 
 from dataclasses import replace
-from typing import TYPE_CHECKING, Any, List, Optional, Set, Tuple
+from typing import Any, List, Optional, Set, Tuple
 
 import torch
 
-from ... import _is_triton_available
+import triton
+import triton.language as tl
+
 from ..common import register_operator
 
-# This implementation needs pre-MLIR triton
-# The BW pass is not stable/well tested
-# And also does not have the latest improvements
-if TYPE_CHECKING or (False and _is_triton_available()):
-    try:
-        from flash_attn.flash_attn_triton import (
-            _flash_attn_backward,
-            _flash_attn_forward,
+from .attn_bias import (
+    BlockDiagonalCausalMask,
+    BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    LowerTriangularMask,
+)
+from .common import AttentionFwOpBase, check_lastdim_alignment_stride1, Context, Inputs
+
+
+@triton.jit
+def _fwd_kernel_triton_flash_inner(
+    acc,
+    l_i,
+    m_i,
+    q,
+    K_block_ptr,
+    V_block_ptr,
+    q_seq_start,
+    lo,
+    hi,
+    start_m,
+    qk_scale,
+    kv_len,
+    offs_m,
+    offs_n,
+    BLOCK_M: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    IS_CAUSAL: tl.constexpr,
+    BOUNDS_CHECKS_N: tl.constexpr,
+    CAST_BEFORE_MATMUL: tl.constexpr,
+    ALLOW_TF32: tl.constexpr,
+    STAGE: tl.constexpr,
+    pre_load_v: tl.constexpr,
+):
+    BOUNDS_CHECKS_STAGE: tl.constexpr = BOUNDS_CHECKS_N and STAGE == 2
+    # Doesn't seem to make a difference
+    if STAGE == 1:
+        lo = 0
+    else:
+        lo = tl.multiple_of(lo, BLOCK_N)
+        K_block_ptr = tl.advance(K_block_ptr, (0, lo))
+        V_block_ptr = tl.advance(V_block_ptr, (lo, 0))
+
+    # loop over k, v and update accumulator
+    for start_n in range(lo, hi, BLOCK_N):
+        start_n = tl.multiple_of(start_n, BLOCK_N)  # doesn't seem to make a difference
+        # -- load k, v --
+        k = tl.load(K_block_ptr, boundary_check=(1,) if BOUNDS_CHECKS_STAGE else ())
+        # Moving masking here seems to introduce num errors,
+        # e.g. in test_forward[tritonflashattF-cuda-torch.bfloat16-NoneType-1-256-15-1-32-32-False-BMHK]
+        # if BOUNDS_CHECKS_N or USE_SEQ_LEN:
+        #     k = tl.where(hi - tl.arange(0, BLOCK_N) > start_n, k, float("-inf"))
+        if pre_load_v:
+            v = tl.load(V_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_STAGE else ())
+        # -- compute qk ---
+        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
+        qk += tl.dot(q.to(k.dtype), k, allow_tf32=ALLOW_TF32) * qk_scale
+        if CAST_BEFORE_MATMUL:
+            k = k.to(tl.float32)
+        if STAGE == 2:
+            if IS_CAUSAL:
+                # For some reason this is faster than start_n <= q_seq_start + offs_m[:, None] - offs_n[None, :]
+                qk = tl.where(
+                    q_seq_start + offs_m[:, None] >= (start_n + offs_n[None, :]),
+                    qk,
+                    float("-inf"),
+                )
+            if BOUNDS_CHECKS_N:
+                qk = tl.where(tl.arange(0, BLOCK_N) < hi - start_n, qk, float("-inf"))
+
+        # -- compute scaling constant ---
+        m_i_new = tl.maximum(m_i, tl.max(qk, 1))
+        qk = qk - m_i_new[:, None]
+        alpha = tl.math.exp2(m_i - m_i_new)
+        p = tl.math.exp2(qk)
+
+        # -- scale and update acc --
+        acc *= alpha[:, None]
+        if not pre_load_v:
+            v = tl.load(V_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_STAGE else ())
+        if CAST_BEFORE_MATMUL:
+            v = v.to(tl.float32)
+        acc += tl.dot(p.to(v.dtype), v, allow_tf32=ALLOW_TF32)
+        # -- update m_i and l_i --
+        l_i = l_i * alpha + tl.sum(p, 1)
+        m_i = m_i_new
+        # update pointers
+        K_block_ptr = tl.advance(K_block_ptr, (0, BLOCK_N))
+        V_block_ptr = tl.advance(V_block_ptr, (BLOCK_N, 0))
+    return acc, l_i, m_i
+
+
+@triton.jit
+def _fwd_kernel_triton_flash(
+    Q,
+    K,
+    V,
+    sm_scale,
+    L,
+    Out,
+    Seq_len,
+    Seq_pos_q,
+    stride_qz,
+    stride_qh,
+    stride_qm,
+    stride_qk,
+    stride_kz,
+    stride_kh,
+    stride_kn,
+    stride_kk,
+    stride_vz,
+    stride_vh,
+    stride_vk,
+    stride_vn,
+    stride_oz,
+    stride_oh,
+    stride_om,
+    stride_on,
+    Z,
+    H,
+    N_CTX,
+    Mkv,
+    BLOCK_M: tl.constexpr,
+    BLOCK_DMODEL: tl.constexpr,
+    BLOCK_N: tl.constexpr,
+    IS_CAUSAL: tl.constexpr,
+    BOUNDS_CHECKS_N: tl.constexpr,
+    BOUNDS_CHECKS_M: tl.constexpr,
+    ALLOW_TF32: tl.constexpr,
+    CAST_BEFORE_MATMUL: tl.constexpr,
+    USE_SEQ_LEN_KV: tl.constexpr,
+    USE_SEQ_POS_Q: tl.constexpr,
+    IS_KV_PADDED: tl.constexpr,  # Switch between padded and non-padded block-diagonal causal masks
+    pre_load_v: tl.constexpr,  # TODO: understand if that matters
+):
+    start_m = tl.program_id(0).to(tl.int64)
+    off_hz = tl.program_id(1).to(tl.int64)
+
+    tl.static_assert((IS_KV_PADDED and USE_SEQ_POS_Q) or not IS_KV_PADDED)
+
+    off_z = off_hz // H
+    off_h = off_hz % H
+    if USE_SEQ_POS_Q:
+        seqpos = tl.load(Seq_pos_q + off_z)
+        seqpos_next = tl.load(Seq_pos_q + off_z + 1)
+        q_len = seqpos_next - seqpos
+        q_offset = seqpos * stride_qm + off_h * stride_qh
+        out_offset = seqpos * stride_om + off_h * stride_oh
+        if not IS_KV_PADDED:
+            # BlockDiagonalCausalMask, no padding, use same sequence positions as for Q
+            kv_offset = seqpos * stride_kn + off_h * stride_kh
+            kv_len = q_len
+            q_seq_start = 0
+        else:
+            # BlockDiagonalCausalWithOffsetPaddedKeysMask
+            kv_offset = off_z * stride_kz + off_h * stride_kh
+            if USE_SEQ_LEN_KV:
+                kv_len = tl.load(Seq_len + off_z)
+                q_seq_start = kv_len - q_len
+            else:
+                # if no variable K/V seqlens are provided, assume full length
+                kv_len = Mkv
+                q_seq_start = 0
+    else:
+        # No mask or simple causal mask
+        q_len = N_CTX
+        q_offset = off_z * stride_qz + off_h * stride_qh
+        out_offset = off_z * stride_oz + off_h * stride_oh
+
+        kv_len = Mkv
+        q_seq_start = 0
+        kv_offset = off_z * stride_kz + off_h * stride_kh
+
+    Q_block_ptr = tl.make_block_ptr(
+        base=Q + q_offset,
+        shape=(q_len, BLOCK_DMODEL),
+        strides=(stride_qm, stride_qk),
+        offsets=(start_m * BLOCK_M, 0),
+        block_shape=(BLOCK_M, BLOCK_DMODEL),
+        order=(1, 0),
+    )
+    K_block_ptr = tl.make_block_ptr(
+        base=K + kv_offset,
+        shape=(BLOCK_DMODEL, kv_len),
+        strides=(stride_kk, stride_kn),
+        offsets=(0, 0),
+        block_shape=(BLOCK_DMODEL, BLOCK_N),
+        order=(0, 1),
+    )
+    V_block_ptr = tl.make_block_ptr(
+        base=V + kv_offset,
+        shape=(kv_len, BLOCK_DMODEL),
+        strides=(stride_vk, stride_vn),
+        offsets=(0, 0),
+        block_shape=(BLOCK_N, BLOCK_DMODEL),
+        order=(0, 1),
+    )
+    # initialize offsets
+    offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)  # For Q
+    offs_n = tl.arange(0, BLOCK_N)  # For K/V
+    # initialize pointer to m and l
+    m_i = tl.zeros([BLOCK_M], dtype=tl.float32) - float("inf")
+    l_i = tl.zeros([BLOCK_M], dtype=tl.float32) + 1.0
+    acc = tl.zeros([BLOCK_M, BLOCK_DMODEL], dtype=tl.float32)
+    # scale sm_scale by log_2(e) and use
+    # 2^x instead of exp in the loop because CSE and LICM
+    # don't work as expected with `exp` in the loop
+    qk_scale = sm_scale * 1.44269504
+    # load q: it will stay in SRAM throughout on NV GPUs but in VGPRs on AMD GPUs
+    q = tl.load(
+        Q_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_M or USE_SEQ_POS_Q else ()
+    )
+
+    # The loop over K/V sequence blocks is divided into two stages:
+    # Stage 1: (many) blocks which don't need boundary conditions checks - not touching sequence end or diagonal
+    # Stage 2: (few) blocks which need boundary conditions checks
+    # Following https://github.com/openai/triton/blob/293b7fd592a1602f2305c1bd0bc978bbd97337d6/python/tutorials/06-fused-attention.py  # noqa: E501
+
+    """
+    Iteration doesn't need masking if
+        - 1) block doesn't cross the diagonal: max(kv_pos) <= min(q_pos)
+        - 2) block doesn't cross the end of the sequence: max(kv_pos) < kv_len
+    Find maximum start_n for which condition 1 is satisifed.
+    Remember that
+        q_pos = q_seq_start + offs_m[:, None]
+        kv_pos = start_n + offs_n[None, :]
+        offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
+        offs_n = tl.arange(0, BLOCK_N)
+    min(q_pos) = q_seq_start + start_m * BLOCK_M
+    max(kv_pos) = start_n + BLOCK_N - 1
+    So the condition becomes
+        q_seq_start + start_m * BLOCK_M >= start_n + BLOCK_N - 1
+    So:
+    1) start_n <= q_seq_start + start_m * BLOCK_M - BLOCK_N + 1
+    2) start_n <= kv_len - BLOCK_N
+
+    So the last allowed start_n without masking is min(q_seq_start + start_m * BLOCK_M + 1, kv_len) - BLOCK_N
+    """
+    # Second stage can only be skipped if no mask is used and K/V length is divisible by the tile size
+    TWO_STAGES: tl.constexpr = BOUNDS_CHECKS_N or (
+        IS_CAUSAL or (USE_SEQ_LEN_KV or (USE_SEQ_POS_Q and not IS_KV_PADDED))
+    )
+    if TWO_STAGES:
+        # Border between two stages
+        hi_stage_1 = min(q_seq_start + start_m * BLOCK_M + 1, kv_len) - BLOCK_N
+        hi_stage_1 = (
+            hi_stage_1 // BLOCK_N
+        ) * BLOCK_N  # Don't understand why it doesn't work without this
+    else:
+        hi_stage_1 = kv_len
+
+    # Stage 1 - no boundary conditions
+    acc, l_i, m_i = _fwd_kernel_triton_flash_inner(
+        acc,
+        l_i,
+        m_i,
+        q,
+        K_block_ptr,
+        V_block_ptr,
+        q_seq_start,
+        0,
+        hi_stage_1,
+        start_m,
+        qk_scale,
+        kv_len,
+        offs_m,
+        offs_n,
+        BLOCK_M,
+        BLOCK_N,
+        IS_CAUSAL,
+        BOUNDS_CHECKS_N,
+        CAST_BEFORE_MATMUL,
+        ALLOW_TF32,
+        STAGE=1,
+        pre_load_v=pre_load_v,
+    )
+    if TWO_STAGES:
+        hi = (
+            tl.minimum(kv_len, q_seq_start + (start_m + 1) * BLOCK_M)
+            if IS_CAUSAL
+            else kv_len
         )
-    except ImportError:
-        import importlib
-        import pathlib
-        import sys
-        import types
-
-        def import_module_from_path(path: str) -> types.ModuleType:
-            """Import a module from the given path, w/o __init__.py"""
-            module_path = pathlib.Path(path).resolve()
-            module_name = module_path.stem  # 'path/x.py' -> 'x'
-            spec = importlib.util.spec_from_file_location(module_name, module_path)  # type: ignore
-            assert isinstance(spec, importlib.machinery.ModuleSpec)
-            module = importlib.util.module_from_spec(spec)  # type: ignore
-            sys.modules[module_name] = module
-            assert isinstance(spec.loader, importlib.abc.Loader)
-            spec.loader.exec_module(module)
-            return module
-
-        flash_attn = import_module_from_path(
-            "third_party/flash-attention/flash_attn/flash_attn_triton.py"
+        # Do we need this barrier?
+        # tl.debug_barrier()
+        # Stage 2 - with boundary conditions
+        acc, l_i, m_i = _fwd_kernel_triton_flash_inner(
+            acc,
+            l_i,
+            m_i,
+            q,
+            K_block_ptr,
+            V_block_ptr,
+            q_seq_start,
+            hi_stage_1,
+            hi,
+            start_m,
+            qk_scale,
+            kv_len,
+            offs_m,
+            offs_n,
+            BLOCK_M,
+            BLOCK_N,
+            IS_CAUSAL,
+            BOUNDS_CHECKS_N,
+            CAST_BEFORE_MATMUL,
+            ALLOW_TF32,
+            STAGE=2,
+            pre_load_v=pre_load_v,
         )
-        _flash_attn_backward = flash_attn._flash_attn_backward
-        _flash_attn_forward = flash_attn._flash_attn_forward
-
-    triton_flash_backward = _flash_attn_backward
-    triton_flash_forward = _flash_attn_forward
-else:
-    triton_flash_backward = None
-    triton_flash_forward = None
-
-from .attn_bias import LowerTriangularMask
-from .common import (
-    AttentionBwOpBase,
-    AttentionFwOpBase,
-    Context,
-    Gradients,
-    Inputs,
-    check_lastdim_alignment_stride1,
-)
+
+    # write back l and m
+    acc1 = acc / l_i[:, None]
+    l_ptrs = L + off_hz * N_CTX + offs_m
+    # Save LSE, converting from log2 to natural logarithm
+    l_mask = (
+        start_m * BLOCK_M + tl.arange(0, BLOCK_M) < q_len if BOUNDS_CHECKS_M else None
+    )
+    tl.store(l_ptrs, (m_i + tl.math.log2(l_i)) / 1.44269504, mask=l_mask)
+    # write back O
+    O_block_ptr = tl.make_block_ptr(
+        base=Out + out_offset,
+        shape=(q_len, BLOCK_DMODEL),
+        strides=(stride_om, stride_on),
+        offsets=(start_m * BLOCK_M, 0),
+        block_shape=(BLOCK_M, BLOCK_DMODEL),
+        order=(1, 0),
+    )
+    tl.store(
+        O_block_ptr,
+        acc1.to(Out.dtype.element_ty),
+        boundary_check=(0,) if BOUNDS_CHECKS_M or USE_SEQ_POS_Q else (),
+    )
+
+
+_autotuner_config_amd_full = [
+    triton.Config(
+        {"BLOCK_M": 256, "BLOCK_N": 64, "waves_per_eu": 2, "pre_load_v": False},
+        num_stages=1,
+        num_warps=8,
+    ),
+    triton.Config(
+        {"BLOCK_M": 128, "BLOCK_N": 128, "waves_per_eu": 2, "pre_load_v": False},
+        num_stages=1,
+        num_warps=4,
+    ),
+    triton.Config(
+        {"BLOCK_M": 256, "BLOCK_N": 128, "waves_per_eu": 2, "pre_load_v": False},
+        num_stages=1,
+        num_warps=8,
+    ),
+    triton.Config(
+        {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "pre_load_v": True},
+        num_stages=1,
+        num_warps=4,
+    ),  # d64-False
+    triton.Config(
+        {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "pre_load_v": False},
+        num_stages=1,
+        num_warps=4,
+    ),  # d64-True
+]
+
+
+_autotuner_config_amd_dummy = [
+    triton.Config(
+        {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 2, "pre_load_v": False},
+        num_stages=1,
+        num_warps=8,
+    ),
+]
+
+_autotuner_config_nvidia_dummy = [
+    triton.Config(
+        {"BLOCK_M": 128, "BLOCK_N": 64, "pre_load_v": False},
+        num_stages=1,
+        num_warps=8,
+    ),
+]
+
+
+def autotune_kernel(kernel, autotune):
+
+    kernel = triton.heuristics(
+        values={
+            "BOUNDS_CHECKS_N": lambda args: ((args["Mkv"] % args["BLOCK_N"]) != 0)
+            or (args["USE_SEQ_POS_Q"] and not args["IS_KV_PADDED"]),
+            "BOUNDS_CHECKS_M": lambda args: (args["N_CTX"] % args["BLOCK_M"]) != 0,
+        }
+    )(kernel)
+
+    if torch.version.cuda:
+        configs = _autotuner_config_nvidia_dummy
+    elif autotune:
+        configs = _autotuner_config_amd_full
+    else:
+        configs = _autotuner_config_amd_dummy
+
+    kernel = triton.autotune(
+        configs=configs,
+        key=["Z", "H", "N_CTX", "IS_CAUSAL", "BLOCK_DMODEL"],
+    )(kernel)
+    return kernel
+
+
+_fwd_kernel_triton_flash_maybe_autotuned = {
+    True: autotune_kernel(_fwd_kernel_triton_flash, True),
+    False: autotune_kernel(_fwd_kernel_triton_flash, False),
+}
 
 
 def _prepare_inputs(inp: Inputs) -> Inputs:
@@ -85,7 +454,7 @@ class FwOp(AttentionFwOpBase):
         `Phil Tillet's code <https://github.com/openai/triton/blob/master/python/tutorials/06-fused-attention.py>`_
     """
 
-    OPERATOR = triton_flash_forward
+    OPERATOR = _fwd_kernel_triton_flash
     SUPPORTED_DEVICES = {"cuda"}
     CUDA_MINIMUM_COMPUTE_CAPABILITY = (8, 0)
     SUPPORTED_DTYPES = {torch.half, torch.bfloat16}
@@ -93,33 +462,88 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
         type(None),
         LowerTriangularMask,
-        # TODO: backwards accuracy is failing for a few cases, perhaps we want to disable this for now.
-        # torch.Tensor,
+        BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
     }
     SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
     NAME = "tritonflashattF"
 
+    # Off by default to avoid slowing down tests.
+    # Needs to be turned on explicitly in benchmarks, in prod, and in a small number of tests
+    AUTOTUNE = False
+
+    ERROR_ATOL: Mapping[torch.dtype, float] = {
+        torch.half: 2e-2,
+        torch.bfloat16: 2e-2,
+    }
+
+    ERROR_RTOL: Mapping[torch.dtype, float] = {
+        torch.half: 2e-2,
+        torch.bfloat16: 2e-2,
+    }
+
+    @classmethod
+    def shape_not_supported_reasons(
+        cls, Mq: int, Mkv: int, K: int, Kv: int
+    ) -> List[str]:
+        reasons = super().shape_not_supported_reasons(Mq, Mkv, K, Kv)
+        if K not in {32, 64, 128}:
+            reasons.append(f"Embed dim {K} not supported")
+        return reasons
+
     @classmethod
     def not_supported_reasons(cls, d: Inputs) -> List[str]:
         reasons = super(FwOp, cls).not_supported_reasons(d)
         check_lastdim_alignment_stride1(reasons, "query", d.query, 8)
         check_lastdim_alignment_stride1(reasons, "key", d.key, 8)
         check_lastdim_alignment_stride1(reasons, "value", d.value, 8)
-        if cls.OPERATOR is None:
-            reasons.append("triton is not available")
-        if d.device.type == "cuda":
+
+        if isinstance(
+            d.attn_bias,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ):
+            # Support padded causal block-diagonal mask if the distance between each two consecutive key starts
+            # is equal to the padding (key lengths can vary)
+            batch_size = len(d.attn_bias.q_seqinfo.seqstart_py) - 1
+            B_T = d.key.shape[
+                1
+            ]  # For these mask types the shapes of Q/K/V are (1, B_T, H, K)
+            if B_T % batch_size:
+                reasons.append(
+                    f"K/V should be padded, but batch size {batch_size} doesn't divide B*T={B_T}"
+                )
+            else:
+                kv_maxlen = d.attn_bias.k_seqinfo.padding
+                for i, seqstart in enumerate(d.attn_bias.k_seqinfo.seqstart_py):
+                    if seqstart != i * kv_maxlen:
+                        reasons.append(
+                            "Variable K/V start positions are not supported, they should be determined "
+                            f"by kv_maxlen/padding: {d.attn_bias.k_seqinfo.seqstart_py=} {kv_maxlen=} {batch_size=}"
+                        )
+                        break
+        if isinstance(
+            d.attn_bias,
+            BlockDiagonalCausalMask,
+        ):
+            # Support padded causal block-diagonal mask if for each batch element number of queries is equal
+            # to the number of key/values, i.e. each block is square
+            for q_pos, kv_pos in zip(
+                d.attn_bias.q_seqinfo.seqstart_py, d.attn_bias.k_seqinfo.seqstart_py
+            ):
+                if q_pos != kv_pos:
+                    reasons.append(
+                        f"Position starts of Q and K/V should be the same, but got {q_pos} != {kv_pos}"
+                        f"{d.attn_bias.q_seqinfo.seqstart_py=}, {d.attn_bias.k_seqinfo.seqstart_py=}"
+                    )
+
+        if d.device.type == "cuda" and torch.version.cuda:
             # Has only been tested on 8.0 / 9.0.
             # Fails on 7.5 with illegal memory access
             if torch.cuda.get_device_capability(d.device) < (8, 0):
                 reasons.append(
                     "requires GPU with sm80 minimum compute capacity, e.g., A100/H100/L4"
                 )
-        if _is_triton_available():
-            import triton
-
-            if triton.__version__ > "2.0.0":
-                reasons.append("Only work on pre-MLIR triton for now")
         return reasons
 
     @classmethod
@@ -127,75 +551,98 @@ def apply(
         cls, inp: Inputs, needs_gradient: bool
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         inp = _prepare_inputs(inp)
+        attn_bias = inp.attn_bias
+        seq_len_kv = None
+        seqstart_q = None
 
-        out, lse, softmax_scale = triton_flash_forward(
-            q=inp.query,
-            k=inp.key,
-            v=inp.value,
-            bias=inp.attn_bias if isinstance(inp.attn_bias, torch.Tensor) else None,
-            softmax_scale=inp.scale_float,
-            causal=isinstance(inp.attn_bias, LowerTriangularMask),
+        q = inp.query
+        k = inp.key
+        v = inp.value
+
+        is_bt_h_m = isinstance(
+            attn_bias,
+            (BlockDiagonalCausalWithOffsetPaddedKeysMask, BlockDiagonalCausalMask),
         )
-        return out, Context(lse=lse, out=out)
+        if is_bt_h_m:
+            # q ~ [1, B*T, H, K]
+            # TODO: do we really need to do this cast? seems fishy but
+            # I just copied it from the split-k kernel
+            attn_bias.k_seqinfo.to(inp.query.device)
+            attn_bias.q_seqinfo.to(inp.query.device)
+            seqstart_q = attn_bias.q_seqinfo.seqstart
+            B = len(seqstart_q) - 1
+            H, Kq = inp.query.shape[-2:]
+            H2, Kkv = inp.key.shape[-2:]
 
+            Mq = attn_bias.q_seqinfo.max_seqlen
+            if isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
+                seq_len_kv = attn_bias.k_seqinfo.seqlen
+                # assume kv has been padded
+                k = k.reshape(B, -1, H2, Kkv)
+                v = v.reshape(B, -1, H2, Kkv)
+        else:
+            B, Mq, H, _ = q.shape
 
-@register_operator
-class BwOp(AttentionBwOpBase):
-    __doc__ = FwOp.__doc__
-
-    OPERATOR = triton_flash_backward
-    SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
-    CUDA_MINIMUM_COMPUTE_CAPABILITY = FwOp.CUDA_MINIMUM_COMPUTE_CAPABILITY
-    SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
-    SUPPORTED_MAX_K = FwOp.SUPPORTED_MAX_K
-    SUPPORTED_ATTN_BIAS_TYPES = FwOp.SUPPORTED_ATTN_BIAS_TYPES
-    SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
-    SUPPORTS_CUSTOM_SCALE = FwOp.SUPPORTS_CUSTOM_SCALE
-    SUPPORTS_DIFFERENT_VALUE_EMBED = FwOp.SUPPORTS_DIFFERENT_VALUE_EMBED
-    NAME = "tritonflashattB"
+        # Coded for BHMK format
+        q, k, v = (
+            q.transpose(1, 2),
+            k.transpose(1, 2),
+            v.transpose(1, 2),
+        )
 
-    @classmethod
-    def not_supported_reasons(cls, d: Inputs) -> List[str]:
-        reasons = super(BwOp, cls).not_supported_reasons(d)
-        check_lastdim_alignment_stride1(reasons, "query", d.query, 8)
-        check_lastdim_alignment_stride1(reasons, "key", d.key, 8)
-        check_lastdim_alignment_stride1(reasons, "value", d.value, 8)
-        if cls.OPERATOR is None:
-            reasons.append("triton is not available")
-        if d.device.type == "cuda":
-            if torch.cuda.get_device_capability(d.device) != (8, 0):
-                reasons.append("requires A100 GPU")
-        if _is_triton_available():
-            import triton
-
-            if triton.__version__ > "2.0.0":
-                reasons.append("Only work on pre-MLIR triton for now")
-        return reasons
+        out = torch.empty_like(q)
 
-    @classmethod
-    def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
-        inp = _prepare_inputs(inp)
+        _, _, Mkv, K = k.shape
+
+        sm_scale = K**-0.5 if inp.scale is None else inp.scale
+        L = torch.empty((B * H, Mq), device=q.device, dtype=torch.float32)
+        is_causal = inp.attn_bias is not None
+        use_seq_len_kv = seq_len_kv is not None
+        use_seq_pos_q = seqstart_q is not None
+        is_kv_padded = isinstance(
+            attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask
+        )
+
+        grid = lambda META: (triton.cdiv(Mq, META["BLOCK_M"]), B * H, 1)  # noqa: E731
+        kernel = _fwd_kernel_triton_flash_maybe_autotuned[cls.AUTOTUNE]
+        kernel[grid](
+            q,
+            k,
+            v,
+            sm_scale,
+            L,
+            out,
+            seq_len_kv,
+            seqstart_q,
+            q.stride(0),
+            q.stride(1),
+            q.stride(2),
+            q.stride(3),
+            k.stride(0),
+            k.stride(1),
+            k.stride(2),
+            k.stride(3),
+            v.stride(0),
+            v.stride(1),
+            v.stride(2),
+            v.stride(3),
+            out.stride(0),
+            out.stride(1),
+            out.stride(2),
+            out.stride(3),
+            B,
+            H,
+            Mq,
+            Mkv,
+            BLOCK_DMODEL=K,
+            IS_CAUSAL=is_causal,
+            USE_SEQ_LEN_KV=use_seq_len_kv,
+            USE_SEQ_POS_Q=use_seq_pos_q,
+            IS_KV_PADDED=is_kv_padded,
+            ALLOW_TF32=torch.backends.cuda.matmul.allow_tf32,
+            CAST_BEFORE_MATMUL=False,
+        )
 
-        # Triton's autotune causes the Tensor._version to change, and so Pytorch autograd
-        # does a memcpy. To avoid this we run in inference_mode, which doesn't track the version.
-        with torch.inference_mode():
-            grads = Gradients(
-                dq=torch.empty_like(inp.query),
-                dk=torch.empty_like(inp.key),
-                dv=torch.empty_like(inp.value),
-            )
-            cls.OPERATOR(
-                grad,
-                inp.query,
-                inp.key,
-                inp.value,
-                ctx.out,
-                ctx.get_padded_lse(128),
-                grads.dq,
-                grads.dk,
-                grads.dv,
-                bias=inp.attn_bias if isinstance(inp.attn_bias, torch.Tensor) else None,
-                softmax_scale=inp.scale_float,
-                causal=isinstance(inp.attn_bias, LowerTriangularMask),
-            )
-        return grads
+        out = out.transpose(1, 2)
+        L = L.reshape(B, H, Mq)
+        return out, Context(lse=L, out=out)

From 63c352322d1799df302d979fabbd015784a09a32 Mon Sep 17 00:00:00 2001
From: Grigory Sizov <grigorysizov@fb.com>
Date: Tue, 12 Dec 2023 07:01:44 -0800
Subject: [PATCH 299/837] Add Triton Flash Attention 2 to benchmarks

---
 .../benchmarks/benchmark_mem_eff_attention.py     | 15 ++++++++++++---
 xformers/ops/common.py                            |  3 ++-
 2 files changed, 14 insertions(+), 4 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention.py b/xformers/benchmarks/benchmark_mem_eff_attention.py
index e272fb947e..d815eceac3 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention.py
@@ -122,12 +122,21 @@ def T(t):
     ),
 ]
 
+
+class TritonFlashAttentionFwAutotuned(xformers.ops.fmha.triton.FwOp):
+    AUTOTUNE = True
+
+
 OPS = [
     (xformers.ops.fmha.cutlass.FwOp, xformers.ops.fmha.cutlass.BwOp),
     (xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
-    # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
-    # and its performance varies a lot between runs.
-    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
+    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
+    (
+        TritonFlashAttentionFwAutotuned,
+        xformers.ops.fmha.cutlass.BwOp
+        if torch.version.cuda
+        else xformers.ops.fmha.ck.BwOp,
+    ),
 ]
 
 
diff --git a/xformers/ops/common.py b/xformers/ops/common.py
index 7fad34f056..fed2fe36d1 100644
--- a/xformers/ops/common.py
+++ b/xformers/ops/common.py
@@ -34,7 +34,8 @@ class BaseOperator:
 
     @classmethod
     def is_available(cls) -> bool:
-        if cls.OPERATOR is None or cls.OPERATOR.__name__ == "no_such_operator":
+        # cls.OPERATOR can be either a kernel or a Triton Autotuner object, which doesn't have __name__
+        if cls.OPERATOR is None or getattr(cls.OPERATOR, "__name__", "") == "no_such_operator":
             return False
         return True
 

From fbd836ab13d26d41b0012fb9e5d90a1fae361a1f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 12 Dec 2023 17:30:04 +0000
Subject: [PATCH 300/837] Synchronize with latest third_party/composable_kernel
 and remove the inner_product bhalf_t overloading in
 ck_attention_forward_decoder.h

---
 third_party/composable_kernel                 |  2 +-
 .../hip_fmha/ck_attention_forward_decoder.h   | 38 +------------------
 2 files changed, 2 insertions(+), 38 deletions(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 5f4e6ec00d..8f0627f542 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 5f4e6ec00d12654e3897f53b48307434cd25a02f
+Subproject commit 8f0627f542f2ef9fd217ae1741531e2862dcb0fc
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 08d0dbe065..cbb6749be0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -13,42 +13,6 @@
 #include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
 
-namespace ck {
-template <>
-__device__ void inner_product<bhalf_t, bhalf_t, float>(const bhalf_t& a, const bhalf_t& b, float& c)
-{
-    inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
-
-template <>
-__device__ void inner_product<half_t, half_t, float>(const half_t& a, const half_t& b, float& c)
-{
-    inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
-
-template <>
-__device__ void
-inner_product<bhalf2_t, bhalf2_t, float>(const bhalf2_t& a, const bhalf2_t& b, float& c)
-{
-    const vector_type<bhalf_t, 2> a_vector{a};
-    const vector_type<bhalf_t, 2> b_vector{b};
-    ck::static_for<0, 2, 1>{}([&](auto i) {
-        inner_product(a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-    });
-}
-
-template <>
-__device__ void
-inner_product<bhalf4_t, bhalf4_t, float>(const bhalf4_t& a, const bhalf4_t& b, float& c)
-{
-    const vector_type<bhalf_t, 4> a_vector{a};
-    const vector_type<bhalf_t, 4> b_vector{b};
-    ck::static_for<0, 4, 1>{}([&](auto i) {
-        inner_product(a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-    });
-}
-} // namespace ck
-
 namespace {
 
 template <typename data_t, int32_t vec_size>
@@ -561,4 +525,4 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
 };
 } // namespace device
 } // namespace tensor_operation
-} // namespace ck
\ No newline at end of file
+} // namespace ck

From 0d15f1b4359ea5404bf4c7a7ed4dab254a854c73 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 12 Dec 2023 23:54:06 -0500
Subject: [PATCH 301/837] stash split attention testing wip

---
 .../hip_fmha/attention_forward_splitk.cpp     | 523 +++++++++++++++++-
 1 file changed, 503 insertions(+), 20 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 5998f3fc83..9ef53503e9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -203,9 +203,6 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
   return O;
 }
 
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     const at::Tensor& XQ, // [B, 1, G, H, D]
@@ -216,12 +213,13 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     int64_t split_k) {
   auto O = at::empty_like(XQ);
   constexpr auto splitk_dim = 0;
+  constexpr auto rank = 5;
   auto O_splits = at::stack(O, splitk_dim);
 
-  TORCH_CHECK(XQ.dim() == 5);
-  TORCH_CHECK(cache_K.dim() == 5);
-  TORCH_CHECK(cache_V.dim() == 5);
-  TORCH_CHECK(O_splits.dim() == 6);
+  TORCH_CHECK(XQ.dim() == rank);
+  TORCH_CHECK(cache_K.dim() == rank);
+  TORCH_CHECK(cache_V.dim() == rank);
+  TORCH_CHECK(O_splits.dim() == 1 + rank);
 
   auto B = XQ.size(0);
   auto M = XQ.size(1);
@@ -257,9 +255,6 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
       TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
 }
 
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
 #ifdef ATTN_FWD_SPLITK_DECODER_MAIN
 
 #include <torch/torch.h>
@@ -293,39 +288,524 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 // clang-format on
 
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
+  const at::Tensor& Q,
+  const at::Tensor& K,
+  const at::Tensor& V,
+  const at::Tensor& k_seqlens
+) {
+  auto Q_scaled = Q / sqrt(Q.size(-1));
+  auto S = at::einsum("bmghk, bnghk -> bmghn", {Q_scaled, K}, at::nullopt);
+
+  auto m = std::get<0>(at::max(S, /* dim */ 1, /* keepdim */ true));
+  auto s = at::exp(at::sub(S, m));
+  
+  // causal mask
+  for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+    auto seqlen = k_seqlens[b].item<int64_t>();
+    at::slice(s[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
+  }
+
+  auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+  auto O = at::einsum("bmghn, bnghk -> bmghk", {s, V}, at::nullopt);
+  return std::make_tuple(O, m, l);
+}
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplit1DeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplit1DeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
+              : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+        return split_attention_result;
+    }
+  };
+};
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderReduceDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderReduceDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+        stream_config,
+        Q_size_k_alignment_necessary == 4
+            ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
+            : Q_size_k_alignment_necessary == 2
+            ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
+            : Q_size_k_alignment_necessary == 1
+            ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 1>
+            : nullptr,
+        reduce_gridsize,
+        reduce_blocksize,
+        reduce_lds_bytes, 
+        arg.split_O,
+        arg.split_max,
+        arg.split_sumexp,
+        arg.O,
+        arg.Q_size_m,
+        arg.Q_size_g,
+        arg.Q_size_h,
+        arg.Q_size_k,
+        arg.O_stride_split,
+        arg.XQ_stride_b,
+        arg.XQ_stride_m,
+        arg.XQ_stride_g,
+        arg.XQ_stride_h,
+        arg.split_k
+      );
+      return reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor> 
+split1_attention(const at::Tensor& XQ, const at::Tensor& K, const at::Tensor& V, const at::Tensor& seqlen) {
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto D = XQ.size(4);
+
+  double qk_scale = 1. / sqrt(D);
+  constexpr auto split_k = 1;
+
+  auto O = at::empty_like(XQ);
+  constexpr auto splitk_dim = 0;
+  constexpr auto rank = 5;
+  auto split_O = at::stack(O, splitk_dim);
+  auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
+
+  constexpr int32_t KV_M_MAX = 8192;
+  constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_split1_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplit1DeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc = split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data();
+        auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc = split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return std::make_tuple(split_O[splitk_dim], split_max, split_sumexp);
+}
+
+static void test_split1_attention() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t Hq = 16;
+  const int32_t Hkv = 16;
+  const int32_t G = Hq / Hkv;
+  const int32_t padding = 4096;
+  const int32_t num_queries = 1;
+  const auto scalar_type = torch::kFloat32;
+  auto options = torch::TensorOptions()
+                     .dtype(scalar_type)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = at::randn({B, padding, G, G == 1 ? Hkv : 1, D}, options);
+  auto V = at::randn({B, padding, G, G == 1 ? Hkv : 1, D}, options);
+  auto seqlen = at::randint(1062, 1063, {B}, int_options);
+  
+  printf("Run libtorch split1_attention:\n");
+  auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
+
+  printf("Run hip split1_attention:\n");
+  auto hip_result = split1_attention(XQ, K, V, seqlen);
+
+  printf("Do comparison for split1_attention:\n");
+
+  auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+
+  auto O_percent_match = at::sum(O_match_mask.to(torch::kFloat32)) / O_match_mask.numel();
+  auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
+  auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
+
+  printf(
+      "Mismatched split_O elements percentage: %.2f\n",
+      1. - O_percent_match.item<float>());
+
+  printf(
+      "Mismatched split_max elements percentage: %.2f\n",
+      1. - m_percent_match.item<float>());
+
+  printf(
+      "Mismatched split_sumexp elements percentage: %.2f\n",
+      1. - m_percent_match.item<float>());
+}
+
 static void do_correctness_check() {
   const int32_t D = 4 * kThreadsPerWavefront;
   const int32_t B = 1;
-  const int32_t H = 4;
-  const int32_t G = 1;
+  const int32_t H = 16;
+  const int32_t G = 2;
+  const int32_t padding = 4096;
+  const int32_t num_queries = 1;
   auto options = torch::TensorOptions()
                      .dtype(torch::kFloat32)
                      .layout(torch::kStrided)
                      .device(torch::kCUDA, 1)
                      .requires_grad(false);
   auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, G, H, D}, options);
-  auto K = at::randn({B, 4096, G, H, D}, options);
-  auto V = at::randn({B, 4096, G, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
+  auto XQ = at::randn({B, num_queries, G, H, D}, options);
+  auto K = at::randn({B, padding, G, H, D}, options);
+  auto V = at::randn({B, padding, G, H, D}, options);
+  auto seqlen = at::randint(1062, 1063, {B}, int_options);
   double qk_scale = 1. / sqrt(D);
   constexpr auto split_k = 1;
 
   auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale, split_k);
+      XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl<64, 16>(
+      XQ, K, V, seqlen, qk_scale, split_k);
   auto mask = at::isclose(
       result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
   auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
   printf(
       "Mismatched elements percentage: %.2f\n",
       1. - percent_match.item<float>());
+  printf("k_seqlen: %d\n", seqlen.item<int32_t>());
 }
 
 int main(int argc, char** argv) {
   if (argc == 1) {
     do_correctness_check();
+
+    test_split1_attention();
   } else {
     const auto args = std::vector<std::string>(argv + 1, argv + argc);
     if (args.size() != 7) {
@@ -405,4 +885,7 @@ int main(int argc, char** argv) {
   return 0;
 }
 
-#endif // MAIN
\ No newline at end of file
+#endif // MAIN
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
\ No newline at end of file

From 5c1bc54067891c67d46b768d8bfd932bfde9a6c7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Dec 2023 12:41:27 +0000
Subject: [PATCH 302/837] Synchronize with latest third_party/composable_kernel
 again

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 8f0627f542..719219b9f1 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 8f0627f542f2ef9fd217ae1741531e2862dcb0fc
+Subproject commit 719219b9f1f4143e5fdd657dd16b704a22821766

From a01855079d4421b6813eb42845f531c41af1e722 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Dec 2023 14:12:14 +0000
Subject: [PATCH 303/837] Synchronize with latest
 third_party/composable_kernel_tiled

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index c1814f90e2..3ffae938ac 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit c1814f90e2dd5b0659c6e1ed577fb1bba596c126
+Subproject commit 3ffae938aca3d595cdae4e89564a6d063c09d0b5

From 31da32e08c45acd92ada38df0e6eec66fb9646e7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Dec 2023 14:16:02 +0000
Subject: [PATCH 304/837] Change to make ck decoder buildable with both ck
 tiled or non-tiled fmha kernel

---
 setup.py                                                        | 2 +-
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 1 +
 2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 673e760a51..31e03cdb1a 100644
--- a/setup.py
+++ b/setup.py
@@ -210,6 +210,7 @@ def get_extensions():
     source_cuda += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True)
 
     source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"), recursive=False)
+    source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
     
     if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
@@ -217,7 +218,6 @@ def get_extensions():
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
     else:
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_backward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"), recursive=False)
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index cbb6749be0..6a7c60c0a1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -12,6 +12,7 @@
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
+#include <ck/utility/math_v2.hpp>
 
 namespace {
 

From 22c8d6fd3758a04116dd84cd07e69ab667d65d36 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Dec 2023 14:16:02 +0000
Subject: [PATCH 305/837] Change to make ck decoder buildable with both ck
 tiled or non-tiled fmha kernel

---
 setup.py                                                        | 2 +-
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 1 +
 2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 9f21987ad9..d45399ef1d 100644
--- a/setup.py
+++ b/setup.py
@@ -210,6 +210,7 @@ def get_extensions():
     source_cuda += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True)
 
     source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"), recursive=False)
+    source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
     
     if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
@@ -217,7 +218,6 @@ def get_extensions():
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
     else:
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_backward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"), recursive=False)
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index cbb6749be0..6a7c60c0a1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -12,6 +12,7 @@
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
+#include <ck/utility/math_v2.hpp>
 
 namespace {
 

From 64283744405b71a67422527735b071e13216970d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 13 Dec 2023 18:57:36 -0500
Subject: [PATCH 306/837] fix gqa for split-k=1

---
 tests/test_mem_eff_attention_ck.py            |  93 ++++++++-----
 .../csrc/attention/hip_fmha/CMakeLists.txt    |   5 +
 .../hip_fmha/attention_forward_splitk.cpp     | 124 +++++++++++++-----
 xformers/ops/fmha/forward_splitk.py           |  67 +++++-----
 4 files changed, 186 insertions(+), 103 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 3f17eebf8b..fcc20e0ac7 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -303,6 +303,26 @@ def T(t):
 
 
 def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2) -> torch.Tensor:
+    if q.ndim == 5:
+        def attn_bias_group(group: int):
+            if isinstance(attn_bias, torch.Tensor):
+                return attn_bias[:, group]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    attn_bias._bias[:, group]
+                )
+            return attn_bias
+
+        return torch.stack(
+            [
+                ref_attention_splitk_bmhk(
+                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), split_k=split_k
+                )
+                for g in range(q.shape[2])
+            ],
+            dim=2,
+        )
+
     if q.ndim == 4:
         return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k)
     assert q.ndim == 3
@@ -1753,30 +1773,50 @@ def test_attn_bias_padded() -> None:
         rtol=fmha.ck.FwOp.ERROR_RTOL[torch.float16],
     )
 
-@pytest.mark.parametrize("multiquery", [True, False], ids=lambda x: "mq" if x else "nomq")
-@pytest.mark.parametrize("n_heads", [1, 16, 32])
-@pytest.mark.parametrize("padding", [32, 4096])
-@pytest.mark.parametrize("bsz", [1, 8])
-@pytest.mark.parametrize("dtype", ["f16"])
+
+def _kv_heads_label(kv_heads: Optional[int]) -> str:
+    if kv_heads is None:
+        return ""
+    if kv_heads == 1:
+        return "mq"
+    return f"gqa{kv_heads}"
+
+@pytest.mark.parametrize("dtype", ["f32"])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("n_heads", [16])
+@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
 @pytest.mark.parametrize("split_k", [1, 2, 4])
 def test_splitk_reference(
-    multiquery: bool, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
+    kv_heads: int, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
 ):
     dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
     torch.manual_seed(1)
     d = 256
-    k_shape = (1, bsz * padding, n_heads, d)
+    num_queries = 1
+    if kv_heads is not None and kv_heads > 1:
+        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
+        q_shape: Tuple[int, ...] = (
+            1,
+            bsz * num_queries,
+            kv_heads,
+            n_heads,
+            d,
+        )
+    else:
+        k_shape = (1, bsz * padding, n_heads, d)
+        q_shape = (1, bsz * num_queries, n_heads, d)
+
     k = torch.rand(k_shape, dtype=dtype_).cuda()
     k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
-    v = torch.rand(k_shape, dtype=dtype_).cuda()
-    q = torch.rand((1, bsz, n_heads, d), dtype=dtype_).cuda()
+    v = torch.rand_like(k)
+    q = torch.rand(q_shape, dtype=dtype_).cuda()
     causal_diagonal = torch.tensor(  # TODO: make unnecessary
         [i - 1 for i in k_seqlen], dtype=torch.int32
     ).cuda()
 
-    if multiquery:
-        k = k[:, :, :1].expand(k_shape)
-        v = v[:, :, :1].expand(k_shape)
+    if kv_heads is not None:
+        k = k[..., :1, :].expand(k_shape)
+        v = v[..., :1, :].expand(k_shape)
 
     attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
         q_seqlen=[1] * bsz,
@@ -1794,23 +1834,15 @@ def test_splitk_reference(
     )
 
 
-def _kv_heads_label(kv_heads: Optional[int]) -> str:
-    if kv_heads is None:
-        return ""
-    if kv_heads == 1:
-        return "mq"
-    return f"gqa{kv_heads}"
-
-
 @pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
-@pytest.mark.parametrize("padding", [32, 4096])
-@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
-# @pytest.mark.parametrize("dtype", ["f16"])
 # @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-# @pytest.mark.parametrize("n_heads", [16])
-# @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
+# @pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
+# @pytest.mark.parametrize("padding", [32, 4096])
+# @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
+@pytest.mark.parametrize("dtype", ["f32"])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("n_heads", [16])
+@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
 def test_decoder(
     op,
     n_heads: int,
@@ -1881,13 +1913,6 @@ def test_decoder(
         rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
     )
 
-def _kv_heads_label(kv_heads: Optional[int]) -> str:
-    if kv_heads is None:
-        return ""
-    if kv_heads == 1:
-        return "mq"
-    return f"gqa{kv_heads}"
-
 
 @pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp_S1, fmha.forward_splitk.FwOp_S2])
 @pytest.mark.parametrize("dtype", ["f16"])
diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index 056bb06bb4..ee208bffe5 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -7,6 +7,9 @@ message("CMAKE_CXX_COMPILER: ${CMAKE_CXX_COMPILER} (need hipcc)")
 set(CMAKE_CXX_STANDARD 17)
 set(CMAKE_CXX_STANDARD_REQUIRED ON)
 set(CMAKE_CXX_EXTENSIONS OFF)
+set(CMAKE_CXX_FLAGS "-Wall")
+set(CMAKE_CXX_FLAGS_DEBUG "-g -O0")
+set(CMAKE_VERBOSE_MAKEFILE on)
 
 set(exe_name attention_forward_decoder_main)
 set(splitk_exe_name attention_forward_splitk_decoder_main)
@@ -42,6 +45,8 @@ target_compile_options(${splitk_exe_name} PUBLIC
   -fno-gpu-rdc
   $<$<CONFIG:Debug>:
   --save-temps
+  -g
+  -O0
   >
 )
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 9ef53503e9..3c148a129c 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -12,6 +12,43 @@ namespace {
   constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
 }
 
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
+  const at::Tensor& Q,
+  const at::Tensor& K,
+  const at::Tensor& V,
+  const at::Tensor& k_seqlens
+) {
+  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+  auto S = at::einsum("bmghk, bnghk -> bmghn", {Q_scaled, K}, at::nullopt);
+
+  // causal mask
+  for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+    auto seqlen = k_seqlens[b].item<int64_t>();
+    at::slice(S[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
+  }
+
+  auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+  auto s = at::exp(at::sub(S, m));
+  
+  // causal mask
+  for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+    auto seqlen = k_seqlens[b].item<int64_t>();
+    at::slice(s[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
+  }
+
+  auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+  auto O = at::einsum("bmghn, bnghk -> bmghk", {s, V}, at::nullopt);
+  return std::make_tuple(O, m, l);
+}
+
+static at::Tensor split1_reduce_torch(
+  const at::Tensor& O_splits,
+  const at::Tensor& m,
+  const at::Tensor& l
+) {
+  return at::div(O_splits[0], l);
+}
+
 namespace {
 
 template <typename c10_t>
@@ -242,6 +279,10 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int64_t split_k) {
+
+  // auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
+  // return split1_reduce_torch(O_split, m, l);
+
   return efficient_attention_forward_decoder_splitk_ck_impl<
       kThreadsPerWavefront,
       kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
@@ -266,7 +307,7 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 (1) hipify
  > pip install -e /xformers
 
- For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For obtaining the executed build commands, add `--verbose`.
  For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
 
 (2) compile
@@ -288,28 +329,36 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 // clang-format on
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
-  const at::Tensor& Q,
-  const at::Tensor& K,
-  const at::Tensor& V,
-  const at::Tensor& k_seqlens
-) {
-  auto Q_scaled = Q / sqrt(Q.size(-1));
-  auto S = at::einsum("bmghk, bnghk -> bmghn", {Q_scaled, K}, at::nullopt);
-
-  auto m = std::get<0>(at::max(S, /* dim */ 1, /* keepdim */ true));
-  auto s = at::exp(at::sub(S, m));
+// static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
+//   const at::Tensor& Q,
+//   const at::Tensor& K,
+//   const at::Tensor& V,
+//   const at::Tensor& k_seqlens
+// ) {
+//   auto Q_scaled = Q / sqrt(Q.size(-1));
+//   auto S = at::einsum("bmghk, bnghk -> bmghn", {Q_scaled, K}, at::nullopt);
+
+//   auto m = std::get<0>(at::max(S, /* dim */ 1, /* keepdim */ true));
+//   auto s = at::exp(at::sub(S, m));
   
-  // causal mask
-  for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-    auto seqlen = k_seqlens[b].item<int64_t>();
-    at::slice(s[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
-  }
+//   // causal mask
+//   for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+//     auto seqlen = k_seqlens[b].item<int64_t>();
+//     at::slice(s[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
+//   }
+
+//   auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+//   auto O = at::einsum("bmghn, bnghk -> bmghk", {s, V}, at::nullopt);
+//   return std::make_tuple(O, m, l);
+// }
 
-  auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-  auto O = at::einsum("bmghn, bnghk -> bmghk", {s, V}, at::nullopt);
-  return std::make_tuple(O, m, l);
-}
+// static at::Tensor split1_reduce_torch(
+//   const at::Tensor& O_splits,
+//   const at::Tensor& m,
+//   const at::Tensor& l
+// ) {
+//   return at::div(O_splits[0], l);
+// }
 
 namespace ck {
 namespace tensor_operation {
@@ -630,8 +679,11 @@ struct FMHADecoderReduceDeviceOp : public BaseOperator {
 } // namespace tensor_operation
 } // namespace ck
 
-std::tuple<at::Tensor, at::Tensor, at::Tensor> 
-split1_attention(const at::Tensor& XQ, const at::Tensor& K, const at::Tensor& V, const at::Tensor& seqlen) {
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(
+  const at::Tensor& XQ, 
+  const at::Tensor& K, 
+  const at::Tensor& V, 
+  const at::Tensor& seqlen) {
   auto B = XQ.size(0);
   auto M = XQ.size(1);
   auto G = XQ.size(2);
@@ -735,21 +787,29 @@ static void test_split1_attention() {
                      .requires_grad(false);
   auto int_options = options.dtype(torch::kInt);
   auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = at::randn({B, padding, G, G == 1 ? Hkv : 1, D}, options);
-  auto V = at::randn({B, padding, G, G == 1 ? Hkv : 1, D}, options);
+  auto K = (G == 1) 
+    ? at::randn({B, padding, G, Hkv, D}, options) 
+    : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
   auto seqlen = at::randint(1062, 1063, {B}, int_options);
   
-  printf("Run libtorch split1_attention:\n");
-  auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
+  // printf("Run libtorch split1_attention:\n");
+  // auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
 
   printf("Run hip split1_attention:\n");
-  auto hip_result = split1_attention(XQ, K, V, seqlen);
+  auto hip_result = split1_attention_hip(XQ, K, V, seqlen);
 
   printf("Do comparison for split1_attention:\n");
 
-  auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  // auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  // auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  // auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  // auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(reference_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  // auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(reference_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  // auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(reference_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto O_match_mask = at::isclose(std::get<0>(hip_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto m_match_mask = at::isclose(std::get<1>(hip_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto l_match_mask = at::isclose(std::get<2>(hip_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
 
   auto O_percent_match = at::sum(O_match_mask.to(torch::kFloat32)) / O_match_mask.numel();
   auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
@@ -803,7 +863,7 @@ static void do_correctness_check() {
 
 int main(int argc, char** argv) {
   if (argc == 1) {
-    do_correctness_check();
+    // do_correctness_check();
 
     test_split1_attention();
   } else {
diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/forward_splitk.py
index 008ce1fc79..0a0651feaa 100644
--- a/xformers/ops/fmha/forward_splitk.py
+++ b/xformers/ops/fmha/forward_splitk.py
@@ -98,50 +98,43 @@ def apply(
         q, k, v = inp.get_qkv_in_bmghk()
         
         if attn_bias is not None:
-            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             attn_bias.k_seqinfo.to(k.device)
             attn_bias.q_seqinfo.to(q.device)
-            seq_len = attn_bias.k_seqinfo.seqlen
-            B = len(seq_len)
-            G, H, Kq = q.shape[-3:]
-            Kkv = v.shape[-1]
-
-            # assume kv has been padded
-            q = q.reshape(B, -1, G, H, Kq)
-            k = k.reshape(B, -1, G, H, Kkv)
-            v = v.reshape(B, -1, G, H, Kkv)
-        
-        mqa_swap_seqlen_head = False
-        if k.shape[3] > 1 and k.stride(3) == 0 and v.stride(3) == 0:
-            mqa_swap_seqlen_head = True
-            assert q.shape[1] == 1
-            q = q.transpose(1, 3)
-            k = k[:, :, :, :1]
-            v = v[:, :, :, :1]
-
-        Lk = k.shape[-1]
-
-        B, Mk, G, H, Kkv = k.shape
-        B, M, G, H, Kq = q.shape
-        assert Lk == Kq, f"Keys have head dim {Lk} but queries have head dim {Kq}"
-
-        BLOCK_M = cls.BLOCK_M
-        BLOCK_N = cls.BLOCK_N
+            padding = attn_bias.k_seqinfo.padding
+            seq_positions_gpu = attn_bias.k_seqinfo.seqlen
+        else:
+            padding = k.shape[1]
+            seq_positions_gpu = None
+
+        if attn_bias is not None:
+            # key: (1, B * padding, G, 1 if multiquery else Hkv, D)
+            # value: like key
+            # query: (1, B * q_seqlen, G, Hq, D)
+            multiquery = k.stride(3) == 0
+            if multiquery:
+                key = k[0, :, :, :1].unflatten(0, (-1, padding))
+                value = v[0, :, :, :1].unflatten(0, (-1, padding))
+            else:
+                key = k[0].unflatten(0, (-1, padding))
+                value = v[0].unflatten(0, (-1, padding))
+            query = q[0].unflatten(0, (key.shape[0], -1))    
+        else:
+            # key: (B, padding, G, 1 if multiquery else Hkv, D)
+            # value: like key
+            # query: (B, q_seqlen, G, Hq, D)
+            key = k
+            query = q
+            value = v
+
+        B, _, _, H, _ = query.shape
+        _, Mk, _, _, _ = key.shape
+
         if cls.SPLIT_K is not None:
             split_k = cls.SPLIT_K
         else:
             # Use heuristics
             split_k = cls.get_split_k(B, H, Mk)
 
-        M_ceil = (M + BLOCK_M - 1) // BLOCK_M * BLOCK_M
-
-        # o_splitk = torch.empty(
-        #     [B * G * H, split_k, M_ceil, Kq], dtype=torch.float32, device=q.device
-        # )
-        # metadata = torch.empty(
-        #     [B * G * H, 2, split_k, M_ceil], dtype=torch.float32, device=q.device
-        # )
-
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
@@ -149,7 +142,7 @@ def apply(
 
         print(f"{q.shape=} {k.shape=} {v.shape=}")
 
-        out = cls.OPERATOR(query=q, key=k, value=v, seq_positions=seq_len, scale=qk_scale, split_k=split_k)
+        out = cls.OPERATOR(query=query, key=key, value=value, seq_positions=seq_positions_gpu, scale=qk_scale, split_k=split_k)
         
         print(f"{out.shape=}")
         

From f21e39ad57c935cd51306f33b3c1586007941aad Mon Sep 17 00:00:00 2001
From: Grigory Sizov <grigorysizov@fb.com>
Date: Sun, 17 Dec 2023 10:34:26 -0800
Subject: [PATCH 307/837] Skip backward tests, fix import

---
 tests/test_mem_eff_attention.py | 2 ++
 xformers/ops/fmha/triton.py     | 2 +-
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index ae3f051b6d..03b11b399a 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -1295,6 +1295,8 @@ def test_grad_checkpointing(
         k,
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    if op is fmha.triton.FwOp:
+        pytest.skip("Triton Flash Attention 2 doesn't support backward pass yet")
     bias_type = None
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
         op,
diff --git a/xformers/ops/fmha/triton.py b/xformers/ops/fmha/triton.py
index d575dca277..6dccc1cb98 100644
--- a/xformers/ops/fmha/triton.py
+++ b/xformers/ops/fmha/triton.py
@@ -13,7 +13,7 @@
 """
 
 from dataclasses import replace
-from typing import Any, List, Optional, Set, Tuple
+from typing import Any, List, Mapping, Optional, Set, Tuple
 
 import torch
 

From 6c5540c1dc630c4632669e39d082b25236c65412 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 18 Dec 2023 17:23:48 -0500
Subject: [PATCH 308/837] fix the mask for decoding; row max and lse are
 computed correctly; debugging must go on

---
 tests/test_mem_eff_attention_ck.py            | 39 ++++++++++++-------
 .../hip_fmha/attention_forward_splitk.cpp     | 24 ++++++++----
 2 files changed, 42 insertions(+), 21 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index fcc20e0ac7..58a0d3f96d 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -283,7 +283,7 @@ def T(t):
     return out.permute((0, 2, 1, 3))
 
 
-def ref_attention_splitk_bmhk(q, k, v, attn_bias, scale=None, split_k=None) -> torch.Tensor:
+def ref_attention_splitk_bmhk(q, k, v, attn_bias, scale=None, split_k=None, dtype=None) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -297,12 +297,12 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention_splitk(T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k)
+    out = ref_attention_splitk(T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype)
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
 
-def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2) -> torch.Tensor:
+def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2, dtype=None) -> torch.Tensor:
     if q.ndim == 5:
         def attn_bias_group(group: int):
             if isinstance(attn_bias, torch.Tensor):
@@ -316,7 +316,7 @@ def attn_bias_group(group: int):
         return torch.stack(
             [
                 ref_attention_splitk_bmhk(
-                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), split_k=split_k
+                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), split_k=split_k, dtype=dtype
                 )
                 for g in range(q.shape[2])
             ],
@@ -324,11 +324,13 @@ def attn_bias_group(group: int):
         )
 
     if q.ndim == 4:
-        return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k)
+        return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype)
     assert q.ndim == 3
-    q = q.float()
-    k = k.float()
-    v = v.float()
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
 
     if scale is None:
         scale = q.shape[-1] ** -.5
@@ -392,6 +394,10 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
     # reduce out over split-k slices
 
+    # return slices[0]["row_max"].repeat_interleave(256, -1)
+
+    # return slices[0]["attn_slice"]
+
     m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
     l_current_sum = torch.zeros_like(slices[0]["row_lse"])
 
@@ -1899,12 +1905,13 @@ def test_decoder(
     decoder_output = fmha.memory_efficient_attention_forward(
         q, k, v, attn_bias, op=op
     )
-    
-    print(f"{decoder_output.shape=}")
-    nans_in_result = torch.sum(torch.isnan(decoder_output))
-    print(f"{nans_in_result=}")
 
-    ref_output = ref_attention(q, k, v, attn_bias, dtype=dtype_)
+    # attn_bias_tensor = attn_bias.materialize(shape=(q.shape[0], 1, q.shape[1], k.shape[1]), device=q.device, dtype=dtype_)
+    # print(f"{k_seqlen=}")
+    # torch.set_printoptions(threshold=None, edgeitems=256)
+    # print(f"{attn_bias_tensor.shape=} {attn_bias_tensor=}")
+
+    ref_output = ref_attention_splitk(q, k, v, attn_bias, dtype=dtype_, split_k=1)
 
     assert_allclose(
         decoder_output,
@@ -1918,7 +1925,11 @@ def test_decoder(
 @pytest.mark.parametrize("dtype", ["f16"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
-@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
+@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1), (32, 1), (4096, 8)])
+# @pytest.mark.parametrize("dtype", ["f16"])
+# @pytest.mark.parametrize("kv_heads", [None], ids=_kv_heads_label)
+# @pytest.mark.parametrize("n_heads", [16])
+# @pytest.mark.parametrize("padding, bsz", [(32, 8),])
 def test_splitk_decoder(
     op,
     kv_heads: Optional[int],
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 3c148a129c..9b8a45de84 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -19,12 +19,19 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
   const at::Tensor& k_seqlens
 ) {
   auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-  auto S = at::einsum("bmghk, bnghk -> bmghn", {Q_scaled, K}, at::nullopt);
+  auto S = at::einsum("mghk, nghk -> mghn", {Q_scaled.flatten(0, 1), K.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
+
+  for (size_t i = 0; i < S.dim(); ++i) {
+    std::cout << "S.dim" << i << "=" << S.size(i) << std::endl; 
+  }
 
   // causal mask
+  auto neg_inf = at::tensor(-99.).item();
   for (size_t b = 0; b < k_seqlens.numel(); ++b) {
     auto seqlen = k_seqlens[b].item<int64_t>();
-    at::slice(S[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
+    at::slice(S[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).fill_(neg_inf);
+    at::slice(S[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ S.size(-1)).fill_(neg_inf);
+    std::cout << "batch" << b << " ; masked QK^T dim " << S[b].dim() << " values at h0 " << S[b].slice(1, 0, 1) << std::endl;
   }
 
   auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
@@ -33,12 +40,13 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
   // causal mask
   for (size_t b = 0; b < k_seqlens.numel(); ++b) {
     auto seqlen = k_seqlens[b].item<int64_t>();
-    at::slice(s[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
+    at::slice(s[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).zero_();
+    at::slice(s[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ s.size(-1)).zero_();
   }
 
   auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-  auto O = at::einsum("bmghn, bnghk -> bmghk", {s, V}, at::nullopt);
-  return std::make_tuple(O, m, l);
+  auto O = at::einsum("mghn, nghk -> mghk", {s, V.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
+  return std::make_tuple(O.reshape_as(Q), m, l);
 }
 
 static at::Tensor split1_reduce_torch(
@@ -280,8 +288,10 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
     double qk_scale,
     int64_t split_k) {
 
-  // auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
-  // return split1_reduce_torch(O_split, m, l);
+  auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
+  // return at::repeat_interleave(m, 256, -1);
+  // return O_split[0];
+  return split1_reduce_torch(O_split, m, l);
 
   return efficient_attention_forward_decoder_splitk_ck_impl<
       kThreadsPerWavefront,

From 5225eef366349b1cbf224b8d9af0383af6bb3b46 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 19 Dec 2023 15:24:17 -0500
Subject: [PATCH 309/837] make libtorch split-1 decoder implementation pass
 numerical correctness

---
 tests/test_mem_eff_attention_ck.py            |  7 +++--
 .../hip_fmha/attention_forward_splitk.cpp     | 29 ++++++++++++-------
 2 files changed, 24 insertions(+), 12 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 58a0d3f96d..e7630d9acf 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -395,7 +395,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     # reduce out over split-k slices
 
     # return slices[0]["row_max"].repeat_interleave(256, -1)
-
+    # return slices[0]["row_lse"].repeat_interleave(256, -1)
     # return slices[0]["attn_slice"]
 
     m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
@@ -1902,6 +1902,10 @@ def test_decoder(
     if (not_supported_reasons := op.not_supported_reasons(inp)):
         pytest.skip(f"{not_supported_reasons=}")
 
+    ref_output = ref_attention_splitk(q, k, v, attn_bias, dtype=dtype_, split_k=1)
+
+    print(f"{ref_output.shape=}")
+
     decoder_output = fmha.memory_efficient_attention_forward(
         q, k, v, attn_bias, op=op
     )
@@ -1911,7 +1915,6 @@ def test_decoder(
     # torch.set_printoptions(threshold=None, edgeitems=256)
     # print(f"{attn_bias_tensor.shape=} {attn_bias_tensor=}")
 
-    ref_output = ref_attention_splitk(q, k, v, attn_bias, dtype=dtype_, split_k=1)
 
     assert_allclose(
         decoder_output,
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 9b8a45de84..79ef348d8f 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -21,9 +21,9 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
   auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
   auto S = at::einsum("mghk, nghk -> mghn", {Q_scaled.flatten(0, 1), K.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
 
-  for (size_t i = 0; i < S.dim(); ++i) {
-    std::cout << "S.dim" << i << "=" << S.size(i) << std::endl; 
-  }
+  // for (size_t i = 0; i < S.dim(); ++i) {
+  //   std::cout << "S.dim" << i << "=" << S.size(i) << std::endl; 
+  // }
 
   // causal mask
   auto neg_inf = at::tensor(-99.).item();
@@ -31,7 +31,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
     auto seqlen = k_seqlens[b].item<int64_t>();
     at::slice(S[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).fill_(neg_inf);
     at::slice(S[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ S.size(-1)).fill_(neg_inf);
-    std::cout << "batch" << b << " ; masked QK^T dim " << S[b].dim() << " values at h0 " << S[b].slice(1, 0, 1) << std::endl;
+    // std::cout << "batch" << b << " ; masked QK^T dim " << S[b].dim() << " values at h0 " << S[b].slice(1, 0, 1) << std::endl;
   }
 
   auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
@@ -46,7 +46,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
 
   auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
   auto O = at::einsum("mghn, nghk -> mghk", {s, V.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
-  return std::make_tuple(O.reshape_as(Q), m, l);
+  return std::make_tuple(O, m, l);
 }
 
 static at::Tensor split1_reduce_torch(
@@ -54,7 +54,7 @@ static at::Tensor split1_reduce_torch(
   const at::Tensor& m,
   const at::Tensor& l
 ) {
-  return at::div(O_splits[0], l);
+  return at::div(O_splits, l);
 }
 
 namespace {
@@ -280,6 +280,18 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
   return O;
 }
 
+at::Tensor efficient_attention_forward_decoder_split1_torch(
+  const at::Tensor& XQ, // [B, 1, G, H, D]
+  const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+  const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+  at::optional<at::Tensor> seq_kv_lens, // [B]
+  double qk_scale
+) {
+  auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
+  auto O = split1_reduce_torch(O_split, m, l);
+  return O.reshape_as(XQ);
+}
+
 at::Tensor efficient_attention_forward_decoder_splitk_ck(
     const at::Tensor& XQ, // [B, 1, G, H, D]
     const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
@@ -288,10 +300,7 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
     double qk_scale,
     int64_t split_k) {
 
-  auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
-  // return at::repeat_interleave(m, 256, -1);
-  // return O_split[0];
-  return split1_reduce_torch(O_split, m, l);
+  return efficient_attention_forward_decoder_split1_torch(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
 
   return efficient_attention_forward_decoder_splitk_ck_impl<
       kThreadsPerWavefront,

From 45727d64e24f03b8c0b52ef68e9ab0e08b09a3bf Mon Sep 17 00:00:00 2001
From: Grigory Sizov <grigorysizov@fb.com>
Date: Wed, 20 Dec 2023 02:16:48 -0800
Subject: [PATCH 310/837] Disable CK kernel for large shapes, better catch OOMs

---
 xformers/benchmarks/utils.py |  8 +++++---
 xformers/ops/fmha/ck.py      | 22 +++++++++++++++++++---
 2 files changed, 24 insertions(+), 6 deletions(-)

diff --git a/xformers/benchmarks/utils.py b/xformers/benchmarks/utils.py
index b048895014..7c5f87cd49 100644
--- a/xformers/benchmarks/utils.py
+++ b/xformers/benchmarks/utils.py
@@ -557,7 +557,7 @@ def benchmark_run_and_compare(
             # pbar.write(f"Skipped (NotImplementedError)")
             continue
         except RuntimeError as e:
-            if "CUDA out of memory" not in str(e):
+            if not _is_oom_error(e):
                 raise
             if not quiet:
                 pbar.write("Skipped (OOM)")
@@ -602,7 +602,7 @@ def benchmark_run_and_compare(
                     memory = torch.cuda.max_memory_allocated() / 2**20 - mem_begin
                     measurement.mem_use = memory
                 except RuntimeError as e:
-                    if "CUDA out of memory" not in str(e):
+                    if not _is_oom_error(e):
                         raise
                     if not quiet:
                         pbar.write("Skipped (OOM)")
@@ -611,7 +611,7 @@ def benchmark_run_and_compare(
                 if not quiet:
                     pbar.write(f"{name}: memory used: {memory} MB")
         except RuntimeError as e:
-            if "CUDA out of memory" not in str(e):
+            if not _is_oom_error(e):
                 raise
             if not quiet:
                 pbar.write("Skipped (OOM)")
@@ -652,6 +652,8 @@ def matches_current(r):
             results, reference=results_compare_to, atol_s=atol_s, rtol=rtol
         )
 
+def _is_oom_error(e):
+    return isinstance(e, (torch.cuda.OutOfMemoryError, triton.runtime.autotuner.OutOfResources))
 
 def _fail_if_regressions(
     results: List[Any], reference: List[Any], atol_s: float, rtol: float
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 143c74f79c..7b1526bb0e 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -29,7 +29,7 @@
 )
 
 def _minimum_gemm_alignment(inp: Inputs) -> int:
-    return 1 
+    return 1
 
 
 def _get_seqlen_info(
@@ -86,6 +86,20 @@ def _check_bias_alignment(
                 "you should call `.contiguous()` on the bias"
             )
 
+def _check_large_shapes(reasons: List[str], inp: Inputs) -> None:
+    """CK kernel throws "Memory access fault by GPU node-2" when B * T >= 2**20, might be some index overflow.
+    To reproduce, remove this function and run benchmark_mem_eff_attention with ParlAI model shape (256, 4096, 16, 64).
+    This needs further debugging, for now let's not support such shapes.
+    """
+    b_t_limit = 1024 ** 2
+    q_too_large = inp.query.shape[0] *  inp.query.shape[1] >= b_t_limit
+    k_too_large = inp.key.shape[0] *  inp.key.shape[1] >= b_t_limit
+    v_too_large = inp.value.shape[0] *  inp.value.shape[1] >= b_t_limit
+    if q_too_large or k_too_large or v_too_large:
+        reasons.append(
+            "Input is too large: product of first two dimensions of q/k/v must be < 2**20"
+        )
+
 
 class _CustomMaskType(int, Enum):
     """
@@ -120,7 +134,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
 @register_operator
 class FwOp(AttentionFwOpBase):
     """xFormers' MHA kernel based on Composable Kernel.
-    Supports AMD MI 200 and MI 300 GPUs 
+    Supports AMD MI 200 and MI 300 GPUs
     """
 
     OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
@@ -205,6 +219,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         check_lastdim_alignment_stride1(reasons, "query", d.query, matmul_alignment_mn)
         check_lastdim_alignment_stride1(reasons, "value", d.value, matmul_alignment_mn)
         _check_bias_alignment(reasons, d.attn_bias)
+        _check_large_shapes(reasons, d)
         return reasons
 
     @classmethod
@@ -299,6 +314,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                     f"(shape: {tuple(attn_bias_tensor.shape)}"
                     f"/ expected: {expected_bias_shape})"
                 )
+        _check_large_shapes(reasons, d)
         return reasons
 
     @classmethod
@@ -328,7 +344,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             attn_bias=_get_tensor_bias(inp.attn_bias),
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
-            max_seqlen_q=max_seqlen_q, 
+            max_seqlen_q=max_seqlen_q,
             seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,

From 402ee91b829b9816e80fdeef4889d557c7285f95 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 24 Dec 2023 11:12:13 +0000
Subject: [PATCH 311/837] Actually remove submodule composable_kernel_tiled
 from the branch

---
 third_party/composable_kernel_tiled | 1 -
 1 file changed, 1 deletion(-)
 delete mode 160000 third_party/composable_kernel_tiled

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
deleted file mode 160000
index ddce91a44b..0000000000
--- a/third_party/composable_kernel_tiled
+++ /dev/null
@@ -1 +0,0 @@
-Subproject commit ddce91a44b2da6eb74e7e3d7bf14b54930719983

From 79040960e2f7702f057bbc441d6c2694956c2151 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 24 Dec 2023 11:15:38 +0000
Subject: [PATCH 312/837] Change the domain for the repo of composable_kernel
 submodule to ROCm

---
 .gitmodules | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.gitmodules b/.gitmodules
index 94eb8135c6..3017b3887a 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -3,7 +3,7 @@
 	url = https://github.com/NVIDIA/cutlass.git
 [submodule "third_party/composable_kernel"]
 	path = third_party/composable_kernel
-	url = https://github.com/ROCmSoftwarePlatform/composable_kernel.git
+	url = https://github.com/ROCm/composable_kernel.git
 	branch = mha-train-develop
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention

From 44f61609dc17ced61511cb37592c208198388219 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Dec 2023 18:29:10 +0000
Subject: [PATCH 313/837] Update to validate_inputs() in common.py to support
 4d mqa/gqa

---
 xformers/ops/fmha/common.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index bc2c2db764..9808b59342 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -181,11 +181,13 @@ def validate_inputs(self) -> None:
                 and self.value.shape == (B, Mkv, Kv)
             )
         H = self.query.shape[-2]
+        Hkv = self.key.shape[-2]
         if self.query.ndim == 4:  # BMHK
             valid_shapes = (
                 self.query.shape == (B, Mq, H, K)
-                and self.key.shape == (B, Mkv, H, key_embed_dim)
-                and self.value.shape == (B, Mkv, H, Kv)
+                and self.key.shape == (B, Mkv, Hkv, key_embed_dim)
+                and self.value.shape == (B, Mkv, Hkv, Kv)
+                and H % Hkv == 0
             )
         G = self.query.shape[2]
         if self.query.ndim == 5:  # BMNHK

From e03f67aad110bed69289288abdd9ecbe3b7f4aba Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 27 Dec 2023 23:29:41 +0000
Subject: [PATCH 314/837] synchronize test_mem_eff_attention_ck.py with
 test_mem_eff_attention.py

---
 tests/readme_test_on_rocm.txt      |   2 +
 tests/test_mem_eff_attention_ck.py | 953 ++++++++++++++++++++---------
 2 files changed, 674 insertions(+), 281 deletions(-)

diff --git a/tests/readme_test_on_rocm.txt b/tests/readme_test_on_rocm.txt
index 16e283ccbe..b2b18ff789 100644
--- a/tests/readme_test_on_rocm.txt
+++ b/tests/readme_test_on_rocm.txt
@@ -26,6 +26,8 @@
       * test_unsupported_stride_alignment
       * test_cuda_streams
       * test_dropout
+      * test_backward
+      * test_decoder
 
    4. verify testing for memory_efficient_attention forward (with dropout)
 
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 1b4286c014..ee9c557ab5 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -5,22 +5,26 @@
 
 import math
 import random
+from functools import partial
 from typing import List, Optional, Sequence, Tuple, Type, TypeVar
 
 import pytest
 import torch
+import torch.nn.functional as F
 from scipy.stats import binomtest
 from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
+from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
+from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
 from xformers.ops.fmha.common import AttentionOpBase
+from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
 
 from .utils import assert_allclose
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
 _types = [torch.float16, torch.bfloat16]
 
@@ -91,13 +95,14 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
     ]
     # Add some random shapes
     if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
+        fmha.cutlass.FwOp,
+        fmha.cutlass.BwOp,
+        fmha.flash.BwOp,
     ]:
         K_CHOICES = [8 * i for i in range(1, 256 // 8)]
         r = random.Random(0)
         found_count = 0
-        while found_count < 20:
+        while found_count < 200:
             B = r.randint(1, 400)
             Mq = r.randint(1, 500)
             Mkv = r.randint(1, 500)
@@ -146,10 +151,10 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
                         B, Mq, Mkv, H, K, Kv = shape
                         B = min(B, 12)
 
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
+                        if bias_type in {
+                            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+                            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                        }:
                             Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
                         elif (
                             bias_type
@@ -208,8 +213,9 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
 )
 
 
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
     if q.ndim == 5:
+
         def attn_bias_group(group: int):
             if isinstance(attn_bias, torch.Tensor):
                 return attn_bias[:, group]
@@ -222,23 +228,24 @@ def attn_bias_group(group: int):
         return torch.stack(
             [
                 ref_attention_bmhk(
-                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), dtype=dtype
+                    q[:, :, g],
+                    k[:, :, g],
+                    v[:, :, g],
+                    scale=scale,
+                    attn_bias=attn_bias_group(g),
                 )
                 for g in range(q.shape[2])
             ],
             dim=2,
         )
-     
     if q.ndim == 4:
         assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias, dtype=dtype)
-    if dtype is None:
-        dtype = torch.float32
-    q = q.to(dtype=dtype)
-    k = k.to(dtype=dtype)
-    v = v.to(dtype=dtype)
-
-    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+        return ref_attention_bmhk(q, k, v, scale=scale, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
     q = q * scale
 
     attn = q @ k.transpose(-2, -1)
@@ -248,23 +255,23 @@ def attn_bias_group(group: int):
             attn_bias_tensor = attn_bias.materialize(
                 (q.shape[0], 1, q.shape[1], k.shape[1]),
                 device=q.device,
-                dtype=dtype,
+                dtype=torch.float32,
             )
         else:
-            attn_bias_tensor = attn_bias.to(dtype=dtype)
+            attn_bias_tensor = attn_bias
         if attn_bias_tensor.ndim == 4:
             assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
             attn_bias_tensor = attn_bias_tensor.reshape(
                 [-1, *attn_bias_tensor.shape[2:]]
             )
-        attn = attn + attn_bias_tensor
+        attn = attn + attn_bias_tensor.float()
     attn = attn.softmax(-1)
     if drop_mask is not None:
         attn = attn * (drop_mask / (1 - p))
     return attn @ v
 
 
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -278,50 +285,11 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
 
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
     idx = {0, total}
@@ -331,158 +299,6 @@ def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     return [e - b for b, e in zip(s[:-1], s[1:])]
 
 
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        if fmt == "BMK":
-            attn_bias = attn_bias[:, 0]
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
 def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
     tensor_with_grad: Optional[torch.Tensor] = None
     if isinstance(attn_bias, torch.Tensor):
@@ -511,18 +327,46 @@ def create_tensors(
     *,
     attn_bias_requires_grad: bool = False,
     fmt: str = "BMK",
+    g: int = 1,
 ):
     torch.manual_seed(B * q_len + kv_len * k + kv)
+
+    mask_is_bottom_right = attn_bias_type is not None and issubclass(
+        attn_bias_type,
+        (
+            fmha.attn_bias.LowerTriangularFromBottomRightMask,
+            fmha.attn_bias.LowerTriangularFromBottomRightLocalAttentionMask,
+            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            fmha.attn_bias.BlockDiagonalCausalLocalAttentionMask,
+            fmha.attn_bias.LocalAttentionFromBottomRightMask,
+        ),
+    )
+    if mask_is_bottom_right and q_len > kv_len:
+        # Bottom-right attention and local-attention masks require q_len <= kv_len
+        kv_len = q_len
     scale = 3
     if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype)
+    elif fmt == "BMHK":
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype)
     else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+        assert fmt == "BMGHK"
+        query = torch.randn((B, q_len, g, h, k), device=device, dtype=dtype)
+        key = torch.randn((B, kv_len, g, 1, k), device=device, dtype=dtype)
+        value = torch.randn((B, kv_len, g, 1, kv), device=device, dtype=dtype)
+
+    for x in [query, key, value]:
+        x.mul_(scale)
+
+    if fmt == "BMGHK":
+        # Expand - after the in-place mul
+        key = key.expand((B, kv_len, g, h, k))
+        value = value.expand((B, kv_len, g, h, k))
 
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
         attn_bias_type = None
@@ -532,6 +376,7 @@ def create_tensors(
             attn_bias_type,
             batch_size=B,
             num_heads=h,
+            num_heads_groups=g,
             q_len=q_len,
             kv_len=kv_len,
             dtype=dtype,
@@ -578,11 +423,7 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed,
-    fmt,
-):
+def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
     (
         op,
         device,
@@ -607,7 +448,9 @@ def test_forward(
         pytest.skip("BMK incompatible with this bias")
 
     query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK" if packed else fmt,
+        **kwargs,
     )
 
     if packed:
@@ -621,6 +464,7 @@ def test_forward(
                 bias_type=bias_type,
                 batch_size=batch_size,
                 num_heads=h,
+                num_heads_groups=1,
                 q_len=q_len,
                 kv_len=kv_len,
                 device=device,
@@ -629,9 +473,11 @@ def test_forward(
                 fmt=fmt,
                 op=op,
             )
-        else:
+        elif fmt == "BMHK":
             # bm3hk -> 3 x bmhk
             query, key, value = xformers.ops.unbind(c, 2)
+        else:
+            assert False, f"Unsupport fmt {fmt} with packing"
         assert not query.is_contiguous()
 
     out = xformers.ops.memory_efficient_attention_forward(
@@ -656,13 +502,14 @@ def test_forward(
     )
 
 
+@cuda_only
 @pytest.mark.parametrize("k_len", [5, 6, 32])
 @pytest.mark.parametrize("batch_size", [1, 4])
 @pytest.mark.parametrize("kv_len", [128, 512])
 @pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("device", [torch.device("cuda")])
 @pytest.mark.parametrize("dtype", _types)
-def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
+def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
+    device = "cuda"
     scale = 3
     query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
     key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
@@ -732,6 +579,35 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
     assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
 
 
+@cuda_only
+@pytest.mark.parametrize("op", [fmha.cutlass.FwOp, fmha.flash.FwOp])
+def test_logsumexp_mqa(op):
+    if not op.is_available():
+        pytest.skip("not available")
+
+    dtype = torch.float16
+    s = 3
+    query = torch.randn([1, 1, 32, 128], dtype=dtype, device="cuda") * s
+    key = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
+        -1, -1, 32, -1
+    )
+    value = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
+        -1, -1, 32, -1
+    )
+    assert key.stride(2) == 0
+
+    _, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+    )
+    query, key, value = [x[0].transpose(0, 1) for x in [query, key, value]]
+    attn = (query.float() / query.shape[-1] ** 0.5) @ key.float().transpose(-2, -1)
+    ref_lse = attn.logsumexp(-1)
+    assert_allclose(lse[0, :, 0], ref_lse[:, 0], atol=2e-4)
+
+
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("grad_out_contiguous", [False, True])
 @parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
@@ -761,7 +637,7 @@ def test_backward(
         pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
 
     if k % 2 != 0:
-        pytest.skip("head-dim length must be an even value for CK-FlashAttention")
+        pytest.skip("head-dim length must be an even value for CK-FlashAttention")    
 
     if grad_out_contiguous is False:
         pytest.skip("CK-FlashAttention requires grad_out and out have same lengths/strides")
@@ -774,6 +650,12 @@ def test_backward(
         attn_bias_requires_grad=attn_bias_requires_grad,
         fmt=fmt,
     )
+
+    # To understand why we do this, check the comment on the
+    # `AttentionBwOpBase` class
+    scale = None
+    if op_bw.SUPPORTS_CUSTOM_SCALE and query.shape[-1] < 32:
+        scale = (1 / 32) ** 0.5
     op_fw = (
         sample_random_supported_fw(
             fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
@@ -803,10 +685,10 @@ def test_backward(
         pytest.skip("inputs not supported")
 
     out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, op=(op_fw, op_bw)
+        query, key, value, attn_bias, scale=scale, op=(op_fw, op_bw)
     )
 
-    grad_out = torch.ones_like(out)
+    grad_out = torch.randn_like(out)
     if grad_out_contiguous is False:
         grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
             None, None, :
@@ -814,7 +696,7 @@ def test_backward(
 
     out.backward(grad_out)
 
-    if qkv is None and op_bw == fmha.ck.BwOp:
+    if qkv is None and op_bw == fmha.cutlass.BwOp:
         assert query.stride() == query.grad.stride()
 
     grads = []
@@ -831,7 +713,7 @@ def test_backward(
         if attn_bias_grad is not None:
             grads.append(attn_bias_grad)
 
-    ref = ref_attention(query, key, value, attn_bias)
+    ref = ref_attention(query, key, value, attn_bias, scale=scale)
     ref.backward(grad_out)
 
     assert_allclose(
@@ -839,7 +721,7 @@ def test_backward(
         ref.float(),
         "fw pass",
         atol=op_fw.ERROR_ATOL[dtype],
-        rtol=op_fw.ERROR_RTOL.get(dtype, 1e-5),
+        rtol=op_fw.ERROR_RTOL[dtype],
     )
 
     del out
@@ -912,7 +794,6 @@ def _vec_binom_test(x, n, p):
     pval = np.minimum(1.0, pval)
     return pval
 
-
 def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
     if op == fmha.ck.FwOp:
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
@@ -927,7 +808,6 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 
     return mask
 
-
 @cuda_only
 @pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
 @pytest.mark.parametrize("seed", [42, 124])
@@ -944,7 +824,7 @@ def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias
     query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
     key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
     value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-  
+
     inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
     if not op.supports(inputs_for_support_check):
         del query, key, value, attn_bias
@@ -981,11 +861,14 @@ def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias
     p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
     assert all(p_values > p_val_tol)
 
+
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
+    if dtype is torch.bfloat16 and compute_capability < (8, 0):
+        pytest.skip("bf16 requires Sm80")
     if not op.is_available():
         pytest.skip()
 
-    scale = 3
+    scale = 3 
     device = "cuda"
     query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
     key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
@@ -1058,7 +941,7 @@ def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
 @pytest.mark.parametrize("q_len", [2, 33])
 def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
     _test_dropout_backward(
-        q_len, kv_len, batch_size, k, p, op=fmha.ck.FwOp, dtype=torch.float16
+        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
     )
 
 
@@ -1068,30 +951,26 @@ def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
 @pytest.mark.parametrize("batch_size", [1, 2])
 @pytest.mark.parametrize("kv_len", [3, 248, 256])
 @pytest.mark.parametrize("q_len", [3, 248, 256])
-@pytest.mark.parametrize("dt", ["f16", "bf16"])
-def test_dropout_backward_ck(dt, q_len, kv_len, batch_size, k, p):
-    if k > 128:
-        pytest.skip("head-dim size bigger than 128 is not supported by CK-FlashAttention")
-
+@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
+def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
     _test_dropout_backward(
         q_len,
         kv_len,
         batch_size,
         k,
         p,
-        op=fmha.ck.FwOp,
+        op=fmha.cutlass.FwOp,
         dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
     )
 
 
+@cuda_only
 @pytest.mark.parametrize("k_len", [32])
 @pytest.mark.parametrize("batch_size", [1])
 @pytest.mark.parametrize("kv_len", [3 * 32])
 @pytest.mark.parametrize("q_len", [3 * 32])
-@pytest.mark.parametrize("device", _devices)
-def test_memory_efficient_attention_full_block_masked(
-    device, q_len, kv_len, batch_size, k_len
-):
+def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size, k_len):
+    device = "cuda"
     op_fw = fmha.small_k.FwOp
     op_bw = fmha.small_k.BwOp
 
@@ -1153,11 +1032,11 @@ def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
     value.requires_grad_(True)
 
     out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query, key, value, attn_bias, op=fmha.ck.FwOp
+        query, key, value, attn_bias
     )
     assert out.ndim == query.ndim
     dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
-        grad_out, out, lse, query, key, value, attn_bias, op=fmha.ck.BwOp
+        grad_out, out, lse, query, key, value, attn_bias
     )
     assert dq.shape == query.shape
     assert dk.shape == key.shape
@@ -1232,19 +1111,19 @@ def test_cuda_streams(
 @parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
 def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
     p = 0.0
-    scale = 1.0
+    scale = 0.1
 
     (
         op_bw,
         device,
         dtype,
         _,
-        _,
+        B,
         q_len,
         kv_len,
-        _,
+        H,
         k,
-        _,
+        Kv,
     ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     torch.manual_seed(q_len + kv_len + k)
     if device != "cuda":
@@ -1257,7 +1136,7 @@ def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
         query=query, key=key, value=value, attn_bias=attn_bias, scale=scale
     )
     op_fw = sample_random_supported_fw(inputs, seed=q_len * k + kv_len * k)
-    grad_out = torch.ones_like(query)
+    grad_out = query.new_ones(B * H, q_len, Kv)
     query.requires_grad_(True)
     key.requires_grad_(True)
     value.requires_grad_(True)
@@ -1583,20 +1462,16 @@ def test_attn_bias_padded() -> None:
     bsize, n_heads, d, padding = 8, 3, 8, 32
 
     # Q / KV have different seqlen
-    k = torch.randn((bsize, padding, n_heads, d)).cuda().half()
+    k = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
     k_seqlen = [5, 8, 7, 1, 9, 3, 12, 32]
     other = bsize - 1
-    v = torch.randn((bsize, padding, n_heads, d)).cuda().half()
+    v = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
     n_q_first = 4
     q = [
-        torch.randn((1, n_q_first, n_heads, d)).cuda().half(),
-        torch.randn((1, other, n_heads, d)).cuda().half(),
+        torch.randn((1, n_q_first, n_heads, d), device="cuda", dtype=torch.float16),
+        torch.randn((1, other, n_heads, d), device="cuda", dtype=torch.float16),
     ]
     q_cat = torch.cat([x.view(1, -1, n_heads, d) for x in q], dim=1)
-    # causal_diagonal = torch.tensor(
-    #     [0] + [i - 1 for i in k_seqlen[1:]], dtype=torch.int32
-    # ).cuda()
-
     q_seqlen = [n_q_first] + [1] * other
 
     attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
@@ -1635,8 +1510,8 @@ def test_attn_bias_padded() -> None:
     assert_allclose(
         output,
         fmha_output,
-        atol=fmha.ck.FwOp.ERROR_ATOL[torch.float16],
-        rtol=fmha.ck.FwOp.ERROR_RTOL[torch.float16],
+        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
+        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
     )
 
 
@@ -1647,7 +1522,6 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
         return "mq"
     return f"gqa{kv_heads}"
 
-
 @pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
@@ -1709,17 +1583,16 @@ def test_decoder(
     decoder_output = fmha.memory_efficient_attention_forward(
         q, k, v, attn_bias, op=op
     )
-    
-    ref_output = ref_attention(q, k, v, attn_bias, dtype=dtype_)
+
+    ref_output = ref_attention(q, k, v, attn_bias)
 
     assert_allclose(
-        decoder_output,
+        decoder_output.float(),
         ref_output,
         atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
         rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
     )
 
-
 def test_attn_bias_from_seqlens() -> None:
     bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
     out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
@@ -1752,7 +1625,6 @@ def test_attn_bias_blockdiag_doc() -> None:
     q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
     out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None))
     list_out = attn_bias.split(out)
-    print(list_out[0].shape)  # [1, 3, 1, K]
     assert tuple(list_out[0].shape) == (1, 3, 1, K)
 
 
@@ -1785,22 +1657,21 @@ def pad_bias(bias: torch.Tensor) -> torch.Tensor:
 
     def test_f16_biasf32(self) -> None:
         q, k, v, bias = self.create_tensors(torch.float16)
-        fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(fmha.ck.FwOp, None))
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
         bias = bias.to(torch.float32)
         with pytest.raises((ValueError, RuntimeError)):
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(fmha.ck.FwOp, None))
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
 
     def test_f32_biasf16(self) -> None:
-        pytest.skip("float32 is not supported currently by CK-FlashAttention")
         q, k, v, bias = self.create_tensors(torch.float32)
         fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
         bias = bias.to(torch.float16)
         with pytest.raises((ValueError, RuntimeError)):
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
 
-    @pytest.mark.parametrize("dtype", [torch.float16])
+    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
     def test_wrong_alignment(self, dtype) -> None:
-        op = fmha.ck.FwOp
+        op = fmha.cutlass.FwOp
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
         try:
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
@@ -1820,7 +1691,7 @@ def test_wrong_alignment(self, dtype) -> None:
         )
 
     def test_permuted_attn_bias(self) -> None:
-        op = fmha.ck.FwOp
+        op = fmha.cutlass.FwOp
         dtype = torch.float16
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
         bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
@@ -1837,4 +1708,524 @@ def test_permuted_attn_bias(self) -> None:
         except (ValueError, RuntimeError):
             pass
 
+
+SM_AND_SHMEM_KBYTES = [
+    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
+    (50, 64),
+    (60, 64),
+    (70, 96),
+    (75, 64),
+    (80, 163),
+    (86, 99),
+    (89, 99),
+    # (90, 227),
+]
+
+
+@cuda_only
+@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
+@pytest.mark.parametrize(
+    "sm_shmem",
+    SM_AND_SHMEM_KBYTES,
+    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
+)
+def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
+    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
+    sm, shmem_kbytes = sm_shmem
+    if sm < 80 and dtype_str == "bf16":
+        return
+
+    for k in [16, 32, 64, 128, 256]:
+        assert torch.ops.xformers._has_cutlassF_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+        assert torch.ops.xformers._has_cutlassB_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+
+
+def test_window_size_materialize() -> None:
+    seqlens = [4, 6]
+    attn_bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+        q_seqlen=seqlens,
+        kv_seqlen=seqlens,
+    ).make_local_attention(2)
+    mask = attn_bias.materialize(
+        (1, 1, sum(seqlens), sum(seqlens)),
+        device="cpu",
+        dtype=torch.float32,
+    )
+    true_mask = torch.log(
+        torch.Tensor(
+            [
+                [
+                    [
+                        [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0],
+                    ]
+                ]
+            ]
+        )
+    )
+    assert torch.all(mask == true_mask)
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "opFW_biasT",
+    [
+        (op, biasT)
+        for op in ALL_FW_OPS
+        for biasT in op.SUPPORTED_ATTN_BIAS_TYPES
+        if op.SUPPORTS_BMGHK
+    ],
+)
+def test_forward_gqa(opFW_biasT):
+    opFW, biasT = opFW_biasT
+    B_Mq_Mkv_H_K_Kv = (3, 512, 512, 16, 128, 128)
+    test_forward(
+        (
+            opFW,
+            "cuda",
+            torch.float16,
+            biasT,
+            *B_Mq_Mkv_H_K_Kv,
+        ),
+        packed=False,
+        fmt="BMGHK",
+        g=2,
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "opBW",
+    [
+        fmha.flash.BwOp,
+        fmha.cutlass.BwOp,
+    ],
+)
+def test_backward_gqa(opBW):
+    H = 8
+    B_Mq_Mkv_H_K_Kv = (3, 512, 512, H, 128, 128)
+    dtype = torch.float16
+    query, key, value, attn_bias = create_tensors(
+        *(opBW, "cuda", dtype, type(None), *B_Mq_Mkv_H_K_Kv),
+        attn_bias_requires_grad=False,
+        fmt="BMHK",
+    )
+    op = (fmha.cutlass.FwOp, opBW)
+    key = key[:, :, :1].expand(-1, -1, H, -1)
+    value = value[:, :, :1].expand(-1, -1, H, -1)
+    key.requires_grad_(True)
+    out = fmha.memory_efficient_attention(query, key, value, attn_bias=attn_bias)
+    out_ref = ref_attention_bmhk(query, key, value, attn_bias=attn_bias)
+    assert_allclose(
+        out.float(),
+        out_ref.float(),
+        atol=op[0].ERROR_ATOL[dtype],
+        rtol=op[0].ERROR_RTOL[dtype],
+    )
+    out.backward(query)
+    dk = key.grad
+    key.grad = None
+    out_ref.backward(query)
+    assert_allclose(
+        dk.float(),
+        key.grad.float(),
+        atol=op[1].ERROR_ATOL[dtype],
+        rtol=op[1].ERROR_RTOL[dtype],
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("opFW", [op for op in ALL_FW_OPS if op.SUPPORTS_BMGHK])
+def test_forward_gqa_one_group(opFW):
+    dtype = torch.float16
+    B, Mq, Mkv, H, K = 3, 13, 16, 5, 128
+    q = torch.randn([B, Mq, 1, H, K], dtype=dtype, device="cuda") * 3
+    k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
+    v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
+
+    supported = opFW.supports(fmha.Inputs(q, k, v))
+    if not supported:
+        supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
+        assert supported == supported_bmhk
+        pytest.skip("not supported")
+    out = fmha.memory_efficient_attention_forward(q, k, v, op=opFW)
+    ref = ref_attention(q, k, v)
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=opFW.ERROR_ATOL[dtype],
+        rtol=opFW.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+'''
+@sm80_or_better_only
+def test_flash_gqa_wrong_strides() -> None:
+    op = (fmha.flash.FwOp, None)
+    device = "cuda"
+    B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
+    q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
+    kv = torch.empty((B, Mkv, G, H, K), dtype=torch.float16, device=device)
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, H, G, K), dtype=torch.float16, device=device).permute(
+        0, 1, 3, 2, 4
+    )
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, G, 1, K), dtype=torch.float16, device=device)
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, kv, kv, op=op)
+    kv = kv.expand(-1, -1, -1, H, K)
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, G, H, 2 * K), dtype=torch.float16, device=device)[
+        :, :, :, :, :K
+    ]
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+'''
+
+def _dispatches_to_splitK(q, kv):
+    return (
+        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0]
+        is fmha.triton_splitk.FwOp
+    )
+
+
+def _dispatches_to_flash_decoding(q, kv):
+    return (
+        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
+    )
+
+
+def test_dispatch_decoding_bmhk() -> None:
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
+    ), "Should not use SplitK with 1 head (no tensorcores)"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 32, 128]),
+        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should use Flash-Decoding with BMHK MQA"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 32, 128]),
+        torch.empty([1, 2048, 32, 128]),
+    ), "Should not use SplitK when no TensorCores"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 128, 32, 128]),
+        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should not use SplitK if q seqlen is long"
+    assert not _dispatches_to_splitK(
+        torch.empty([128, 8, 32, 128]),
+        torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should not use SplitK if B is big"
+
+
+def test_dispatch_decoding_bmghk() -> None:
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
+    ), "Should not use SplitK with 1 head (no tensorcores)"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should use Flash-Decoding with MQA"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 4, 32, 128]),
+        torch.empty([1, 2048, 4, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should use Flash-Decoding with GQA"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 32, 128]),
+    ), "Should not use SplitK when no TensorCores"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 128, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should not use SplitK if q seqlen is long"
+    assert not _dispatches_to_splitK(
+        torch.empty([128, 8, 1, 32, 128]),
+        torch.empty([128, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should not use SplitK if B is big"
+
+
+shapes_triton_splitk = [
+    (1, 8, 2**16, 1, 128, 128),
+    (1, 4, 2**16, 1, 128, 128),
+    (1, 16, 2**16, 1, 128, 128),
+    (1, 16, 2**16, 1, 32, 32),
+    (1, 8, 1025, 1, 128, 128),
+    (2, 8, 4096, 1, 128, 128),
+    (10, 8, 2**16, 1, 128, 128),
+    (10, 15, 2**16, 1, 128, 128),
+    (1, 3, 2**16, 1, 128, 128),
+    (1, 3, 2**16 - 10, 1, 128, 128),
+    (2, 3, 73, 1, 128, 128),
+    (2, 7, 7328, 1, 128, 128),
+    (2, 7, 7328, 1, 120, 120),
+    (2, 7, 63, 1, 120, 120),
+]
+op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk = [
+    (fmha.triton_splitk.FwOp, "cuda", torch.float16, type(None), *s)
+    for s in shapes_triton_splitk
+] + [
+    (fmha.triton_splitk.FwOp, "cuda", torch.bfloat16, type(None), *s)
+    for s in shapes_triton_splitk
+]
+
+
+@pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk,
+    ids=[make_id(*c) for c in op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk],
+)
+@cuda_only
+def test_forward_splitk(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed=False,
+    fmt="BMHK",
+):
+    test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed=packed, fmt=fmt)
+
+
+@cuda_only
+@pytest.mark.parametrize("op", [fmha.triton_splitk.FwOp])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize(
+    "B_Mkv_H_K",
+    [
+        (1, 2**16, 3, 128),
+        (5, 53, 4, 64),
+    ],
+)
+def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
+    B, Mkv, H, K = B_Mkv_H_K
+    q = torch.randn([B, 1, H, K], dtype=dtype, device="cuda") * 3
+    k = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
+    v = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
+    k = k.expand(-1, -1, H, -1)
+    v = v.expand(-1, -1, H, -1)
+
+    if not op.supports(fmha.Inputs(q, k, v)):
+        pytest.skip("not supported")
+    out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
+    ref = ref_attention(q, k, v)
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_query(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    query = query[:, :0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    assert out.shape[1] == 0
+    out.backward(out)
+    # dK/dV should be all zeros
+    assert_allclose(key.grad, torch.zeros_like(key.grad), "key.grad")
+    assert_allclose(value.grad, torch.zeros_like(value.grad), "value.grad")
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_kv(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    key = key[:, :0]
+    value = value[:, :0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    assert_allclose(out, torch.zeros_like(out), "out")
+    out.backward(out)
+    # dQ should be all zeros
+    assert_allclose(query.grad, torch.zeros_like(query.grad), "query.grad")
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_b(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    query, key, value = query[:0], key[:0], value[:0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    out.backward(out)
+
+
+def test_local_attn_bias() -> None:
+    mask = (
+        fmha.attn_bias.LocalAttentionFromBottomRightMask(window_left=1, window_right=2)
+        .materialize(shape=(4, 4))
+        .exp()
+    )
+
+    expected = torch.tensor(
+        [[1, 1, 1, 0], [1, 1, 1, 1], [0, 1, 1, 1], [0, 0, 1, 1]], dtype=torch.float32
+    )
+    assert (mask == expected).all().item()
+
+
+@cuda_only
+@pytest.mark.parametrize("cc", [60, 70, 80])
+@pytest.mark.parametrize("maxK", [32, 64, 128, 256])
+@pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+@pytest.mark.parametrize(
+    "custom_mask_type",
+    [
+        fmha.cutlass._CustomMaskType.NoCustomMask,
+        fmha.cutlass._CustomMaskType.CausalFromTopLeft,
+        fmha.cutlass._CustomMaskType.CausalFromBottomRight,
+    ],
+)
+@pytest.mark.parametrize("window_size", [0, 3, 300])
+@pytest.mark.parametrize(
+    "num_queries,num_keys",
+    [
+        (30, 66),
+        (256, 256),
+        # Edge cases
+        (314, 320),
+        (32, 256),
+        (224, 226),
+        (5, 531),
+        (320, 332),  # for win_size=300
+        # Others
+        (256, 62),
+        (256, 63),
+        (256, 64),
+        (256, 65),
+        (256, 66),
+    ],
+)
+def test_cutlassB_iter_order(
+    dtype,
+    cc: int,
+    maxK: int,
+    num_queries: int,
+    num_keys: int,
+    custom_mask_type,
+    window_size,
+) -> None:
+    """
+    This tests some internals of the cutlassB kernel
+    We test the iteration across blocks of [queries, keys] to ensure
+    that we correctly:
+    * Iterate over all the blocks that should be iterated
+    * Do *not* iterate over blocks that are completely masked out
+    * Correctly compute the number of parallel blocks that will compute
+        the same block of dQ
+    .. and we test this across variable causal masks+local attention combinations
+    """
+    if (
+        window_size > 0
+        and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
+    ):
+        pytest.skip("LocalAttention is only supported for causal")
+    get_iteration_data = partial(
+        torch.ops.xformers._cutlassB_iteration_data,
+        dtype=dtype,
+        cc=cc,
+        maxK=maxK,
+        num_queries=num_queries,
+        num_keys=num_keys,
+        custom_mask_type=custom_mask_type,
+        window_size=window_size,
+    )
+    bias = torch.zeros([num_queries, num_keys], dtype=torch.float32)
+    if custom_mask_type != fmha.cutlass._CustomMaskType.NoCustomMask:
+        bias = fmha.attn_bias._materialize_causal_mask(
+            (num_queries, num_keys),
+            dtype=torch.float32,
+            device="cpu",
+            window_size=None if window_size == 0 else window_size,
+            from_bottomright=(
+                custom_mask_type == fmha.cutlass._CustomMaskType.CausalFromBottomRight
+            ),
+        )
+
+    block_queries, block_keys = get_iteration_data()[:2]
+    mask_pooled = (
+        F.max_pool2d(bias.unsqueeze(0), (block_queries, block_keys), ceil_mode=True)
+        == 0
+    ).int()[0]
+    attn_computed = torch.zeros_like(mask_pooled)
+    for key_start in range(0, num_keys, block_keys):
+        it = 0
+        new_key_start = key_start
+        new_query_start = get_iteration_data(key_start=key_start)[2]
+        try:
+            expected_first_query = (
+                mask_pooled[:, key_start // block_keys].tolist().index(1)
+                * block_queries
+            )
+            assert (
+                new_query_start == expected_first_query
+            ), f"Wrong first query for K={key_start}: {new_query_start} (expected {expected_first_query})"
+        except ValueError:  # Nothing to compute in this column
+            pass
+
+        while new_key_start == key_start and new_query_start < num_queries:
+            query_start = new_query_start
+            attn_computed[query_start // block_queries, key_start // block_keys] += 1
+            # print(f"Compute [{query_start}, {key_start}]")
+
+            # Is there something to compute here?
+            assert mask_pooled[
+                query_start // block_queries, key_start // block_keys
+            ].item(), "Computing a block that is not needed!"
+            new_query_start, new_key_start = get_iteration_data(
+                key_start=key_start, query_start=query_start
+            )[3:5]
+            it += 1
+            assert it < num_queries, ""
+        assert (attn_computed == mask_pooled)[
+            :, key_start // block_keys
+        ].all(), "some blocks were not computed!"
+
+    # Now check that the number returned by `getNumParallelBlocksForQuery` is correct
+    for query_start in range(0, num_queries, block_queries):
+        num_parallel_blocks = get_iteration_data(
+            query_start=query_start, num_splits_key=num_keys
+        )[5]
+        num_actual = mask_pooled[query_start // block_queries].sum().item()
+        assert num_parallel_blocks == num_actual
+
+
 # end of file

From 6aef46d7905883be6bd9e25de1bc18eba95e12c4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 28 Dec 2023 00:16:56 +0000
Subject: [PATCH 315/837] Tiny update in benchmark_mem_eff_attn_decoder_ck.py

---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
index bfbe4c35b5..86d4813cf4 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
@@ -13,7 +13,6 @@
 
 import xformers.ops
 import xformers.ops.fmha as fmha
-import xformers.profiler.slow_ops_profiler
 
 torch.backends.cuda.matmul.allow_tf32 = False
 

From 4a1cea0d1f44204afc97e4518a6bfd13f513acff Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 28 Dec 2023 00:29:33 +0000
Subject: [PATCH 316/837] Synchronize benchmark_mem_eff_attention_ck.py with
 benchmark_mem_eff_attention.py

---
 .../benchmark_mem_eff_attention_ck.py         | 131 +++++++++++-------
 1 file changed, 79 insertions(+), 52 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
index 0c754d8c18..e683a7f064 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
@@ -14,31 +14,11 @@
 
 import xformers.ops
 import xformers.ops.fmha as fmha
+from xformers.attn_bias_utils import create_attn_bias
 
 torch.backends.cuda.matmul.allow_tf32 = False
 
 
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    bias_requires_grad: bool = False,
-):
-    NoneType = type(None)
-    if bias_type is NoneType:
-        return None
-    if bias_type is torch.Tensor:
-        attn_bias = torch.randn((1, 1, q_len, kv_len), device=device, dtype=dtype)
-        return attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-    if bias_type is xformers.ops.LowerTriangularMask:
-        return bias_type()
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
 def ref_attention_bmk(q, k, v, attn_bias=None, p=0.0):
     if isinstance(attn_bias, xformers.ops.AttentionMask):
         attn_bias = (
@@ -160,6 +140,12 @@ def product_dict(**kwargs):
                 {"attn_bias_cfg": (torch.Tensor, False)},
                 {"attn_bias_cfg": (torch.Tensor, True)},
                 {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
+                {
+                    "attn_bias_cfg": (
+                        xformers.ops.fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+                        False,
+                    )
+                },
                 {"dtype": torch.bfloat16},
                 ##{"dtype": torch.float},
             ]
@@ -168,31 +154,40 @@ def product_dict(**kwargs):
     CASES.append(c)
 
 
-def create_tensors(shape, dtype, requires_grad=False):
-    B, M, H, K = shape
+def create_tensors(shape, dtype, requires_grad=False, packed=True, multiquery=False):
+    stacked_shape = list(shape)  # B, M, H, K
+    stacked_dim = 2 if packed else 0
+    stacked_shape.insert(stacked_dim, 3)
     qkv = torch.rand(
-        [B, M, 3, H, K], device=device, dtype=dtype, requires_grad=requires_grad
+        stacked_shape, device=device, dtype=dtype, requires_grad=requires_grad
     )
-    q, k, v = xformers.ops.unbind(qkv, 2)
+    q = torch.rand(shape, device=device, dtype=dtype, requires_grad=requires_grad)
+    shape_kv = (shape[0], shape[1], 1 if multiquery else shape[2], shape[3])
+    k = torch.rand(
+        shape_kv, device=device, dtype=dtype, requires_grad=requires_grad
+    ).expand(shape)
+    v = torch.rand(
+        shape_kv, device=device, dtype=dtype, requires_grad=requires_grad
+    ).expand(shape)
     return qkv, q, k, v
 
-def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+
+def mem_eff_attention_fw(
+    shape,
+    num_threads: int,
+    attn_bias_cfg,
+    dropout_p,
+    dtype,
+    packed=True,
+    multiquery=False,
+):
     B, M, H, K = shape
-    _, q, k, v = create_tensors(shape, dtype)
+    _, q, k, v = create_tensors(
+        shape, dtype, requires_grad=False, packed=packed, multiquery=multiquery
+    )
     attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
     if attn_bias_requires_grad:
         return
-    bias = create_attn_bias(
-        attn_bias_type,
-        batch_size=B,
-        num_heads=H,
-        q_len=M,
-        kv_len=M,
-        device=device,
-        dtype=dtype,
-        bias_requires_grad=attn_bias_requires_grad,
-    )
-    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
 
     dtype_str = {
         torch.bfloat16: "b16",
@@ -206,6 +201,28 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
 
     has_run = False
     for fw_op, bw_op in OPS:
+        bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=H,
+            num_heads_groups=1,
+            q_len=M,
+            kv_len=M,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt="BMHK",
+            op=fw_op,
+        )
+        inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+        if isinstance(
+            bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            q, k, v = [x.reshape([1, -1, *x.shape[2:]]) for x in [q, k, v]]
         if not fw_op.supports(inp):
             continue
 
@@ -250,20 +267,9 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
 
 def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
     B, M, H, K = shape
-    _, q, k, v = create_tensors(shape, dtype, requires_grad=True)
+    qkv, q, k, v = create_tensors(shape, dtype, requires_grad=True)
 
     attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
-    bias = create_attn_bias(
-        attn_bias_type,
-        batch_size=B,
-        num_heads=H,
-        q_len=M,
-        kv_len=M,
-        device=device,
-        dtype=dtype,
-        bias_requires_grad=attn_bias_requires_grad,
-    )
-    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
 
     dtype_str = {
         torch.bfloat16: "b16",
@@ -277,6 +283,21 @@ def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
 
     has_run = False
     for fw_op, bw_op in OPS:
+        bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=H,
+            num_heads_groups=1,
+            q_len=M,
+            kv_len=M,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt="BMHK",
+            op=bw_op,
+        )
+        inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
+
         if not fw_op.supports(inp) or not bw_op.supports(inp):
             continue
         has_run = True
@@ -312,5 +333,11 @@ def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
         num_threads=num_threads,
     )
 
-benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
-benchmark_main_helper(mem_eff_attention_bw, CASES, min_run_time=min_run_time)
+
+def main():
+    benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
+    benchmark_main_helper(mem_eff_attention_bw, CASES, min_run_time=min_run_time)
+
+
+if __name__ == "__main__":
+    main()

From c5ca494c8cd89ad977504569a28434c4faf7fc2b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 28 Dec 2023 22:31:34 +0000
Subject: [PATCH 317/837] Remove benchmark_mem_eff_attn_decoder_ck_tiled.py

---
 ...benchmark_mem_eff_attn_decoder_ck_tiled.py | 210 ------------------
 1 file changed, 210 deletions(-)
 delete mode 100644 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
deleted file mode 100644
index 1e8239ace7..0000000000
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck_tiled.py
+++ /dev/null
@@ -1,210 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-
-import itertools
-from functools import partial
-
-import torch
-from torch.utils import benchmark
-from utils import benchmark_main_helper
-
-import xformers.ops
-import xformers.ops.fmha as fmha
-import xformers.profiler.slow_ops_profiler
-
-torch.backends.cuda.matmul.allow_tf32 = False
-
-# Run with
-#  python xformers/benchmarks/benchmark_mem_eff_attn_decoder.py --omit-baselines --quiet
-# The baselines for these benchmarks are really slow because there is
-# so much padding in the inputs, so there is no point running them.
-
-
-def ref_attention_bmk(q, k, v, attn_bias=None):
-    if isinstance(attn_bias, xformers.ops.AttentionMask):
-        attn_bias = (
-            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
-            .to(q)
-            .squeeze()
-        )
-    q = q * (1.0 / q.shape[-1] ** 0.5)
-    if attn_bias is None:
-        attn = q @ k.transpose(-2, -1)
-    else:
-        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
-        # but faster, and is what is used in PyTorch now
-        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
-    attn = attn.softmax(-1)
-    return attn @ v
-
-
-def ref_attention(q, k, v, attn_bias):
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-min_run_time = 0.5
-device = torch.device("cuda")
-
-NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
-
-OPS = [
-    xformers.ops.fmha.ck.FwOp,
-    ##xformers.ops.fmha.ck_decoder.FwOp
-]
-
-KV_SHAPES = [
-    # list of n_keys, padding_length, batchsize
-    (2, 64, 3),
-    (32, 1024, 500),  
-    (1000, 1024, 2),
-    (8000, 8192, 1),
-    (240, 256, 32),
-    (2048, 2 * 1024, 4),
-    (4096 * 2, 8 * 1024, 1),
-]
-
-N_HEADS = [8, 16, 64]
-
-
-def product_dict(**kwargs):
-    keys = kwargs.keys()
-    vals = kwargs.values()
-    for instance in itertools.product(*vals):
-        yield dict(zip(keys, instance))
-
-
-CASES = list(
-    product_dict(
-        kv_shape=KV_SHAPES,
-        n_heads=N_HEADS,
-        num_threads=NUM_THREADS,
-        multiquery=[True, False],
-    )
-)
-
-def get_memory_traffic(op, q, k, v, bias):
-    # mem_size = ( batch_size * seq_len * 1 * dim_per_head * 2 (K/V) + 
-    #              batch_size * 1 * num_heads * dim_per_head (Q) + 
-    #              batch_size * seq_len * num_heads * dim_per_head (attn_output) ) * bytes_per_element
-    out = xformers.ops.memory_efficient_attention_forward(q, k, v, bias, op=op)
-    dtype = q.dtype
-    multiquery = k.stride(2) == 0
-    n_heads = q.shape[-2]
-    dim_per_head = q.shape[-1]
-    kv_seqlen = bias.k_seqinfo.seqlen_py
-    bytes_per_element = 4 if dtype is torch.float32 else 2 if dtype in (torch.float16, torch.bfloat16) else None
-    mem_size = 0
-    mem_size += q.numel() * bytes_per_element # Q
-    for s in kv_seqlen: # len(kv_seqlen) == batch_size
-        mem_size += s * (1 if multiquery else n_heads) * dim_per_head * bytes_per_element * 2 # K, V
-    mem_size += out.numel() * bytes_per_element # attn_output
-    return mem_size
-
-def mem_eff_attention_decoder(
-    kv_shape, n_heads: int, num_threads: int, multiquery: bool
-):
-    n_keys, padding, B = kv_shape
-    torch.manual_seed(42)
-    k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
-    K = 128
-    ##dtype = torch.bfloat16
-    dtype = torch.float16
-    q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
-    if multiquery:
-        k = torch.rand(
-            1, B * padding, 1, K, device=device, dtype=dtype
-        ).expand(1, B * padding, n_heads, K)
-        v = torch.rand(
-            1, B * padding, 1, K, device=device, dtype=dtype
-        ).expand(1, B * padding, n_heads, K)
-    else:
-        k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
-        v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
-
-    bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[1] * B,
-        kv_seqlen=k_seqlen,
-        kv_padding=padding,
-    )
-
-    sub_label = f"{B}batch-{k_seqlen[0]}keys-{n_heads}heads"
-    if multiquery:
-        sub_label += "-mq"
-
-    has_run = False
-
-    for fw_op in OPS:
-        inp = fmha.Inputs(q, k, v, attn_bias=bias)
-        if (skip_reasons := fw_op.not_supported_reasons(inp)):
-            print(f"Skip benchmark: {skip_reasons=}")
-            continue
-
-        fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
-
-        mem_size = get_memory_traffic(fw_op, q, k, v, bias)
-
-        yield benchmark.Timer(
-            stmt=f"fn(q, k, v, attn_bias)",
-            globals={
-                "q": q,
-                "k": k,
-                "v": v,
-                "attn_bias": bias,
-                "fn": fn,
-            },
-            label="attention",
-            description=fw_op.NAME,
-            sub_label=f"{sub_label}_{mem_size//1024}k",
-            num_threads=num_threads,
-        )
-
-        graph = torch.cuda.CUDAGraph()
-        with torch.cuda.graph(graph):
-            fn(q, k, v, bias)
-        yield benchmark.Timer(
-            stmt="graph.replay()",
-            globals={
-                "graph": graph,
-            },
-            label="cuda graphed attention",
-            description=fw_op.NAME,
-            sub_label=f"{sub_label}_{mem_size//1024}k",
-            num_threads=num_threads,
-        )
-
-        has_run = True
-
-    if not has_run:
-        return
-
-    RUN_BASELINES = False
-    if RUN_BASELINES:
-        yield benchmark.Timer(
-            stmt="fn(q, k, v, attn_bias)",
-            globals={
-                "q": q,
-                "k": k,
-                "v": v,
-                "attn_bias": bias,
-                "fn": ref_attention,
-            },
-            label="attention",
-            description="eager",
-            sub_label=sub_label,
-            num_threads=num_threads,
-        )
-
-
-benchmark_main_helper(mem_eff_attention_decoder, CASES, min_run_time=min_run_time)

From 8ebfd5fa745d6f62a5aca8b27bb69ac7885d8b8d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 3 Jan 2024 23:06:53 +0000
Subject: [PATCH 318/837] Support for Generic Attention Mask Coordinate

---
 setup.py                                      |   5 +-
 third_party/composable_kernel_tiled           |   2 +-
 xformers/csrc/attention/attention.cpp         |   8 +
 .../attention_forward_generic_ck_tiled.cpp    |   5 +-
 .../attention/hip_fmha/ck_tiled_bool_switch.h |   9 +
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 130 ++++---
 .../ck_tiled_fmha_batched_infer_bp16.cpp      |  44 +--
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  44 +--
 .../hip_fmha/ck_tiled_fmha_definitions.h      |   4 +-
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 333 +++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  80 +++--
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      |  44 +--
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  44 +--
 .../attention/hip_fmha/ck_tiled_fmha_params.h |   2 +
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |  13 -
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |  13 -
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |  13 -
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |  13 -
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |  13 -
 ..._infer_bp16_no_causalmask_no_attnbias.cpp} |   5 +-
 ...nfer_bp16_no_causalmask_with_attnbias.cpp} |   5 +-
 ...nfer_bp16_with_causalmask_no_attnbias.cpp} |   5 +-
 ...er_bp16_with_causalmask_with_attnbias.cpp} |   5 +-
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |  13 -
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |  13 -
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |  13 -
 ...d_infer_fp16_no_causalmask_no_attnbias.cpp |  12 +
 ...infer_fp16_no_causalmask_with_attnbias.cpp |  12 +
 ...infer_fp16_with_causalmask_no_attnbias.cpp |  12 +
 ...fer_fp16_with_causalmask_with_attnbias.cpp |  12 +
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |  13 -
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |  13 -
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |  13 -
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |  13 -
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |  13 -
 ..._infer_bp16_no_causalmask_no_attnbias.cpp} |   5 +-
 ...nfer_bp16_no_causalmask_with_attnbias.cpp} |   5 +-
 ...nfer_bp16_with_causalmask_no_attnbias.cpp} |   5 +-
 ...er_bp16_with_causalmask_with_attnbias.cpp} |   5 +-
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |  13 -
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |  13 -
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |  13 -
 ...d_infer_fp16_no_causalmask_no_attnbias.cpp |  12 +
 ...infer_fp16_no_causalmask_with_attnbias.cpp |  12 +
 ...infer_fp16_with_causalmask_no_attnbias.cpp |  12 +
 ...fer_fp16_with_causalmask_with_attnbias.cpp |  12 +
 xformers/ops/fmha/ck.py                       |   1 +
 47 files changed, 488 insertions(+), 611 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp} (58%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp} (58%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp} (58%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp} (58%)
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp} (58%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp} (58%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp} (58%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp} (58%)
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp

diff --git a/setup.py b/setup.py
index 517a78b637..84629d2294 100644
--- a/setup.py
+++ b/setup.py
@@ -346,7 +346,10 @@ def get_extensions():
        else:
            include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include']
            
-       generator_flag = []
+       if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
+           generator_flag = ["-DUSE_CK_TILED_KERNEL"]
+       else:
+           generator_flag = []
        cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
        extra_compile_args={
             "cxx": ["-O3", "-std=c++17"] + generator_flag,
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 3ffae938ac..afea7392d5 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 3ffae938aca3d595cdae4e89564a6d063c09d0b5
+Subproject commit afea7392d59cbd71247336483f5cf190c0929866
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 5b379a724e..3989ebd29c 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -25,11 +25,19 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
 #if defined(USE_ROCM)
+#if defined(USE_CK_TILED_KERNEL)
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_ck(Tensor query, "
+          "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
+          "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
+          "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
+#else
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, "
           "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
           "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
           "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
+#endif
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
           "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index dbaecf40fa..d63f0d6bf1 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -65,7 +65,8 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
     bool compute_logsumexp,
     int64_t custom_mask_type,
     c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k)
+    const c10::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> window_size)
 {
     TORCH_CHECK(query.dim() == 4);
     TORCH_CHECK(key.dim() == 4);
@@ -206,6 +207,7 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
             p.has_attn_bias = false;
 
         p.custom_mask_type = custom_mask_type;
+        p.window_size      = window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
 
         p.use_dropout       = use_dropout;
         p.philox_seed       = philox_seed;
@@ -287,6 +289,7 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
             p.has_attn_bias = false;
 
         p.custom_mask_type = custom_mask_type;
+        p.window_size      = window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
 
         // max_seqlen_q is used to create logsumexp tensor
         p.max_seqlen_q = *max_seqlen_q_;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h
new file mode 100644
index 0000000000..c07559a3ca
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h
@@ -0,0 +1,9 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/utility/static_switch.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 9ad19cb6f2..2ea3d4f506 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -25,6 +25,7 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck/tile_program/block_tile/block_masking.hpp>
 
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
@@ -32,8 +33,10 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_fmha_definitions.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_infer_masktype_attnbias_dispatched
+#include "ck_tiled_bool_switch.h"
+
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+struct batched_infer_causalmask_attnbias_dispatched
 {
     using QDataType           = scalar_t;
     using KDataType           = scalar_t;
@@ -47,9 +50,6 @@ struct batched_infer_masktype_attnbias_dispatched
 
     using VLayout = ck::tensor_layout::gemm::RowMajor;
 
-    static constexpr auto masktype = static_cast<CausalMaskType>(custom_mask_type);
-    using FmhaCausalMask           = typename CausalMaskPredicate<masktype>::predicate;
-
     using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
     using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
     using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
@@ -89,7 +89,7 @@ struct batched_infer_masktype_attnbias_dispatched
     }()
 #endif
 
-    template <typename FmhaTraits, typename FmhaShape>
+    template <typename FmhaTraits, typename FmhaShape, typename FmhaMask>
     using FmhaPipelineProblemTemp =
         ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
                                                           KDataType,
@@ -103,54 +103,73 @@ struct batched_infer_masktype_attnbias_dispatched
                                                           256, // BlockSize
                                                           FmhaShape,
                                                           false, // kIsGroupMode
-                                                          FmhaCausalMask,
+                                                          FmhaMask,
                                                           FmhaTraits>;
 
     static void Run(BatchedForwardParams& param, hipStream_t stream)
     {
-        BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-            using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-
-            if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
-            {
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<false, false, has_attn_bias>;
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-            }
-            else if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 != 0)
-            {
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<false, true, has_attn_bias>;
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-            }
-            else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 == 0)
-            {
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<true, false, has_attn_bias>;
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-            }
-            else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 != 0)
-            {
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaShape>;
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-            };
+        const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+            using FmhaMask =
+                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+            BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+                using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+
+                if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
+                {
+                    using FmhaTraits =
+                        ck::tile_program::TileFmhaTraits<false, false, has_attn_bias>;
+
+                    using FmhaPipelineProblem =
+                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                }
+                else if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 != 0)
+                {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<false, true, has_attn_bias>;
+                    using FmhaPipelineProblem =
+                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                }
+                else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 == 0)
+                {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<true, false, has_attn_bias>;
+                    using FmhaPipelineProblem =
+                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                }
+                else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 != 0)
+                {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
+                    using FmhaPipelineProblem =
+                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                };
+            });
         });
     };
 
@@ -184,7 +203,9 @@ struct batched_infer_masktype_attnbias_dispatched
                 param.k_strides[0],
                 param.v_strides[0],
                 param.attn_bias_strides[0],
-                param.out_strides[0]);
+                param.out_strides[0],
+                static_cast<CausalMaskType>(param.custom_mask_type),
+                param.window_size);
         }();
 
         dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
@@ -196,9 +217,10 @@ struct batched_infer_masktype_attnbias_dispatched
     };
 };
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_infer_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+void run_batched_infer_causalmask_attnbias_dispatched(BatchedForwardParams& param,
+                                                      hipStream_t stream)
 {
-    batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+    batched_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias>::Run(
         param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index c45f4ba004..815fee8978 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -8,45 +8,33 @@
 #include <ck/utility/data_type.hpp>
 #include <stdexcept>
 
-#include "ck_bool_switch.h"
+#include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+    BatchedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+    BatchedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+    BatchedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+    BatchedForwardParams& param, hipStream_t stream);
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream)
 {
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
         if(param.custom_mask_type == 0)
-            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
+            run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 1)
-            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
+            run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 2)
-            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
+            run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else
             throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 873d6b0933..3f3a61fb06 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -8,45 +8,33 @@
 #include <ck/utility/data_type.hpp>
 #include <stdexcept>
 
-#include "ck_bool_switch.h"
+#include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
+    BatchedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
+    BatchedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
+    BatchedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
+    BatchedForwardParams& param, hipStream_t stream);
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream)
 {
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
         if(param.custom_mask_type == 0)
-            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
+            run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 1)
-            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
+            run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 2)
-            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
+            run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else
             throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index ff91b9fa63..edaf8a308b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -6,7 +6,7 @@
  */
 #pragma once
 
-#include <ck/tile_program/block_tile/block_masking_specialization.hpp>
+//#include <ck/tile_program/block_tile/block_masking_specialization.hpp>
 
 enum struct CausalMaskType
 {
@@ -15,6 +15,7 @@ enum struct CausalMaskType
     MaskUpperTriangleFromBottomRight
 };
 
+/*
 template <CausalMaskType type>
 struct CausalMaskPredicate;
 
@@ -35,3 +36,4 @@ struct CausalMaskPredicate<CausalMaskType::MaskUpperTriangleFromBottomRight>
 {
     using predicate = ck::tile_program::block::MaskUpperTriangleFromBottomRightPredicate;
 };
+*/
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index a36f3cb1c3..94b36c2350 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,9 +8,12 @@
 
 #include <type_traits>
 
-#include "ck/utility/common_header.hpp"
-#include "ck/tensor/tensor_view.hpp"
-#include "ck/tile_program/tile/tile_window.hpp"
+#include <ck/utility/common_header.hpp>
+#include <ck/tensor/tensor_view.hpp>
+#include <ck/tile_program/tile/tile_window.hpp>
+#include <ck/tile_program/block_tile/block_masking.hpp>
+
+#include "ck_tiled_fmha_definitions.h"
 
 // S[seqlen_q, seqlen_k] = Q[seqlen_q, hdim_q] * K[seqlen_k, hdim_q]
 // S'[seqlen_q, seqlen_k] = S[seqlen_q, seqlen_k] * Scale[1]
@@ -18,10 +21,6 @@
 // P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
 // O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
 
-#ifndef C_LOG2E
-#define C_LOG2E 1.44269504088896340736 // log2(e)
-#endif
-
 template <typename TilePartitioner_, typename FmhaPipeline_, typename EpiloguePipeline_>
 struct FmhaFwdKernel
 {
@@ -43,60 +42,23 @@ struct FmhaFwdKernel
     static constexpr bool kM0NeedPadding   = FmhaPipeline::kM0NeedPadding;
     static constexpr bool kN0K1NeedPadding = FmhaPipeline::kN0K1NeedPadding;
     static constexpr bool kHasBias         = FmhaPipeline::kHasBias;
+    using FmhaMask                         = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
+    static constexpr bool kHasMask         = FmhaMask::IsMasking;
 
-    using C0MatrixMask = ck::tile_program::block::C0MatrixMask_impl<
-        ck::remove_cvref_t<typename FmhaPipeline::BlockFmhaMask>>;
+    // using C0MatrixMask = ck::tile_program::block::C0MatrixMask_impl<
+    //     ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>>;
 
     private:
+    template <ck::index_t I> // to avoid duplicated base class prblem, introduce an template arg
     struct EmptyKargs
     {
     };
 
+    // kargs use aggregate initializer, so no constructor will provided
+    // use inheritance to minimize karg size
+    // user need to use MakeKargs() function to create kargs.
     struct CommonKargs
     {
-        __host__ constexpr CommonKargs(const void* q_ptr_,
-                                       const void* k_ptr_,
-                                       const void* v_ptr_,
-                                       void* o_ptr_,
-                                       ck::index_t seqlen_q_,
-                                       ck::index_t seqlen_k_,
-                                       ck::index_t hdim_q_,
-                                       ck::index_t hdim_v_,
-                                       ck::index_t nhead_ratio_qk_,
-                                       float scale_,
-                                       ck::index_t stride_q_,
-                                       ck::index_t stride_k_,
-                                       ck::index_t stride_v_,
-                                       ck::index_t stride_o_,
-                                       ck::index_t nhead_stride_q_,
-                                       ck::index_t nhead_stride_k_,
-                                       ck::index_t nhead_stride_v_,
-                                       ck::index_t nhead_stride_o_)
-            : q_ptr{reinterpret_cast<const QDataType*>(q_ptr_)},
-              k_ptr{reinterpret_cast<const KDataType*>(k_ptr_)},
-              v_ptr{reinterpret_cast<const VDataType*>(v_ptr_)},
-              o_ptr{reinterpret_cast<ODataType*>(o_ptr_)},
-              seqlen_q{seqlen_q_},
-              seqlen_k{seqlen_k_},
-              hdim_q{hdim_q_},
-              hdim_v{hdim_v_},
-              nhead_ratio_qk{nhead_ratio_qk_},
-#if CK_FMHA_FWD_FAST_EXP2
-              scale{static_cast<float>(scale_ * C_LOG2E)},
-#else
-              scale{scale_},
-#endif
-              stride_q{stride_q_},
-              stride_k{stride_k_},
-              stride_v{stride_v_},
-              stride_o{stride_o_},
-              nhead_stride_q{nhead_stride_q_},
-              nhead_stride_k{nhead_stride_k_},
-              nhead_stride_v{nhead_stride_v_},
-              nhead_stride_o{nhead_stride_o_}
-        {
-        }
-
         const QDataType* q_ptr;
         const KDataType* k_ptr;
         const VDataType* v_ptr;
@@ -135,107 +97,26 @@ struct FmhaFwdKernel
         ck::index_t batch_stride_bias = 0;
     };
 
-    struct BatchModeKargs : CommonKargs,
-                            std::conditional_t<kHasBias, BatchModeBiasKargs, EmptyKargs>
+    struct MaskKargs
     {
-        __host__ constexpr BatchModeKargs(const void* q_ptr_,
-                                          const void* k_ptr_,
-                                          const void* v_ptr_,
-                                          void* o_ptr_,
-                                          ck::index_t seqlen_q_,
-                                          ck::index_t seqlen_k_,
-                                          ck::index_t hdim_q_,
-                                          ck::index_t hdim_v_,
-                                          ck::index_t nhead_ratio_qk_,
-                                          float scale_,
-                                          ck::index_t stride_q_,
-                                          ck::index_t stride_k_,
-                                          ck::index_t stride_v_,
-                                          ck::index_t stride_o_,
-                                          ck::index_t nhead_stride_q_,
-                                          ck::index_t nhead_stride_k_,
-                                          ck::index_t nhead_stride_v_,
-                                          ck::index_t nhead_stride_o_,
-                                          ck::index_t batch_stride_q_,
-                                          ck::index_t batch_stride_k_,
-                                          ck::index_t batch_stride_v_,
-                                          ck::index_t batch_stride_o_)
-            : CommonKargs{q_ptr_,
-                          k_ptr_,
-                          v_ptr_,
-                          o_ptr_,
-                          seqlen_q_,
-                          seqlen_k_,
-                          hdim_q_,
-                          hdim_v_,
-                          nhead_ratio_qk_,
-                          scale_,
-                          stride_q_,
-                          stride_k_,
-                          stride_v_,
-                          stride_o_,
-                          nhead_stride_q_,
-                          nhead_stride_k_,
-                          nhead_stride_v_,
-                          nhead_stride_o_},
-              batch_stride_q{batch_stride_q_},
-              batch_stride_k{batch_stride_k_},
-              batch_stride_v{batch_stride_v_},
-              batch_stride_o{batch_stride_o_}
-        {
-        }
+        CausalMaskType mask_type;
+        ck::index_t window_size;
+    };
 
+    struct BatchModeKargs : CommonKargs,
+                            std::conditional_t<kHasBias, BatchModeBiasKargs, EmptyKargs<0>>,
+                            std::conditional_t<kHasMask, MaskKargs, EmptyKargs<1>>
+    {
         ck::index_t batch_stride_q;
         ck::index_t batch_stride_k;
         ck::index_t batch_stride_v;
         ck::index_t batch_stride_o;
     };
 
-    struct GroupModeKargs : CommonKargs, std::conditional_t<kHasBias, CommonBiasKargs, EmptyKargs>
+    struct GroupModeKargs : CommonKargs,
+                            std::conditional_t<kHasBias, CommonBiasKargs, EmptyKargs<0>>,
+                            std::conditional_t<kHasMask, MaskKargs, EmptyKargs<1>>
     {
-        __host__ constexpr GroupModeKargs(const void* q_ptr_,
-                                          const void* k_ptr_,
-                                          const void* v_ptr_,
-                                          void* o_ptr_,
-                                          const void* seqstart_q_ptr_,
-                                          const void* seqstart_k_ptr_,
-                                          const void* seqlen_k_ptr_,
-                                          ck::index_t hdim_q_,
-                                          ck::index_t hdim_v_,
-                                          ck::index_t nhead_ratio_qk_,
-                                          float scale_,
-                                          ck::index_t stride_q_,
-                                          ck::index_t stride_k_,
-                                          ck::index_t stride_v_,
-                                          ck::index_t stride_o_,
-                                          ck::index_t nhead_stride_q_,
-                                          ck::index_t nhead_stride_k_,
-                                          ck::index_t nhead_stride_v_,
-                                          ck::index_t nhead_stride_o_)
-            : CommonKargs{q_ptr_,
-                          k_ptr_,
-                          v_ptr_,
-                          o_ptr_,
-                          -1 /* will be updated inside the kernel */,
-                          -1 /* will be updated inside the kernel */,
-                          hdim_q_,
-                          hdim_v_,
-                          nhead_ratio_qk_,
-                          scale_,
-                          stride_q_,
-                          stride_k_,
-                          stride_v_,
-                          stride_o_,
-                          nhead_stride_q_,
-                          nhead_stride_k_,
-                          nhead_stride_v_,
-                          nhead_stride_o_},
-              seqstart_q_ptr{reinterpret_cast<const int32_t*>(seqstart_q_ptr_)},
-              seqstart_k_ptr{reinterpret_cast<const int32_t*>(seqstart_k_ptr_)},
-              seqlen_k_ptr{reinterpret_cast<const int32_t*>(seqlen_k_ptr_)}
-        {
-        }
-
         const int32_t* seqstart_q_ptr;
         const int32_t* seqstart_k_ptr;
         const int32_t* seqlen_k_ptr;
@@ -270,13 +151,38 @@ struct FmhaFwdKernel
                                                                       ck::index_t batch_stride_k,
                                                                       ck::index_t batch_stride_v,
                                                                       ck::index_t batch_stride_bias,
-                                                                      ck::index_t batch_stride_o)
+                                                                      ck::index_t batch_stride_o,
+                                                                      CausalMaskType mask_type,
+                                                                      ck::index_t window_size)
     {
-        Kargs kargs{q_ptr,          k_ptr,          v_ptr,          o_ptr,          seqlen_q,
-                    seqlen_k,       hdim_q,         hdim_v,         nhead_ratio_qk, scale,
-                    stride_q,       stride_k,       stride_v,       stride_o,       nhead_stride_q,
-                    nhead_stride_k, nhead_stride_v, nhead_stride_o, batch_stride_q, batch_stride_k,
-                    batch_stride_v, batch_stride_o};
+        Kargs kargs{{reinterpret_cast<const QDataType*>(q_ptr),
+                     reinterpret_cast<const KDataType*>(k_ptr),
+                     reinterpret_cast<const VDataType*>(v_ptr),
+                     reinterpret_cast<ODataType*>(o_ptr),
+                     seqlen_q,
+                     seqlen_k,
+                     hdim_q,
+                     hdim_v,
+                     nhead_ratio_qk,
+#if CK_FMHA_FWD_FAST_EXP2
+                     static_cast<float>(scale * ck::math::log2e_v<>),
+#else
+                     scale,
+#endif
+                     stride_q,
+                     stride_k,
+                     stride_v,
+                     stride_o,
+                     nhead_stride_q,
+                     nhead_stride_k,
+                     nhead_stride_v,
+                     nhead_stride_o}, // args for common karg
+                    {},               // placeholder for bias
+                    {},               // placeholder for mask
+                    batch_stride_q,
+                    batch_stride_k,
+                    batch_stride_v,
+                    batch_stride_o};
 
         if constexpr(kHasBias)
         {
@@ -286,6 +192,12 @@ struct FmhaFwdKernel
             kargs.batch_stride_bias = batch_stride_bias;
         }
 
+        if constexpr(kHasMask)
+        {
+            kargs.mask_type   = mask_type;
+            kargs.window_size = window_size;
+        }
+
         return kargs;
     }
 
@@ -311,27 +223,37 @@ struct FmhaFwdKernel
                                                                       ck::index_t nhead_stride_k,
                                                                       ck::index_t nhead_stride_v,
                                                                       ck::index_t nhead_stride_bias,
-                                                                      ck::index_t nhead_stride_o)
+                                                                      ck::index_t nhead_stride_o,
+                                                                      CausalMaskType mask_type,
+                                                                      ck::index_t window_size)
     {
-        Kargs kargs{q_ptr,
-                    k_ptr,
-                    v_ptr,
-                    o_ptr,
-                    seqstart_q_ptr,
-                    seqstart_k_ptr,
-                    seqlen_k_ptr,
-                    hdim_q,
-                    hdim_v,
-                    nhead_ratio_qk,
-                    scale,
-                    stride_q,
-                    stride_k,
-                    stride_v,
-                    stride_o,
-                    nhead_stride_q,
-                    nhead_stride_k,
-                    nhead_stride_v,
-                    nhead_stride_o};
+        Kargs kargs{{reinterpret_cast<const QDataType*>(q_ptr),
+                     reinterpret_cast<const KDataType*>(k_ptr),
+                     reinterpret_cast<const VDataType*>(v_ptr),
+                     reinterpret_cast<ODataType*>(o_ptr),
+                     -1, // seqlen will be updated by another pointer
+                     -1, //
+                     hdim_q,
+                     hdim_v,
+                     nhead_ratio_qk,
+#if CK_FMHA_FWD_FAST_EXP2
+                     static_cast<float>(scale * ck::math::log2e_v<>),
+#else
+                     scale,
+#endif
+                     stride_q,
+                     stride_k,
+                     stride_v,
+                     stride_o,
+                     nhead_stride_q,
+                     nhead_stride_k,
+                     nhead_stride_v,
+                     nhead_stride_o}, // args for common karg
+                    {},               // placeholder for bias
+                    {},               // placeholder for mask
+                    reinterpret_cast<const int32_t*>(seqstart_q_ptr),
+                    reinterpret_cast<const int32_t*>(seqstart_k_ptr),
+                    reinterpret_cast<const int32_t*>(seqlen_k_ptr)};
 
         if constexpr(kHasBias)
         {
@@ -339,6 +261,11 @@ struct FmhaFwdKernel
             kargs.stride_bias       = stride_bias;
             kargs.nhead_stride_bias = nhead_stride_bias;
         }
+        if constexpr(kHasMask)
+        {
+            kargs.mask_type   = mask_type;
+            kargs.window_size = window_size;
+        }
 
         return kargs;
     }
@@ -585,17 +512,73 @@ struct FmhaFwdKernel
             }
         }();
 
-        C0MatrixMask casual_mask{kargs.seqlen_q, kargs.seqlen_k};
+        FmhaMask mask = [&]() {
+            if constexpr(kHasMask)
+            {
+                auto res =
+                    ck::make_tuple(ck::index_t{0}, ck::index_t{0}, ck::index_t{0}, ck::index_t{0});
+
+                if(kargs.window_size > 0)
+                {
+                    if(kargs.mask_type == CausalMaskType::MaskDisabled)
+                    {
+                        ck::index_t lr_size = kargs.window_size / 2;
+
+                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                            lr_size, lr_size, kargs.seqlen_q, kargs.seqlen_k);
+                    }
+                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft)
+                    {
+                        ck::index_t lr_size = kargs.window_size / 2;
+
+                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                            lr_size, 0, kargs.seqlen_q, kargs.seqlen_k, true);
+                    }
+                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromBottomRight)
+                    {
+                        ck::index_t lr_size = kargs.window_size / 2;
+
+                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                            lr_size, 0, kargs.seqlen_q, kargs.seqlen_k, false);
+                    }
+                }
+                else
+                {
+                    if(kargs.mask_type == CausalMaskType::MaskDisabled)
+                    {
+                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                            -1, -1, kargs.seqlen_q, kargs.seqlen_k);
+                    }
+                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft)
+                    {
+                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                            -1, 0, kargs.seqlen_q, kargs.seqlen_k, true);
+                    }
+                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromBottomRight)
+                    {
+                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                            -1, 0, kargs.seqlen_q, kargs.seqlen_k, false);
+                    }
+                }
+
+                auto y = res.At(ck::Number<0>{});
+                auto x = res.At(ck::Number<1>{});
+
+                return FmhaMask{y, x, kargs.seqlen_q, kargs.seqlen_k};
+            }
+            else
+                return FmhaMask{0, 0, kargs.seqlen_q, kargs.seqlen_k};
+        }();
 
         auto o_acc_tile =
             FmhaPipeline{}(q_dram_window,
                            k_dram_window,
                            v_dram_window,
                            bias_dram_window,
-                           casual_mask,
+                           mask,
                            kargs.scale,
-                           ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
-                           ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
+                           // ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
+                           // ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
                            smem_ptr);
 
         // O DRAM and O DRAM window
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 20bc131304..5a026dbc9e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -25,6 +25,7 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck/tile_program/block_tile/block_masking.hpp>
 
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
@@ -32,8 +33,10 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_fmha_definitions.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_infer_masktype_attnbias_dispatched
+#include "ck_tiled_bool_switch.h"
+
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+struct grouped_infer_causalmask_attnbias_dispatched
 {
     using QDataType           = scalar_t;
     using KDataType           = scalar_t;
@@ -47,9 +50,6 @@ struct grouped_infer_masktype_attnbias_dispatched
 
     using VLayout = ck::tensor_layout::gemm::RowMajor;
 
-    static constexpr auto masktype = static_cast<CausalMaskType>(custom_mask_type);
-    using FmhaCausalMask           = typename CausalMaskPredicate<masktype>::predicate;
-
     using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
     using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
     using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
@@ -96,31 +96,40 @@ struct grouped_infer_masktype_attnbias_dispatched
 
     static void Run(GroupedForwardParams& param, hipStream_t stream)
     {
-        GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-            using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-            using FmhaTraits          = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
-            using FmhaPipelineProblem =
-                ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                                  KDataType,
-                                                                  VDataType,
-                                                                  SaccDataType,
-                                                                  SMPLComputeDataType,
-                                                                  BiasDataType,
-                                                                  PDataType,
-                                                                  OaccDataType,
-                                                                  ODataType,
-                                                                  256, // BlockSize
-                                                                  FmhaShape,
-                                                                  true, // IsGroupMode
-                                                                  FmhaCausalMask,
-                                                                  FmhaTraits>;
-
-            using FmhaPipeline =
-                ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-            using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
+        const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+            using FmhaMask =
+                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+            GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+                using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
+                using FmhaPipelineProblem =
+                    ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
+                                                                      KDataType,
+                                                                      VDataType,
+                                                                      SaccDataType,
+                                                                      SMPLComputeDataType,
+                                                                      BiasDataType,
+                                                                      PDataType,
+                                                                      OaccDataType,
+                                                                      ODataType,
+                                                                      256, // BlockSize
+                                                                      FmhaShape,
+                                                                      true, // IsGroupMode
+                                                                      FmhaMask,
+                                                                      FmhaTraits>;
+
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+            });
         });
     };
 
@@ -150,7 +159,9 @@ struct grouped_infer_masktype_attnbias_dispatched
                 param.k_strides[1],
                 param.v_strides[1],
                 param.attn_bias_strides[1],
-                param.out_strides[1]);
+                param.out_strides[1],
+                static_cast<CausalMaskType>(param.custom_mask_type),
+                param.window_size);
         }();
 
         dim3 kGridSize =
@@ -163,9 +174,10 @@ struct grouped_infer_masktype_attnbias_dispatched
     };
 };
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_infer_masktype_attnbias_dispatched(GroupedForwardParams& param, hipStream_t stream)
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+void run_grouped_infer_causalmask_attnbias_dispatched(GroupedForwardParams& param,
+                                                      hipStream_t stream)
 {
-    grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
+    grouped_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias>::Run(
         param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index b0c3318af1..f942d1bbbc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -8,45 +8,33 @@
 #include <ck/utility/data_type.hpp>
 #include <stdexcept>
 
-#include "ck_bool_switch.h"
+#include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+    GroupedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+    GroupedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+    GroupedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+    GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream)
 {
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
         if(param.custom_mask_type == 0)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
+            run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 1)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
+            run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 2)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
+            run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else
             throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index eda9a64623..288ad5f576 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -8,45 +8,33 @@
 #include <ck/utility/data_type.hpp>
 #include <stdexcept>
 
-#include "ck_bool_switch.h"
+#include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
+    GroupedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
+    GroupedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
+    GroupedForwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
+    GroupedForwardParams& param, hipStream_t stream);
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream)
 {
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
         if(param.custom_mask_type == 0)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
+            run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 1)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
+            run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else if(param.custom_mask_type == 2)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
+            run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
+                param, stream);
         else
             throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 0a988b6b21..11274c5c4e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -35,6 +35,7 @@ struct BatchedInferParams
     const void* attn_bias_ptr;
 
     uint8_t custom_mask_type;
+    int window_size; // local-attention
 
     void* out_ptr;
 };
@@ -86,6 +87,7 @@ struct GroupedInferParams
     const void* attn_bias_ptr;
 
     uint8_t custom_mask_type;
+    int window_size; // local-attention
 
     void* out_ptr;
 };
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 23c8375db8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 893cf803af..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index ce1adafad0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 3bf55fe50a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 861f63d352..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp
index f9d551e6ee..4c06d77aa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp
index 11ab6765f1..407f20ab4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp
index 22ba1cbf03..55100393d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp
index e45b01c1cc..36438844ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 5c9d5a1139..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index a788c0e4b1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index daa204ebdb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp
new file mode 100644
index 0000000000..06957d596e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp
new file mode 100644
index 0000000000..cae5a03c17
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp
new file mode 100644
index 0000000000..f5a42d733b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp
new file mode 100644
index 0000000000..9f79c2ed5c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index a5e5e5aa40..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index d2a0f9f30e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 176ff416d8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index dc213019ff..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index a63206d4eb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp
index 17da13db7a..9a16d81609 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp
index e78118baf8..9d5260debd 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp
index 537e59bd16..716a48b9c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp
similarity index 58%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp
index 9f9dd97f17..f79e7ee142 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp
@@ -8,6 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index e40ffafc36..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 919c73a4a2..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index e5d08e589d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp
new file mode 100644
index 0000000000..8a68b03d6e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp
new file mode 100644
index 0000000000..9fb627dc12
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp
new file mode 100644
index 0000000000..dff2636689
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp
new file mode 100644
index 0000000000..86cc2f3eb6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 143c74f79c..a6cd87c6b1 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -181,6 +181,7 @@ def apply(
             seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
+            window_size=0,
         )
         ctx: Optional[Context] = None
         if needs_gradient:

From ba5fd52b9cb22e22c0cd9c2fd5e682a4bb6433d1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 5 Jan 2024 17:33:48 +0000
Subject: [PATCH 319/837] Add ck.FwOp and ck.BwOp to dispatched operations

---
 xformers/ops/fmha/dispatch.py | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 30d6ec6155..c9708770b6 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -66,14 +66,20 @@ def _run_priority_list(name: str, priority_list: Sequence[T], inp: Inputs) -> T:
 def _dispatch_fw_priority_list(
     inp: Inputs, needs_gradient: bool
 ) -> Sequence[Type[AttentionFwOpBase]]:
-    priority_list_ops = deque(
-        [
-            flash.FwOp,
-            triton.FwOp,
-            cutlass.FwOp,
-            small_k.FwOp,
-        ]
-    )
+    if torch.version.cuda:
+        priority_list_ops = deque(
+           [
+              flash.FwOp,
+              triton.FwOp,
+              cutlass.FwOp,
+              small_k.FwOp,
+           ])
+    else:
+        priority_list_ops = deque(
+           [
+              triton.FwOp,
+              ck.FwOp,
+           ])
     if _is_cutlass_fwd_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.FwOp)
         priority_list_ops.appendleft(cutlass.FwOp)

From 6533aca6517e3e9fdafbd9e0167166dd722f1510 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 5 Jan 2024 17:35:00 +0000
Subject: [PATCH 320/837] Add ck.FwOp and ck.BwOp to ALL_FW_OPS and ALL_BW_OPS

---
 xformers/ops/fmha/__init__.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 3a0f3646b1..289e8f6e34 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -416,7 +416,7 @@ def _memory_efficient_attention_backward(
 
 
 ALL_FW_OPS: Sequence[Type[AttentionFwOpBase]] = [
-    cutlass.FwOp,
+    cutlass.FwOp if torch.version.cuda else ck.FwOp,
     flash.FwOp,
     triton.FwOp,
     small_k.FwOp,
@@ -424,7 +424,7 @@ def _memory_efficient_attention_backward(
 ]
 
 ALL_BW_OPS: Sequence[Type[AttentionBwOpBase]] = [
-    cutlass.BwOp,
+    cutlass.BwOp if torch.version.cuda else ck.BwOp,
     flash.BwOp,
     small_k.BwOp,
 ]

From 7fc362068c9624172c16ac88d92dbae77487f7ea Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 5 Jan 2024 17:37:45 +0000
Subject: [PATCH 321/837] Update in tests/readme_test_on_rocm.txt

---
 tests/readme_test_on_rocm.txt | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tests/readme_test_on_rocm.txt b/tests/readme_test_on_rocm.txt
index b2b18ff789..129bf3df08 100644
--- a/tests/readme_test_on_rocm.txt
+++ b/tests/readme_test_on_rocm.txt
@@ -4,6 +4,7 @@
    2. verify testing for memory_efficient_attention inference 
 
       pytest tests/test_mem_eff_attention_ck.py::test_forward
+      pytest tests/test_mem_eff_attention.py::test_forward -k ckF 
 
    3. The following tests in tests/memory_eff_attention_ck.py have passed
 

From 23e191ad508aa599d76f25331b10e01198f6ed64 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 5 Jan 2024 17:53:57 +0000
Subject: [PATCH 322/837] Add ckF and ck_decoder to
 benchmark_mem_eff_attn_decoder.py

---
 xformers/benchmarks/benchmark_mem_eff_attn_decoder.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
index 7f1b4ceaa4..9fa58e7dde 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
@@ -59,8 +59,8 @@ def T(t):
 NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
 
 OPS = [
-    xformers.ops.fmha.cutlass.FwOp,
-    xformers.ops.fmha.decoder.FwOp,
+    xformers.ops.fmha.cutlass.FwOp if torch.version.cuda else xformers.ops.fmha.ck.FwOp,
+    xformers.ops.fmha.decoder.FwOp if torch.version.cuda else xformers.ops.fmha.ck_decoder.FwOp,
 ]
 
 KV_SHAPES = [

From 45287b73b15b565a786febbc8b092e15204bb018 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 8 Jan 2024 21:51:55 +0000
Subject: [PATCH 323/837] Synchronize with the latest ck-tiled commits

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index afea7392d5..539f9677e0 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit afea7392d59cbd71247336483f5cf190c0929866
+Subproject commit 539f9677e047da576f67810f7833dd983df3c1f8

From 1a746751dd43ed25d1a0926eb9067f7a76b976ef Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 8 Jan 2024 23:46:22 +0000
Subject: [PATCH 324/837] Add is_ck_tiled_used() c++ extension interface for
 judging if ck-tiled is used

---
 xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp | 13 +++++++++++++
 1 file changed, 13 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
index 6c7de39ef2..571b206fa4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
@@ -17,10 +17,23 @@ bool is_ck_fmha_available(double val)
     return (true);
 };
 
+// For checking if ck-tiled kernel is used
+bool is_ck_tiled_used()
+{
+#if defined(USE_CK_TILED_KERNEL)
+    return (true);
+#else
+    return (false);
+#endif
+};
+
 } // namespace
 
 TORCH_LIBRARY_FRAGMENT(xformers, m)
 {
     m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available(float val) -> bool"));
     m.impl(TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"), TORCH_FN(is_ck_fmha_available));
+
+    m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_tiled_used() -> bool"));
+    m.impl(TORCH_SELECTIVE_NAME("xformers::is_ck_tiled_used"), TORCH_FN(is_ck_tiled_used));
 }

From cbcc1964c6d2f1ed9f3afe94e373f5f6c66eb28b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 9 Jan 2024 00:12:03 +0000
Subject: [PATCH 325/837] Remove composable_kernel_tiled submodule

---
 .gitmodules                         | 4 ----
 third_party/composable_kernel_tiled | 1 -
 2 files changed, 5 deletions(-)
 delete mode 160000 third_party/composable_kernel_tiled

diff --git a/.gitmodules b/.gitmodules
index acbe24ecc6..3017b3887a 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -8,7 +8,3 @@
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git
-[submodule "third_party/composable_kernel_tiled"]
-	path = third_party/composable_kernel_tiled
-	url = https://github.com/asroy/ck_tile
-        branch = fmha_attemp_async_copy_unify 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
deleted file mode 160000
index 539f9677e0..0000000000
--- a/third_party/composable_kernel_tiled
+++ /dev/null
@@ -1 +0,0 @@
-Subproject commit 539f9677e047da576f67810f7833dd983df3c1f8

From b4539f71c515a4a8941920485a39c09df1993bcf Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jan 2024 21:25:38 +0000
Subject: [PATCH 326/837] inner_product removed from splitk kernel code

---
 .../ck_attention_forward_decoder_splitk.h     | 44 -------------------
 1 file changed, 44 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 29f330b291..49b95e4a4d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -7,50 +7,6 @@
 #include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
 
-namespace ck {
-template <>
-__device__ void inner_product<bhalf_t, bhalf_t, float>(
-    const bhalf_t& a,
-    const bhalf_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
-
-template <>
-
-__device__ void inner_product<half_t, half_t, float>(
-    const half_t& a,
-    const half_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
-
-template <>
-__device__ void inner_product<bhalf2_t, bhalf2_t, float>(
-    const bhalf2_t& a,
-    const bhalf2_t& b,
-    float& c) {
-  const vector_type<bhalf_t, 2> a_vector{a};
-  const vector_type<bhalf_t, 2> b_vector{b};
-  ck::static_for<0, 2, 1>{}([&](auto i) {
-    inner_product(
-        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-  });
-}
-
-template <>
-__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
-    const bhalf4_t& a,
-    const bhalf4_t& b,
-    float& c) {
-  const vector_type<bhalf_t, 4> a_vector{a};
-  const vector_type<bhalf_t, 4> b_vector{b};
-  ck::static_for<0, 4, 1>{}([&](auto i) {
-    inner_product(
-        a_vector.AsType<bhalf_t>()[i], b_vector.AsType<bhalf_t>()[i], c);
-  });
-}
-} // namespace ck
 
 namespace {
 

From 9c52e0edd0ba2eb186e60ce6dfa43f8c86ff353b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jan 2024 21:35:58 +0000
Subject: [PATCH 327/837] remove some commented out debug code

---
 tests/test_mem_eff_attention_ck.py | 27 +++------------------------
 1 file changed, 3 insertions(+), 24 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 905226af35..77dbde6d2f 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -401,10 +401,6 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
     # reduce out over split-k slices
 
-    # return slices[0]["row_max"].repeat_interleave(256, -1)
-    # return slices[0]["row_lse"].repeat_interleave(256, -1)
-    # return slices[0]["attn_slice"]
-
     m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
     l_current_sum = torch.zeros_like(slices[0]["row_lse"])
 
@@ -1755,14 +1751,10 @@ def test_splitk_reference(
 
 
 @pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
-# @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-# @pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
-# @pytest.mark.parametrize("padding", [32, 4096])
-# @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
-@pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("n_heads", [16])
-@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
+@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
+@pytest.mark.parametrize("padding", [32, 4096])
+@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
 def test_decoder(
     op,
     n_heads: int,
@@ -1816,19 +1808,10 @@ def test_decoder(
     if (not_supported_reasons := op.not_supported_reasons(inp)):
         pytest.skip(f"{not_supported_reasons=}")
 
-    ref_output = ref_attention_splitk(q, k, v, attn_bias, dtype=dtype_, split_k=1)
-
-    print(f"{ref_output.shape=}")
-
     decoder_output = fmha.memory_efficient_attention_forward(
         q, k, v, attn_bias, op=op
     )
 
-    # attn_bias_tensor = attn_bias.materialize(shape=(q.shape[0], 1, q.shape[1], k.shape[1]), device=q.device, dtype=dtype_)
-    # print(f"{k_seqlen=}")
-    # torch.set_printoptions(threshold=None, edgeitems=256)
-    # print(f"{attn_bias_tensor.shape=} {attn_bias_tensor=}")
-
     ref_output = ref_attention(q, k, v, attn_bias)
 
     assert_allclose(
@@ -1844,10 +1827,6 @@ def test_decoder(
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
 @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1), (32, 1), (4096, 8)])
-# @pytest.mark.parametrize("dtype", ["f16"])
-# @pytest.mark.parametrize("kv_heads", [None], ids=_kv_heads_label)
-# @pytest.mark.parametrize("n_heads", [16])
-# @pytest.mark.parametrize("padding, bsz", [(32, 8),])
 def test_splitk_decoder(
     op,
     kv_heads: Optional[int],

From 0a1aa5d0030e79ba5c48782e7babed9723f7bfe5 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jan 2024 21:41:45 +0000
Subject: [PATCH 328/837] comment out debug code calling libtorch instead of
 hip implementation

---
 xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 79ef348d8f..2d6db0284f 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -300,7 +300,7 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
     double qk_scale,
     int64_t split_k) {
 
-  return efficient_attention_forward_decoder_split1_torch(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+  // return efficient_attention_forward_decoder_split1_torch(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
 
   return efficient_attention_forward_decoder_splitk_ck_impl<
       kThreadsPerWavefront,

From 153d7229718e51c17f99ffbec3a00190e33140a8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jan 2024 21:43:51 +0000
Subject: [PATCH 329/837] remove commented out old and incorrect code fragments

---
 .../hip_fmha/attention_forward_splitk.cpp     | 80 -------------------
 1 file changed, 80 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 2d6db0284f..3fb42eccaf 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -91,55 +91,6 @@ struct c10_to_data_t<c10::BFloat16> {
 
 namespace {
 
-// at::Tensor efficient_attention_forward_decoder_splitk_ck(
-//     const at::Tensor& XQ, // [B, 1, G, H, D]
-//     const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-//     const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-//     at::optional<at::Tensor> seq_kv_lens, // [B]
-//     double qk_scale,
-//     at::Tensor& O,
-//     int64_t split_k) {
-    
-//     at::OptionalDeviceGuard guard(XQ.device());
-
-//     TORCH_CHECK(XQ.is_cuda());
-//     TORCH_CHECK(cache_K.is_cuda());
-//     TORCH_CHECK(cache_V.is_cuda());
-
-//     TORCH_CHECK(seq_positions.is_cuda());
-
-//     auto M = XQ.size(1);
-//     auto B = XQ.size(0);
-//     auto G = XQ.size(2);
-//     auto H = XQ.size(3);
-//     auto K_q = XQ.size(4);
-//     auto M_k = cache_K.size(1);
-
-//     constexpr auto BLOCK_M = 16;
-//     auto M_ceil = (M + BLOCK_M - 1) / BLOCK_M * BLOCK_M;
-
-//     constexpr auto kThreadsPerWarp = 64;
-//     constexpr auto kWarpsPerBlock = 2; // original uses 2 warps
-
-//     const auto options = at::TensorOptions()
-//                              .dtype(XQ.dtype())
-//                              .layout(at::kStrided)
-//                              .device(XQ.device())
-//                              .requires_grad(false);
-
-//     auto O_splitk = at::empty({B * G * H, split_k, M_ceil, K_q}, options);
-//     auto metadata = at::empty({B * G * H, 2, split_k, M_ceil}, options);
-
-//     dim3 attention_grid = {static_cast<uint32_t>(M / BLOCK_M), static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(split_k)};
-//     dim3 reduce_grid = {static_cast<uint32_t>(B * G * H), static_cast<uint32_t>(M)};
-
-//     dim3 threads = {kThreadsPerWarp * kWarpsPerBlock};
-    
-//     auto O = at::empty_like(XQ);
-
-//     return O;
-// }
-
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock,
           int32_t KV_M_MAX = 8192,
           int32_t K_MAX = 256>
@@ -348,37 +299,6 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 
 // clang-format on
 
-// static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
-//   const at::Tensor& Q,
-//   const at::Tensor& K,
-//   const at::Tensor& V,
-//   const at::Tensor& k_seqlens
-// ) {
-//   auto Q_scaled = Q / sqrt(Q.size(-1));
-//   auto S = at::einsum("bmghk, bnghk -> bmghn", {Q_scaled, K}, at::nullopt);
-
-//   auto m = std::get<0>(at::max(S, /* dim */ 1, /* keepdim */ true));
-//   auto s = at::exp(at::sub(S, m));
-  
-//   // causal mask
-//   for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-//     auto seqlen = k_seqlens[b].item<int64_t>();
-//     at::slice(s[b], /* dim */ -1, /* start */ seqlen, /* end */ -1).zero_();
-//   }
-
-//   auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-//   auto O = at::einsum("bmghn, bnghk -> bmghk", {s, V}, at::nullopt);
-//   return std::make_tuple(O, m, l);
-// }
-
-// static at::Tensor split1_reduce_torch(
-//   const at::Tensor& O_splits,
-//   const at::Tensor& m,
-//   const at::Tensor& l
-// ) {
-//   return at::div(O_splits[0], l);
-// }
-
 namespace ck {
 namespace tensor_operation {
 namespace device {

From eea5fef57ee995b8e6a369fafabddaebf30dcdfb Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jan 2024 21:53:46 +0000
Subject: [PATCH 330/837] add python version override to cmakelists

---
 xformers/csrc/attention/hip_fmha/CMakeLists.txt | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index ee208bffe5..2bf65f305b 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -11,6 +11,8 @@ set(CMAKE_CXX_FLAGS "-Wall")
 set(CMAKE_CXX_FLAGS_DEBUG "-g -O0")
 set(CMAKE_VERBOSE_MAKEFILE on)
 
+set(py_version 3.9)
+
 set(exe_name attention_forward_decoder_main)
 set(splitk_exe_name attention_forward_splitk_decoder_main)
 set(project_root_dir /xformers)
@@ -18,7 +20,7 @@ set(xformers_csrc ${project_root_dir}/xformers/csrc)
 set(sources ${xformers_csrc}/attention/hip_fmha/attention_forward_decoder.hip)
 set(splitk_sources ${xformers_csrc}/attention/hip_fmha/attention_forward_splitk.hip)
 set(ck_include ${project_root_dir}/third_party/composable_kernel/include/)
-set(torch_include /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/include)
+set(torch_include /opt/conda/envs/py_${py_version}/lib/python${py_version}/site-packages/torch/include)
 
 set_source_files_properties(${sources} ${splitk_sources} PROPERTIES LANGUAGE HIP)
 add_executable(${exe_name} ${sources})
@@ -63,12 +65,12 @@ target_include_directories(${splitk_exe_name} PUBLIC
 )
 
 target_link_directories(${exe_name} PUBLIC
-  /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib # c10, torch
+  /opt/conda/envs/py_${py_version}/lib/python${py_version}/site-packages/torch/lib # c10, torch
   /opt/rocm/hip/lib
 )
 
 target_link_directories(${splitk_exe_name} PUBLIC
-  /opt/conda/envs/py_3.8/lib/python3.8/site-packages/torch/lib # c10, torch
+  /opt/conda/envs/py_${py_version}/lib/python${py_version}/site-packages/torch/lib # c10, torch
   /opt/rocm/hip/lib
 )
 

From d442fbebab0faf8f41cab0b8d1aeb779b95631c8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 4 Jan 2024 02:18:57 +0000
Subject: [PATCH 331/837] add conversion from Argument struct to string; fix
 split1 test crash

 -- fyi device guard needs to be declared to avoid segfaults in the kernel
---
 .../hip_fmha/attention_forward_splitk.cpp     | 98 +++++++++++++++----
 .../ck_attention_forward_decoder_splitk.h     | 39 ++++++++
 2 files changed, 116 insertions(+), 21 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 3fb42eccaf..ff9e7953af 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -302,6 +302,7 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
 namespace ck {
 namespace tensor_operation {
 namespace device {
+
 template <typename scalar_t, typename compute_t = float>
 struct FMHADecoderSplit1DeviceOp : public BaseOperator {
   using DeviceOp = FMHADecoderSplit1DeviceOp;
@@ -395,6 +396,42 @@ struct FMHADecoderSplit1DeviceOp : public BaseOperator {
           grid_dim(grid_dim),
           block_dim(block_dim),
           lds_bytes(lds_bytes) {}
+
+      std::string str() const {
+        std::ostringstream oss;
+        oss << "Argument { " << std::endl <<
+        "    XQ: " << XQ << std::endl <<
+        "    cache_K: " << cache_K << std::endl <<
+        "    cache_V: " << cache_V << std::endl << 
+        "    O: " << O << std::endl <<
+        "    split_O: " << split_O << std::endl <<
+        "    split_max: " << split_max << std::endl <<
+        "    split_sumexp: " << split_sumexp << std::endl <<
+        "    seq_kv_lens: " << seq_kv_lens << std::endl <<
+        "    XQ_stride_b: " << XQ_stride_b << std::endl <<
+        "    XQ_stride_m: " << XQ_stride_m << std::endl <<
+        "    XQ_stride_g: " << XQ_stride_g << std::endl <<
+        "    XQ_stride_h: " << XQ_stride_h << std::endl <<
+        "    K_stride_b: " << K_stride_b << std::endl <<
+        "    K_stride_m: " << K_stride_m << std::endl <<
+        "    K_stride_g: " << K_stride_g << std::endl <<
+        "    K_stride_h: " << K_stride_h << std::endl <<
+        "    O_stride_split: " << O_stride_split << std::endl <<
+        "    Q_size_m: " << Q_size_m << std::endl <<
+        "    Q_size_g: " << Q_size_g << std::endl <<
+        "    Q_size_h: " << Q_size_h << std::endl <<
+        "    Q_size_k: " << Q_size_k << std::endl <<
+        "    K_size_m: " << K_size_m << std::endl <<
+        "    multiquery: " << multiquery << std::endl <<
+        "    qk_scale: " << qk_scale << std::endl <<
+        "    split_k: " << split_k << std::endl <<
+        std::endl <<
+        "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z << std::endl <<
+        "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z << std::endl <<
+        "    lds_bytes: " << lds_bytes << std::endl <<
+        "}";
+        return oss.str();
+      }
   };
 
   struct Invoker : public BaseInvoker {
@@ -402,6 +439,9 @@ struct FMHADecoderSplit1DeviceOp : public BaseOperator {
     float Run(
         const Argument& arg,
         const StreamConfig& stream_config = StreamConfig{}) {
+
+      // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ << std::endl;
+
       auto threads_per_wavefront = arg.block_dim.x;
 
       auto Q_size_k_alignment_necessary = 0;
@@ -623,6 +663,9 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(
   const at::Tensor& K, 
   const at::Tensor& V, 
   const at::Tensor& seqlen) {
+
+  at::OptionalDeviceGuard guard(XQ.device());
+
   auto B = XQ.size(0);
   auto M = XQ.size(1);
   auto G = XQ.size(2);
@@ -732,23 +775,13 @@ static void test_split1_attention() {
   auto V = at::randn_like(K);
   auto seqlen = at::randint(1062, 1063, {B}, int_options);
   
-  // printf("Run libtorch split1_attention:\n");
-  // auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
+  auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
 
-  printf("Run hip split1_attention:\n");
   auto hip_result = split1_attention_hip(XQ, K, V, seqlen);
 
-  printf("Do comparison for split1_attention:\n");
-
-  // auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  // auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  // auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  // auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(reference_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  // auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(reference_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  // auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(reference_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto O_match_mask = at::isclose(std::get<0>(hip_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto m_match_mask = at::isclose(std::get<1>(hip_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto l_match_mask = at::isclose(std::get<2>(hip_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
 
   auto O_percent_match = at::sum(O_match_mask.to(torch::kFloat32)) / O_match_mask.numel();
   auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
@@ -768,25 +801,48 @@ static void test_split1_attention() {
 }
 
 static void do_correctness_check() {
+  // const int32_t D = 4 * kThreadsPerWavefront;
+  // const int32_t B = 1;
+  // const int32_t H = 16;
+  // const int32_t G = 2;
+  // const int32_t padding = 4096;
+  // const int32_t num_queries = 1;
+  // auto options = torch::TensorOptions()
+  //                    .dtype(torch::kFloat32)
+  //                    .layout(torch::kStrided)
+  //                    .device(torch::kCUDA, 1)
+  //                    .requires_grad(false);
+  // auto int_options = options.dtype(torch::kInt);
+  // auto XQ = at::randn({B, num_queries, G, H, D}, options);
+  // auto K = at::randn({B, padding, G, H, D}, options);
+  // auto V = at::randn({B, padding, G, H, D}, options);
+  // auto seqlen = at::randint(1062, 1063, {B}, int_options);
+  // double qk_scale = 1. / sqrt(D);
+  // constexpr auto split_k = 1;
+
   const int32_t D = 4 * kThreadsPerWavefront;
   const int32_t B = 1;
-  const int32_t H = 16;
-  const int32_t G = 2;
+  const int32_t Hq = 16;
+  const int32_t Hkv = 16;
+  const int32_t G = Hq / Hkv;
   const int32_t padding = 4096;
   const int32_t num_queries = 1;
+  const auto scalar_type = torch::kFloat32;
   auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
+                     .dtype(scalar_type)
                      .layout(torch::kStrided)
                      .device(torch::kCUDA, 1)
                      .requires_grad(false);
   auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, H, D}, options);
-  auto K = at::randn({B, padding, G, H, D}, options);
-  auto V = at::randn({B, padding, G, H, D}, options);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = (G == 1) 
+    ? at::randn({B, padding, G, Hkv, D}, options) 
+    : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
   auto seqlen = at::randint(1062, 1063, {B}, int_options);
   double qk_scale = 1. / sqrt(D);
   constexpr auto split_k = 1;
-
+  
   auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
       XQ, K, V, seqlen, qk_scale, split_k);
   auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl<64, 16>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 49b95e4a4d..d73da0cbc8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -591,6 +591,42 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
           grid_dim(grid_dim),
           block_dim(block_dim),
           lds_bytes(lds_bytes) {}
+
+      std::string str() const {
+        std::ostringstream oss;
+        oss << "Argument { " << std::endl <<
+        "    XQ: " << XQ << std::endl <<
+        "    cache_K: " << cache_K << std::endl <<
+        "    cache_V: " << cache_V << std::endl << 
+        "    O: " << O << std::endl <<
+        "    split_O: " << split_O << std::endl <<
+        "    split_max: " << split_max << std::endl <<
+        "    split_sumexp: " << split_sumexp << std::endl <<
+        "    seq_kv_lens: " << seq_kv_lens << std::endl <<
+        "    XQ_stride_b: " << XQ_stride_b << std::endl <<
+        "    XQ_stride_m: " << XQ_stride_m << std::endl <<
+        "    XQ_stride_g: " << XQ_stride_g << std::endl <<
+        "    XQ_stride_h: " << XQ_stride_h << std::endl <<
+        "    K_stride_b: " << K_stride_b << std::endl <<
+        "    K_stride_m: " << K_stride_m << std::endl <<
+        "    K_stride_g: " << K_stride_g << std::endl <<
+        "    K_stride_h: " << K_stride_h << std::endl <<
+        "    O_stride_split: " << O_stride_split << std::endl <<
+        "    Q_size_m: " << Q_size_m << std::endl <<
+        "    Q_size_g: " << Q_size_g << std::endl <<
+        "    Q_size_h: " << Q_size_h << std::endl <<
+        "    Q_size_k: " << Q_size_k << std::endl <<
+        "    K_size_m: " << K_size_m << std::endl <<
+        "    multiquery: " << multiquery << std::endl <<
+        "    qk_scale: " << qk_scale << std::endl <<
+        "    split_k: " << split_k << std::endl <<
+        std::endl <<
+        "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z << std::endl <<
+        "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z << std::endl <<
+        "    lds_bytes: " << lds_bytes << std::endl <<
+        "}";
+        return oss.str();
+      }
   };
 
   struct Invoker : public BaseInvoker {
@@ -598,6 +634,9 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
     float Run(
         const Argument& arg,
         const StreamConfig& stream_config = StreamConfig{}) {
+
+      // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ << std::endl;
+
       auto threads_per_wavefront = arg.block_dim.x;
 
       auto Q_size_k_alignment_necessary = 0;

From 38c5e904b137dc18f54be912c5033f3afd075eb7 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 5 Jan 2024 22:34:59 +0000
Subject: [PATCH 332/837] add f32 support in the python op

---
 tests/test_mem_eff_attention_ck.py  | 7 ++++++-
 xformers/ops/fmha/forward_splitk.py | 1 +
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 77dbde6d2f..f03d9a9792 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1814,6 +1814,11 @@ def test_decoder(
 
     ref_output = ref_attention(q, k, v, attn_bias)
 
+    # print(f"{torch.where(decoder_output.isnan())=}")
+    # print(f"{torch.sum(decoder_output.isnan())} nans out of {decoder_output.numel()}")
+    # print(f"{torch.sum(decoder_output.isinf())} infs out of {decoder_output.numel()}")
+    # print(f"{k_seqlen=}")
+
     assert_allclose(
         decoder_output.float(),
         ref_output,
@@ -1823,7 +1828,7 @@ def test_decoder(
 
 
 @pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp_S1, fmha.forward_splitk.FwOp_S2])
-@pytest.mark.parametrize("dtype", ["f16"])
+@pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
 @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1), (32, 1), (4096, 8)])
diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/forward_splitk.py
index 0a0651feaa..013c605a68 100644
--- a/xformers/ops/fmha/forward_splitk.py
+++ b/xformers/ops/fmha/forward_splitk.py
@@ -12,6 +12,7 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_DTYPES = {
         torch.half,
         torch.bfloat16,
+        torch.float
     }  # Those are dtypes of Q. In the quantized case K/V has dtype int32
     SUPPORTED_MAX_K = 256
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {

From b805813312bf4698eab1809779505f0fa985e24f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 5 Jan 2024 22:42:15 +0000
Subject: [PATCH 333/837] refactor out input generation in cpp standalone

---
 .../hip_fmha/attention_forward_splitk.cpp     | 104 +++++-------------
 1 file changed, 26 insertions(+), 78 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index ff9e7953af..bc73473d8d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -753,17 +753,13 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(
   return std::make_tuple(split_O[splitk_dim], split_max, split_sumexp);
 }
 
-static void test_split1_attention() {
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(const int32_t padding, const int32_t B, const int32_t Hq, const int32_t Hkv, const decltype(torch::kFloat32) dtype = torch::kFloat32) {
   const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t Hq = 16;
-  const int32_t Hkv = 16;
   const int32_t G = Hq / Hkv;
-  const int32_t padding = 4096;
   const int32_t num_queries = 1;
-  const auto scalar_type = torch::kFloat32;
+
   auto options = torch::TensorOptions()
-                     .dtype(scalar_type)
+                     .dtype(dtype)
                      .layout(torch::kStrided)
                      .device(torch::kCUDA, 1)
                      .requires_grad(false);
@@ -774,6 +770,12 @@ static void test_split1_attention() {
     : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
   auto V = at::randn_like(K);
   auto seqlen = at::randint(1062, 1063, {B}, int_options);
+
+  return std::make_tuple(XQ, K, V, seqlen);
+}
+
+static void test_split1_attention() {
+  auto [XQ, K, V, seqlen] = generate_inputs(4096, 1, 16, 16);
   
   auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
 
@@ -801,46 +803,9 @@ static void test_split1_attention() {
 }
 
 static void do_correctness_check() {
-  // const int32_t D = 4 * kThreadsPerWavefront;
-  // const int32_t B = 1;
-  // const int32_t H = 16;
-  // const int32_t G = 2;
-  // const int32_t padding = 4096;
-  // const int32_t num_queries = 1;
-  // auto options = torch::TensorOptions()
-  //                    .dtype(torch::kFloat32)
-  //                    .layout(torch::kStrided)
-  //                    .device(torch::kCUDA, 1)
-  //                    .requires_grad(false);
-  // auto int_options = options.dtype(torch::kInt);
-  // auto XQ = at::randn({B, num_queries, G, H, D}, options);
-  // auto K = at::randn({B, padding, G, H, D}, options);
-  // auto V = at::randn({B, padding, G, H, D}, options);
-  // auto seqlen = at::randint(1062, 1063, {B}, int_options);
-  // double qk_scale = 1. / sqrt(D);
-  // constexpr auto split_k = 1;
+  auto [XQ, K, V, seqlen] = generate_inputs(4096, 1, 16, 16);
 
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t Hq = 16;
-  const int32_t Hkv = 16;
-  const int32_t G = Hq / Hkv;
-  const int32_t padding = 4096;
-  const int32_t num_queries = 1;
-  const auto scalar_type = torch::kFloat32;
-  auto options = torch::TensorOptions()
-                     .dtype(scalar_type)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) 
-    ? at::randn({B, padding, G, Hkv, D}, options) 
-    : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  auto seqlen = at::randint(1062, 1063, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
+  double qk_scale = 1. / sqrt(XQ.size(-1));
   constexpr auto split_k = 1;
   
   auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
@@ -858,54 +823,37 @@ static void do_correctness_check() {
 
 int main(int argc, char** argv) {
   if (argc == 1) {
-    // do_correctness_check();
+    do_correctness_check();
 
-    test_split1_attention();
+    // test_split1_attention();
   } else {
     const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
+    if (args.size() != 6) {
       std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block"
+          << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype n_wavefronts_per_block"
           << std::endl;
       return 0;
     }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t n_groups = 1;
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
+    const int32_t padding = std::stoi(args[0]);
+    const int32_t batch_size = std::stoi(args[1]);
+    const int32_t nq_heads = std::stoi(args[2]);
+    const int32_t nkv_heads = std::stoi(args[3]);
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
                                           : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q = at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-        : at::rand({batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
+    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+    auto [Q, K, V, seq] = generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
     auto O = at::empty_like(Q);
 
     constexpr auto splitk_dim = 0;
     constexpr auto split_k = 1;
     auto O_splits = at::stack(O, splitk_dim);
 
-    auto split_max = at::empty({batch_size, padding, n_groups, n_heads, split_k}, options.dtype(at::kFloat));
+    auto split_max = at::empty({batch_size, padding, Q.size(2), Q.size(3), split_k}, Q.options().dtype(at::kFloat));
     auto split_sumexp = at::empty_like(split_max);
 
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
+    const double qk_scale = 1. / sqrt(Q.size(-1));
     auto call_ptr = decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
                              kThreadsPerWavefront,
                              kWavefrontsPerBlock>){};

From 03aed2120f23152c3af426fcf117fa33e833cc31 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 6 Jan 2024 00:20:59 +0000
Subject: [PATCH 334/837] set loop unrolls to 1 in order to avoid index errors
 (will need to be fixed later for perf)

---
 .../hip_fmha/attention_forward_splitk.cpp     | 28 ++++++++++++++-----
 .../ck_attention_forward_decoder_splitk.h     |  7 +++--
 2 files changed, 25 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index bc73473d8d..71cabfd7ef 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -8,7 +8,7 @@
 
 namespace {
   constexpr int32_t kThreadsPerWavefront = 64;
-  constexpr int32_t kWavefrontsPerBlock = 16;
+  constexpr int32_t kWavefrontsPerBlock = 1;
   constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
 }
 
@@ -228,6 +228,13 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
   efficient_attention_forward_decoder_splitk_ck_out_impl<
       ThreadsPerWavefront,
       WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
+  
+  auto nan_count = at::sum(at::isnan(O_splits));
+  auto numel = O_splits.numel();
+  auto inf_count = at::sum(at::isinf(O_splits));
+
+  // std::cout << "O_splits numel: " << numel << "O_splits nans: " << nan_count << "O_splits infs: " << inf_count << std::endl;
+
   return O;
 }
 
@@ -769,7 +776,9 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(const
     ? at::randn({B, padding, G, Hkv, D}, options) 
     : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
   auto V = at::randn_like(K);
-  auto seqlen = at::randint(1062, 1063, {B}, int_options);
+  // auto seqlen = at::randint(1, padding + 1, {B}, int_options);
+  // auto seqlen = at::tensor({1062}, int_options);
+  auto seqlen = at::tensor({6, 12, 13, 9, 32, 10, 12, 6}, int_options);
 
   return std::make_tuple(XQ, K, V, seqlen);
 }
@@ -803,22 +812,27 @@ static void test_split1_attention() {
 }
 
 static void do_correctness_check() {
-  auto [XQ, K, V, seqlen] = generate_inputs(4096, 1, 16, 16);
+  auto [XQ, K, V, seqlen] = generate_inputs(32, 8, 16, 16);
 
   double qk_scale = 1. / sqrt(XQ.size(-1));
-  constexpr auto split_k = 1;
+  constexpr auto split_k = 2;
   
   auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
       XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl<64, 16>(
-      XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_split1_torch(
+      XQ, K, V, seqlen, qk_scale);
   auto mask = at::isclose(
       result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
   auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  auto nan_count = at::sum(at::isnan(result));
+  auto numel = result.numel();
+  auto inf_count = at::sum(at::isinf(result));
   printf(
       "Mismatched elements percentage: %.2f\n",
       1. - percent_match.item<float>());
-  printf("k_seqlen: %d\n", seqlen.item<int32_t>());
+  // printf("k_seqlen: %d\n", seqlen.item<int32_t>());
+  std::cout << "numel: " << numel << " nan count: " << nan_count << " inf count: " << inf_count << std::endl;
+  std::cout << "k_seqlen: " << seqlen << std::endl;
 }
 
 int main(int argc, char** argv) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index d73da0cbc8..df34dc6f73 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -173,8 +173,8 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
 template <
     typename scalar_t,
     int32_t vec_size = 4,
-    int32_t n_loop_unroll = 16,
-    int32_t n_loop_unroll_tail = 2,
+    int32_t n_loop_unroll = 1,
+    int32_t n_loop_unroll_tail = 1,
     int32_t KV_M_MAX = 8192,
     typename compute_t = float>
 __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
@@ -202,7 +202,8 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
     const bool multiquery,
     const float qk_scale,
     const int32_t split_k) {
-  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
+  static_assert(n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1, 
+     "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal (and tail is no-op)");
 
   // Each block handles a single batch and head and query and group
   const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);

From 930dda1a5233caf82aadd6d045146d52ea31f01b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 8 Jan 2024 14:56:35 -0500
Subject: [PATCH 335/837] fix output splits allocation

---
 .../attention/hip_fmha/attention_forward_splitk.cpp    | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 71cabfd7ef..71c78d18bc 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -208,19 +208,19 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     double qk_scale,
     int64_t split_k) {
   auto O = at::empty_like(XQ);
-  constexpr auto splitk_dim = 0;
   constexpr auto rank = 5;
-  auto O_splits = at::stack(O, splitk_dim);
 
   TORCH_CHECK(XQ.dim() == rank);
   TORCH_CHECK(cache_K.dim() == rank);
   TORCH_CHECK(cache_V.dim() == rank);
-  TORCH_CHECK(O_splits.dim() == 1 + rank);
 
   auto B = XQ.size(0);
   auto M = XQ.size(1);
   auto G = XQ.size(2);
   auto H = XQ.size(3);
+  auto K = XQ.size(4);
+  
+  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
 
   auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
   auto split_sumexp = at::empty_like(split_max);
@@ -235,6 +235,10 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
 
   // std::cout << "O_splits numel: " << numel << "O_splits nans: " << nan_count << "O_splits infs: " << inf_count << std::endl;
 
+  // std::cout << "O splits at (0,0,0,0,0): " << O_splits[0][0][0][0][0][0] << " " << O_splits[1][0][0][0][0][0] << std::endl <<
+  //           "split_max: " << split_max[0][0][0][0][0] << " " << split_max[0][0][0][0][1] << std::endl <<
+  //           "split_sumexp: " << split_sumexp[0][0][0][0][0] << " " << split_sumexp[0][0][0][0][1] << std::endl;
+
   return O;
 }
 

From bd50cf4babd150d12ff3963f30fbdc1ba47e2e9d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 9 Jan 2024 16:44:12 -0500
Subject: [PATCH 336/837] fix bug in split attention: sumexp needs timestep
 bounds in each split

---
 tests/test_mem_eff_attention_ck.py            | 13 ++++----
 .../hip_fmha/attention_forward_splitk.cpp     | 16 ++--------
 .../ck_attention_forward_decoder_splitk.h     | 32 ++-----------------
 xformers/ops/fmha/forward_splitk.py           |  4 ---
 4 files changed, 12 insertions(+), 53 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index f03d9a9792..5ee0ab2dfc 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1755,6 +1755,7 @@ def test_splitk_reference(
 @pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
 @pytest.mark.parametrize("padding", [32, 4096])
 @pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
+@pytest.mark.parametrize("d", [256])
 def test_decoder(
     op,
     n_heads: int,
@@ -1762,9 +1763,9 @@ def test_decoder(
     padding: int,
     bsz: int,
     dtype: str,
+    d: int,
     dequant: bool = False,
     num_queries: int = 1,
-    d = 256,
 ) -> None:
     # kv_heads = 1: multiquery
     # kv_heads = None: neither MQA nor GQA
@@ -1814,11 +1815,6 @@ def test_decoder(
 
     ref_output = ref_attention(q, k, v, attn_bias)
 
-    # print(f"{torch.where(decoder_output.isnan())=}")
-    # print(f"{torch.sum(decoder_output.isnan())} nans out of {decoder_output.numel()}")
-    # print(f"{torch.sum(decoder_output.isinf())} infs out of {decoder_output.numel()}")
-    # print(f"{k_seqlen=}")
-
     assert_allclose(
         decoder_output.float(),
         ref_output,
@@ -1827,10 +1823,11 @@ def test_decoder(
     )
 
 
-@pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp_S1, fmha.forward_splitk.FwOp_S2])
+@pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp_S1, fmha.forward_splitk.FwOp_S2, fmha.forward_splitk.FwOp_S4])
 @pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
+@pytest.mark.parametrize("d", [256])
 @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1), (32, 1), (4096, 8)])
 def test_splitk_decoder(
     op,
@@ -1839,6 +1836,7 @@ def test_splitk_decoder(
     padding: int,
     bsz: int,
     dtype: str,
+    d: int
 ) -> None:
     # no quantized impl compared to cuda
     test_decoder(
@@ -1848,6 +1846,7 @@ def test_splitk_decoder(
         padding=padding,
         bsz=bsz,
         dtype=dtype,
+        d=d,
     )
 
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 71c78d18bc..fe73dbfbdf 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -220,24 +220,14 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
   auto H = XQ.size(3);
   auto K = XQ.size(4);
   
-  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+  auto O_splits = at::zeros({split_k, B, M, G, H, K}, XQ.options());
 
-  auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-  auto split_sumexp = at::empty_like(split_max);
+  auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat)).fill_(ck::NumericLimits<float>::Lowest());
+  auto split_sumexp = at::zeros_like(split_max);
 
   efficient_attention_forward_decoder_splitk_ck_out_impl<
       ThreadsPerWavefront,
       WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
-  
-  auto nan_count = at::sum(at::isnan(O_splits));
-  auto numel = O_splits.numel();
-  auto inf_count = at::sum(at::isinf(O_splits));
-
-  // std::cout << "O_splits numel: " << numel << "O_splits nans: " << nan_count << "O_splits infs: " << inf_count << std::endl;
-
-  // std::cout << "O splits at (0,0,0,0,0): " << O_splits[0][0][0][0][0][0] << " " << O_splits[1][0][0][0][0][0] << std::endl <<
-  //           "split_max: " << split_max[0][0][0][0][0] << " " << split_max[0][0][0][0][1] << std::endl <<
-  //           "split_sumexp: " << split_sumexp[0][0][0][0][0] << " " << split_sumexp[0][0][0][0][1] << std::endl;
 
   return O;
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index df34dc6f73..24d57c8b4d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -271,32 +271,6 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
   const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
   const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
 
-  // if (lane_idx == 0)
-  //   printf("wavefront_idx: %d "
-  //          "t_max: %d " 
-  //          "(runtime) wavefronts_per_block: %d "
-  //          "n_loop_unroll: %d "
-  //          "n_loop_unroll_tail: %d "
-  //          "dtt: %d "
-  //          "n_unrolled_loops: %d "
-  //          "tt_low: %d "
-  //          "tt_high: %d "
-  //          "dtt_tail: %d "
-  //          "tt_tail_low: %d "
-  //          "tt_tail_high: %d "
-  //          "\n", 
-  //          wavefront_idx,
-  //          t_max, 
-  //          wavefronts_per_block,
-  //          n_loop_unroll,
-  //          n_loop_unroll_tail,
-  //          dtt,
-  //          n_unrolled_loops,
-  //          tt_low,
-  //          tt_high,
-  //          dtt_tail,
-  //          tt_tail_low,
-  //          tt_tail_high);
   for (auto tt = tt_low; tt < tt_high; tt += dtt) {
     if (lane_active_for_io) {
 #pragma unroll n_loop_unroll
@@ -380,7 +354,9 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
   // each wavefront computes partial sum of exp.
   compute_t softmax_denominator = 0.0f;
   for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+    if (t >= tt_low && t < tt_tail_high) {
+      softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+    }
   }
   softmax_denominator = wavefrontReduce(
       softmax_denominator, [](auto a, auto b) { return a + b; });
@@ -636,8 +612,6 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
         const Argument& arg,
         const StreamConfig& stream_config = StreamConfig{}) {
 
-      // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ << std::endl;
-
       auto threads_per_wavefront = arg.block_dim.x;
 
       auto Q_size_k_alignment_necessary = 0;
diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/forward_splitk.py
index 013c605a68..49238f83db 100644
--- a/xformers/ops/fmha/forward_splitk.py
+++ b/xformers/ops/fmha/forward_splitk.py
@@ -141,12 +141,8 @@ def apply(
         else:
             qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32))
 
-        print(f"{q.shape=} {k.shape=} {v.shape=}")
-
         out = cls.OPERATOR(query=query, key=key, value=value, seq_positions=seq_positions_gpu, scale=qk_scale, split_k=split_k)
         
-        print(f"{out.shape=}")
-        
         return out, None
 
 
From 60c997d03496a595e074aa3ef064ad5c9678bdbc Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 9 Jan 2024 16:58:48 -0500
Subject: [PATCH 337/837] clang-format-10

---
 xformers/csrc/attention/attention.cpp         |   72 +-
 .../hip_fmha/attention_forward_splitk.cpp     | 1576 +++++++++--------
 .../ck_attention_forward_decoder_splitk.h     | 1328 +++++++-------
 3 files changed, 1542 insertions(+), 1434 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index c0dcc014bd..42f8216fb7 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -7,37 +7,51 @@
  */
 #include <torch/types.h>
 
-TORCH_LIBRARY_FRAGMENT(xformers, m) {
+TORCH_LIBRARY_FRAGMENT(xformers, m)
+{
 #if !defined(USE_ROCM)
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_small_k(Tensor query, Tensor key, Tensor value, bool compute_logsumexp, Tensor? attn_bias, float p) -> (Tensor, Tensor, int, int)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_cutlass(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_decoder(Tensor query, Tensor key, Tensor value, Tensor seq_positions, float scale) -> Tensor"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_backward_small_k(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor logsumexp, Tensor output, Tensor? attn_bias, float p, int rng_seed, int rng_offset) -> (Tensor, Tensor, Tensor)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_backward_cutlass(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? bias, Tensor? cu_seqlens_q, Tensor? cu_seqlens_k, int max_seqlen_q, int max_seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale, int num_splits_key, int? window_size) -> (Tensor, Tensor, Tensor, Tensor)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::_temp_dropout(Tensor out, float p) -> Tensor"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_forward_small_k(Tensor query, Tensor key, Tensor value, "
+        "bool compute_logsumexp, Tensor? attn_bias, float p) -> (Tensor, Tensor, int, int)"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_forward_cutlass(Tensor query, Tensor key, Tensor value, "
+        "Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float "
+        "dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, "
+        "int? window_size) -> (Tensor, Tensor, int, int)"));
+    m.def(
+        TORCH_SELECTIVE_SCHEMA("xformers::efficient_attention_forward_decoder(Tensor query, Tensor "
+                               "key, Tensor value, Tensor seq_positions, float scale) -> Tensor"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_backward_small_k(Tensor grad_out, Tensor query, Tensor key, "
+        "Tensor value, Tensor logsumexp, Tensor output, Tensor? attn_bias, float p, int rng_seed, "
+        "int rng_offset) -> (Tensor, Tensor, Tensor)"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_backward_cutlass(Tensor grad_out, Tensor query, Tensor key, "
+        "Tensor value, Tensor? bias, Tensor? cu_seqlens_q, Tensor? cu_seqlens_k, int max_seqlen_q, "
+        "int max_seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int "
+        "rng_offset, int custom_mask_type, float? scale, int num_splits_key, int? window_size) -> "
+        "(Tensor, Tensor, Tensor, Tensor)"));
+    m.def(TORCH_SELECTIVE_SCHEMA("xformers::_temp_dropout(Tensor out, float p) -> Tensor"));
+    m.def(TORCH_SELECTIVE_SCHEMA("xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
 #if defined(USE_ROCM)
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
-          "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
-          "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, Tensor value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
+    m.def(TORCH_SELECTIVE_SCHEMA("xformers::efficient_attention_forward_ck(Tensor query, "
+                                 "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
+                                 "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
+                                 "bool compute_logsumexp, int custom_mask_type, float? scale, "
+                                 "Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
+        "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, "
+        "Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? "
+        "max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int "
+        "rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, "
+        "Tensor)"));
+    m.def(TORCH_SELECTIVE_SCHEMA(
+        "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, Tensor "
+        "value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));
+    m.def(TORCH_SELECTIVE_SCHEMA("xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index fe73dbfbdf..61dac9a8b0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -7,54 +7,57 @@
 #include "ck_attention_forward_decoder_splitk.h"
 
 namespace {
-  constexpr int32_t kThreadsPerWavefront = 64;
-  constexpr int32_t kWavefrontsPerBlock = 1;
-  constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-}
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock  = 1;
+constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
+} // namespace
 
 static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
-  const at::Tensor& Q,
-  const at::Tensor& K,
-  const at::Tensor& V,
-  const at::Tensor& k_seqlens
-) {
-  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-  auto S = at::einsum("mghk, nghk -> mghn", {Q_scaled.flatten(0, 1), K.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
-
-  // for (size_t i = 0; i < S.dim(); ++i) {
-  //   std::cout << "S.dim" << i << "=" << S.size(i) << std::endl; 
-  // }
-
-  // causal mask
-  auto neg_inf = at::tensor(-99.).item();
-  for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-    auto seqlen = k_seqlens[b].item<int64_t>();
-    at::slice(S[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).fill_(neg_inf);
-    at::slice(S[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ S.size(-1)).fill_(neg_inf);
-    // std::cout << "batch" << b << " ; masked QK^T dim " << S[b].dim() << " values at h0 " << S[b].slice(1, 0, 1) << std::endl;
-  }
-
-  auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-  auto s = at::exp(at::sub(S, m));
-  
-  // causal mask
-  for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-    auto seqlen = k_seqlens[b].item<int64_t>();
-    at::slice(s[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).zero_();
-    at::slice(s[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ s.size(-1)).zero_();
-  }
-
-  auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-  auto O = at::einsum("mghn, nghk -> mghk", {s, V.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
-  return std::make_tuple(O, m, l);
+    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens)
+{
+    auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+    auto S        = at::einsum("mghk, nghk -> mghn",
+                        {Q_scaled.flatten(0, 1), K.flatten(0, 1)},
+                        /* einsum eval path */ at::nullopt);
+
+    // for (size_t i = 0; i < S.dim(); ++i) {
+    //   std::cout << "S.dim" << i << "=" << S.size(i) << std::endl;
+    // }
+
+    // causal mask
+    auto neg_inf = at::tensor(-99.).item();
+    for(size_t b = 0; b < k_seqlens.numel(); ++b)
+    {
+        auto seqlen = k_seqlens[b].item<int64_t>();
+        at::slice(S[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).fill_(neg_inf);
+        at::slice(S[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ S.size(-1))
+            .fill_(neg_inf);
+        // std::cout << "batch" << b << " ; masked QK^T dim " << S[b].dim() << " values at h0 " <<
+        // S[b].slice(1, 0, 1) << std::endl;
+    }
+
+    auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+    auto s = at::exp(at::sub(S, m));
+
+    // causal mask
+    for(size_t b = 0; b < k_seqlens.numel(); ++b)
+    {
+        auto seqlen = k_seqlens[b].item<int64_t>();
+        at::slice(s[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).zero_();
+        at::slice(s[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ s.size(-1))
+            .zero_();
+    }
+
+    auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+    auto O =
+        at::einsum("mghn, nghk -> mghk", {s, V.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
+    return std::make_tuple(O, m, l);
 }
 
-static at::Tensor split1_reduce_torch(
-  const at::Tensor& O_splits,
-  const at::Tensor& m,
-  const at::Tensor& l
-) {
-  return at::div(O_splits, l);
+static at::Tensor
+split1_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m, const at::Tensor& l)
+{
+    return at::div(O_splits, l);
 }
 
 namespace {
@@ -62,209 +65,213 @@ namespace {
 template <typename c10_t>
 struct c10_to_data_t;
 template <>
-struct c10_to_data_t<float> {
-  using type = float;
+struct c10_to_data_t<float>
+{
+    using type = float;
 };
 
 template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
+struct c10_to_data_t<c10::Half>
+{
+    using type = ck::half_t;
 };
 
 template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
+struct c10_to_data_t<c10::BFloat16>
+{
+    using type = ck::bhalf_t;
 };
-}
+} // namespace
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+    AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                         \
+    AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                         \
+    AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
 
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+    AT_DISPATCH_SWITCH(                                                              \
+        TYPE, NAME, AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
 
 namespace {
 
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock,
+template <int32_t ThreadsPerWavefront,
+          int32_t WavefrontsPerBlock,
           int32_t KV_M_MAX = 8192,
-          int32_t K_MAX = 256>
+          int32_t K_MAX    = 256>
 at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int64_t split_k,
     at::Tensor& split_max,
     at::Tensor& split_sumexp,
     at::Tensor& split_O,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_splitk_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc = split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens ?
-            seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data() : nullptr;
-        auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc = split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-
-  return O;
+    at::Tensor& O)
+{
+    static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+    static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+    at::OptionalDeviceGuard guard(XQ.device());
+    TORCH_CHECK(XQ.is_cuda());
+    TORCH_CHECK(cache_K.is_cuda());
+    TORCH_CHECK(cache_V.is_cuda());
+
+    TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+    TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+    TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+    constexpr auto rank = 5;
+
+    auto B = XQ.size(0);
+    auto M = XQ.size(1);
+    auto G = XQ.size(2);
+    auto H = XQ.size(3);
+
+    TORCH_CHECK(B <= 1024);
+    TORCH_CHECK(M <= 1024);
+    TORCH_CHECK(H <= 1024);
+
+    dim3 blocks(B * H * M * G, split_k);
+    dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+    int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+    int32_t smem_output  = K_MAX * sizeof(float) *
+                          threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+    const size_t lds_bytes = max(smem_softmax, smem_output);
+    auto stream            = at::cuda::getCurrentHIPStream().stream();
+
+    AT_DISPATCH_SWITCH_3(
+        at::ScalarType::Half,
+        at::ScalarType::BFloat16,
+        at::ScalarType::Float,
+        XQ.scalar_type(),
+        "efficient_attention_forward_decoder_splitk_ck",
+        [&] {
+            using ck_data_t   = c10_to_data_t<scalar_t>::type;
+            using device_op_t = ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t>;
+            auto op           = device_op_t{};
+
+            auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto K_acc  = cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+            auto V_acc  = cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+            auto split_O_acc =
+                split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+            auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto seq_acc =
+                seq_kv_lens
+                    ? seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data()
+                    : nullptr;
+            auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+            auto split_sumexp_acc =
+                split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+            auto arg = device_op_t::Argument(
+                reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+                reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+                reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+                reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+                split_max_acc.data(),
+                split_sumexp_acc.data(),
+                seq_acc,
+                XQ_acc.stride(0),
+                XQ_acc.stride(1),
+                XQ_acc.stride(2),
+                XQ_acc.stride(3),
+                K_acc.stride(0),
+                K_acc.stride(1),
+                K_acc.stride(2),
+                K_acc.stride(3),
+                split_O_acc.stride(0),
+                XQ_acc.size(1),
+                XQ_acc.size(2),
+                XQ_acc.size(3),
+                XQ_acc.size(4),
+                K_acc.size(1),
+                K_acc.size(3) == 1,
+                qk_scale,
+                split_k,
+                blocks,
+                threads,
+                lds_bytes);
+
+            auto invoker = device_op_t::Invoker{};
+            (void)invoker.Run(arg, {stream});
+        });
+
+    return O;
 }
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
-    int64_t split_k) {
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-
-  TORCH_CHECK(XQ.dim() == rank);
-  TORCH_CHECK(cache_K.dim() == rank);
-  TORCH_CHECK(cache_V.dim() == rank);
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto K = XQ.size(4);
-  
-  auto O_splits = at::zeros({split_k, B, M, G, H, K}, XQ.options());
-
-  auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat)).fill_(ck::NumericLimits<float>::Lowest());
-  auto split_sumexp = at::zeros_like(split_max);
-
-  efficient_attention_forward_decoder_splitk_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
-
-  return O;
+    int64_t split_k)
+{
+    auto O              = at::empty_like(XQ);
+    constexpr auto rank = 5;
+
+    TORCH_CHECK(XQ.dim() == rank);
+    TORCH_CHECK(cache_K.dim() == rank);
+    TORCH_CHECK(cache_V.dim() == rank);
+
+    auto B = XQ.size(0);
+    auto M = XQ.size(1);
+    auto G = XQ.size(2);
+    auto H = XQ.size(3);
+    auto K = XQ.size(4);
+
+    auto O_splits = at::zeros({split_k, B, M, G, H, K}, XQ.options());
+
+    auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+                         .fill_(ck::NumericLimits<float>::Lowest());
+    auto split_sumexp = at::zeros_like(split_max);
+
+    efficient_attention_forward_decoder_splitk_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
+        XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
+
+    return O;
 }
 
 at::Tensor efficient_attention_forward_decoder_split1_torch(
-  const at::Tensor& XQ, // [B, 1, G, H, D]
-  const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-  const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-  at::optional<at::Tensor> seq_kv_lens, // [B]
-  double qk_scale
-) {
-  auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
-  auto O = split1_reduce_torch(O_split, m, l);
-  return O.reshape_as(XQ);
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale)
+{
+    auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
+    auto O               = split1_reduce_torch(O_split, m, l);
+    return O.reshape_as(XQ);
 }
 
 at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
-    int64_t split_k) {
+    int64_t split_k)
+{
 
-  // return efficient_attention_forward_decoder_split1_torch(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+    // return efficient_attention_forward_decoder_split1_torch(XQ, cache_K, cache_V, seq_kv_lens,
+    // qk_scale);
 
-  return efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+    return efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront,
+                                                              kWavefrontsPerBlock>(
+        XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
 }
 } // namespace
 
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_splitk_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m)
+{
+    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_splitk_ck"),
+           TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
 }
 
 #ifdef ATTN_FWD_SPLITK_DECODER_MAIN
@@ -305,595 +312,630 @@ namespace tensor_operation {
 namespace device {
 
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplit1DeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplit1DeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-      std::string str() const {
-        std::ostringstream oss;
-        oss << "Argument { " << std::endl <<
-        "    XQ: " << XQ << std::endl <<
-        "    cache_K: " << cache_K << std::endl <<
-        "    cache_V: " << cache_V << std::endl << 
-        "    O: " << O << std::endl <<
-        "    split_O: " << split_O << std::endl <<
-        "    split_max: " << split_max << std::endl <<
-        "    split_sumexp: " << split_sumexp << std::endl <<
-        "    seq_kv_lens: " << seq_kv_lens << std::endl <<
-        "    XQ_stride_b: " << XQ_stride_b << std::endl <<
-        "    XQ_stride_m: " << XQ_stride_m << std::endl <<
-        "    XQ_stride_g: " << XQ_stride_g << std::endl <<
-        "    XQ_stride_h: " << XQ_stride_h << std::endl <<
-        "    K_stride_b: " << K_stride_b << std::endl <<
-        "    K_stride_m: " << K_stride_m << std::endl <<
-        "    K_stride_g: " << K_stride_g << std::endl <<
-        "    K_stride_h: " << K_stride_h << std::endl <<
-        "    O_stride_split: " << O_stride_split << std::endl <<
-        "    Q_size_m: " << Q_size_m << std::endl <<
-        "    Q_size_g: " << Q_size_g << std::endl <<
-        "    Q_size_h: " << Q_size_h << std::endl <<
-        "    Q_size_k: " << Q_size_k << std::endl <<
-        "    K_size_m: " << K_size_m << std::endl <<
-        "    multiquery: " << multiquery << std::endl <<
-        "    qk_scale: " << qk_scale << std::endl <<
-        "    split_k: " << split_k << std::endl <<
-        std::endl <<
-        "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z << std::endl <<
-        "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z << std::endl <<
-        "    lds_bytes: " << lds_bytes << std::endl <<
-        "}";
-        return oss.str();
-      }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-
-      // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ << std::endl;
-
-      auto threads_per_wavefront = arg.block_dim.x;
-
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
+struct FMHADecoderSplit1DeviceOp : public BaseOperator
+{
+    using DeviceOp = FMHADecoderSplit1DeviceOp;
+    struct Argument : public BaseArgument
+    {
+        const scalar_t* __restrict__ XQ;
+        const scalar_t* __restrict__ cache_K;
+        const scalar_t* __restrict__ cache_V;
+        scalar_t* __restrict__ O;
+        scalar_t* __restrict__ split_O;
+        compute_t* __restrict__ split_max;
+        compute_t* __restrict__ split_sumexp;
+        const int32_t* __restrict__ seq_kv_lens;
+        const ptrdiff_t XQ_stride_b;
+        const ptrdiff_t XQ_stride_m;
+        const ptrdiff_t XQ_stride_g;
+        const ptrdiff_t XQ_stride_h;
+        const ptrdiff_t K_stride_b;
+        const ptrdiff_t K_stride_m;
+        const ptrdiff_t K_stride_g;
+        const ptrdiff_t K_stride_h;
+        const ptrdiff_t O_stride_split;
+        const int32_t Q_size_m;
+        const int32_t Q_size_g;
+        const int32_t Q_size_h;
+        const int32_t Q_size_k;
+        const int32_t K_size_m;
+        const bool multiquery;
+        const float qk_scale;
+        const int32_t split_k;
+
+        const dim3 grid_dim;
+        const dim3 block_dim;
+        const size_t lds_bytes;
+
+        Argument(const scalar_t* __restrict__ XQ,
+                 const scalar_t* __restrict__ cache_K,
+                 const scalar_t* __restrict__ cache_V,
+                 scalar_t* __restrict__ O,
+                 scalar_t* __restrict__ split_O,
+                 compute_t* __restrict__ split_max,
+                 compute_t* __restrict__ split_sumexp,
+                 const int32_t* __restrict__ seq_kv_lens,
+                 const ptrdiff_t XQ_stride_b,
+                 const ptrdiff_t XQ_stride_m,
+                 const ptrdiff_t XQ_stride_g,
+                 const ptrdiff_t XQ_stride_h,
+                 const ptrdiff_t K_stride_b,
+                 const ptrdiff_t K_stride_m,
+                 const ptrdiff_t K_stride_g,
+                 const ptrdiff_t K_stride_h,
+                 const ptrdiff_t O_stride_split,
+                 const int32_t Q_size_m,
+                 const int32_t Q_size_g,
+                 const int32_t Q_size_h,
+                 const int32_t Q_size_k,
+                 const int32_t K_size_m,
+                 const bool multiquery,
+                 const float qk_scale,
+                 const int32_t split_k,
+                 // launch params
+                 const dim3 grid_dim,
+                 const dim3 block_dim,
+                 const size_t lds_bytes)
+            : XQ(XQ),
+              cache_K(cache_K),
+              cache_V(cache_V),
+              O(O),
+              split_O(split_O),
+              split_max(split_max),
+              split_sumexp(split_sumexp),
+              seq_kv_lens(seq_kv_lens),
+              XQ_stride_b(XQ_stride_b),
+              XQ_stride_m(XQ_stride_m),
+              XQ_stride_g(XQ_stride_g),
+              XQ_stride_h(XQ_stride_h),
+              K_stride_b(K_stride_b),
+              K_stride_m(K_stride_m),
+              K_stride_g(K_stride_g),
+              K_stride_h(K_stride_h),
+              O_stride_split(O_stride_split),
+              Q_size_m(Q_size_m),
+              Q_size_g(Q_size_g),
+              Q_size_h(Q_size_h),
+              Q_size_k(Q_size_k),
+              K_size_m(K_size_m),
+              multiquery(multiquery),
+              qk_scale(qk_scale),
+              split_k(split_k),
+              // launch params
+              grid_dim(grid_dim),
+              block_dim(block_dim),
+              lds_bytes(lds_bytes)
+        {
         }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-        return split_attention_result;
-    }
-  };
+
+        std::string str() const
+        {
+            std::ostringstream oss;
+            oss << "Argument { " << std::endl
+                << "    XQ: " << XQ << std::endl
+                << "    cache_K: " << cache_K << std::endl
+                << "    cache_V: " << cache_V << std::endl
+                << "    O: " << O << std::endl
+                << "    split_O: " << split_O << std::endl
+                << "    split_max: " << split_max << std::endl
+                << "    split_sumexp: " << split_sumexp << std::endl
+                << "    seq_kv_lens: " << seq_kv_lens << std::endl
+                << "    XQ_stride_b: " << XQ_stride_b << std::endl
+                << "    XQ_stride_m: " << XQ_stride_m << std::endl
+                << "    XQ_stride_g: " << XQ_stride_g << std::endl
+                << "    XQ_stride_h: " << XQ_stride_h << std::endl
+                << "    K_stride_b: " << K_stride_b << std::endl
+                << "    K_stride_m: " << K_stride_m << std::endl
+                << "    K_stride_g: " << K_stride_g << std::endl
+                << "    K_stride_h: " << K_stride_h << std::endl
+                << "    O_stride_split: " << O_stride_split << std::endl
+                << "    Q_size_m: " << Q_size_m << std::endl
+                << "    Q_size_g: " << Q_size_g << std::endl
+                << "    Q_size_h: " << Q_size_h << std::endl
+                << "    Q_size_k: " << Q_size_k << std::endl
+                << "    K_size_m: " << K_size_m << std::endl
+                << "    multiquery: " << multiquery << std::endl
+                << "    qk_scale: " << qk_scale << std::endl
+                << "    split_k: " << split_k << std::endl
+                << std::endl
+                << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z
+                << std::endl
+                << "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z
+                << std::endl
+                << "    lds_bytes: " << lds_bytes << std::endl
+                << "}";
+            return oss.str();
+        }
+    };
+
+    struct Invoker : public BaseInvoker
+    {
+        using Argument = DeviceOp::Argument;
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
+        {
+
+            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ <<
+            // std::endl;
+
+            auto threads_per_wavefront = arg.block_dim.x;
+
+            auto Q_size_k_alignment_necessary = 0;
+
+            for(auto vec_size : {4, 2, 1})
+            {
+                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                {
+                    Q_size_k_alignment_necessary = vec_size;
+                }
+            }
+
+            if(!Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported Q_size_k");
+            }
+
+            if(arg.Q_size_k % Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported alignment for Q_size_k");
+            }
+
+            float split_attention_result = launch_and_time_kernel(
+                stream_config,
+                Q_size_k_alignment_necessary == 4
+                    ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
+                    : Q_size_k_alignment_necessary == 2
+                          ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
+                          : Q_size_k_alignment_necessary == 1
+                                ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
+                                : nullptr,
+                arg.grid_dim,
+                arg.block_dim,
+                arg.lds_bytes,
+                arg.XQ,
+                arg.cache_K,
+                arg.cache_V,
+                arg.split_O,
+                arg.split_max,
+                arg.split_sumexp,
+                arg.seq_kv_lens,
+                arg.XQ_stride_b,
+                arg.XQ_stride_m,
+                arg.XQ_stride_g,
+                arg.XQ_stride_h,
+                arg.K_stride_b,
+                arg.K_stride_m,
+                arg.K_stride_g,
+                arg.K_stride_h,
+                arg.O_stride_split,
+                arg.Q_size_m,
+                arg.Q_size_g,
+                arg.Q_size_h,
+                arg.Q_size_k,
+                arg.K_size_m,
+                arg.multiquery,
+                arg.qk_scale,
+                arg.split_k);
+
+            return split_attention_result;
+        }
+    };
 };
 
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderReduceDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderReduceDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
+struct FMHADecoderReduceDeviceOp : public BaseOperator
+{
+    using DeviceOp = FMHADecoderReduceDeviceOp;
+    struct Argument : public BaseArgument
+    {
+        const scalar_t* __restrict__ XQ;
+        const scalar_t* __restrict__ cache_K;
+        const scalar_t* __restrict__ cache_V;
+        scalar_t* __restrict__ O;
+        scalar_t* __restrict__ split_O;
+        compute_t* __restrict__ split_max;
+        compute_t* __restrict__ split_sumexp;
+        const int32_t* __restrict__ seq_kv_lens;
+        const ptrdiff_t XQ_stride_b;
+        const ptrdiff_t XQ_stride_m;
+        const ptrdiff_t XQ_stride_g;
+        const ptrdiff_t XQ_stride_h;
+        const ptrdiff_t K_stride_b;
+        const ptrdiff_t K_stride_m;
+        const ptrdiff_t K_stride_g;
+        const ptrdiff_t K_stride_h;
+        const ptrdiff_t O_stride_split;
+        const int32_t Q_size_m;
+        const int32_t Q_size_g;
+        const int32_t Q_size_h;
+        const int32_t Q_size_k;
+        const int32_t K_size_m;
+        const bool multiquery;
+        const float qk_scale;
+        const int32_t split_k;
+
+        const dim3 grid_dim;
+        const dim3 block_dim;
+        const size_t lds_bytes;
+
+        Argument(const scalar_t* __restrict__ XQ,
+                 const scalar_t* __restrict__ cache_K,
+                 const scalar_t* __restrict__ cache_V,
+                 scalar_t* __restrict__ O,
+                 scalar_t* __restrict__ split_O,
+                 compute_t* __restrict__ split_max,
+                 compute_t* __restrict__ split_sumexp,
+                 const int32_t* __restrict__ seq_kv_lens,
+                 const ptrdiff_t XQ_stride_b,
+                 const ptrdiff_t XQ_stride_m,
+                 const ptrdiff_t XQ_stride_g,
+                 const ptrdiff_t XQ_stride_h,
+                 const ptrdiff_t K_stride_b,
+                 const ptrdiff_t K_stride_m,
+                 const ptrdiff_t K_stride_g,
+                 const ptrdiff_t K_stride_h,
+                 const ptrdiff_t O_stride_split,
+                 const int32_t Q_size_m,
+                 const int32_t Q_size_g,
+                 const int32_t Q_size_h,
+                 const int32_t Q_size_k,
+                 const int32_t K_size_m,
+                 const bool multiquery,
+                 const float qk_scale,
+                 const int32_t split_k,
+                 // launch params
+                 const dim3 grid_dim,
+                 const dim3 block_dim,
+                 const size_t lds_bytes)
+            : XQ(XQ),
+              cache_K(cache_K),
+              cache_V(cache_V),
+              O(O),
+              split_O(split_O),
+              split_max(split_max),
+              split_sumexp(split_sumexp),
+              seq_kv_lens(seq_kv_lens),
+              XQ_stride_b(XQ_stride_b),
+              XQ_stride_m(XQ_stride_m),
+              XQ_stride_g(XQ_stride_g),
+              XQ_stride_h(XQ_stride_h),
+              K_stride_b(K_stride_b),
+              K_stride_m(K_stride_m),
+              K_stride_g(K_stride_g),
+              K_stride_h(K_stride_h),
+              O_stride_split(O_stride_split),
+              Q_size_m(Q_size_m),
+              Q_size_g(Q_size_g),
+              Q_size_h(Q_size_h),
+              Q_size_k(Q_size_k),
+              K_size_m(K_size_m),
+              multiquery(multiquery),
+              qk_scale(qk_scale),
+              split_k(split_k),
+              // launch params
+              grid_dim(grid_dim),
+              block_dim(block_dim),
+              lds_bytes(lds_bytes)
+        {
         }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-        stream_config,
-        Q_size_k_alignment_necessary == 4
-            ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
-            : Q_size_k_alignment_necessary == 2
-            ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
-            : Q_size_k_alignment_necessary == 1
-            ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 1>
-            : nullptr,
-        reduce_gridsize,
-        reduce_blocksize,
-        reduce_lds_bytes, 
-        arg.split_O,
-        arg.split_max,
-        arg.split_sumexp,
-        arg.O,
-        arg.Q_size_m,
-        arg.Q_size_g,
-        arg.Q_size_h,
-        arg.Q_size_k,
-        arg.O_stride_split,
-        arg.XQ_stride_b,
-        arg.XQ_stride_m,
-        arg.XQ_stride_g,
-        arg.XQ_stride_h,
-        arg.split_k
-      );
-      return reduce_result;
-    }
-  };
+    };
+
+    struct Invoker : public BaseInvoker
+    {
+        using Argument = DeviceOp::Argument;
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
+        {
+            auto threads_per_wavefront = arg.block_dim.x;
+
+            auto Q_size_k_alignment_necessary = 0;
+
+            for(auto vec_size : {4, 2, 1})
+            {
+                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                {
+                    Q_size_k_alignment_necessary = vec_size;
+                }
+            }
+
+            if(!Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported Q_size_k");
+            }
+
+            if(arg.Q_size_k % Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported alignment for Q_size_k");
+            }
+
+            const dim3 reduce_gridsize         = {arg.grid_dim.x};
+            const dim3 reduce_blocksize        = {arg.block_dim.x};
+            constexpr int32_t reduce_lds_bytes = 0;
+            float reduce_result                = launch_and_time_kernel(
+                stream_config,
+                Q_size_k_alignment_necessary == 4
+                    ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
+                    : Q_size_k_alignment_necessary == 2
+                          ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
+                          : Q_size_k_alignment_necessary == 1
+                                ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                                      scalar_t,
+                                      1>
+                                : nullptr,
+                reduce_gridsize,
+                reduce_blocksize,
+                reduce_lds_bytes,
+                arg.split_O,
+                arg.split_max,
+                arg.split_sumexp,
+                arg.O,
+                arg.Q_size_m,
+                arg.Q_size_g,
+                arg.Q_size_h,
+                arg.Q_size_k,
+                arg.O_stride_split,
+                arg.XQ_stride_b,
+                arg.XQ_stride_m,
+                arg.XQ_stride_g,
+                arg.XQ_stride_h,
+                arg.split_k);
+            return reduce_result;
+        }
+    };
 };
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(
-  const at::Tensor& XQ, 
-  const at::Tensor& K, 
-  const at::Tensor& V, 
-  const at::Tensor& seqlen) {
-
-  at::OptionalDeviceGuard guard(XQ.device());
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto D = XQ.size(4);
-
-  double qk_scale = 1. / sqrt(D);
-  constexpr auto split_k = 1;
-
-  auto O = at::empty_like(XQ);
-  constexpr auto splitk_dim = 0;
-  constexpr auto rank = 5;
-  auto split_O = at::stack(O, splitk_dim);
-  auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-  auto split_sumexp = at::empty_like(split_max);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
-
-  constexpr int32_t KV_M_MAX = 8192;
-  constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_split1_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplit1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc = split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data();
-        auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc = split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return std::make_tuple(split_O[splitk_dim], split_max, split_sumexp);
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(const at::Tensor& XQ,
+                                                                           const at::Tensor& K,
+                                                                           const at::Tensor& V,
+                                                                           const at::Tensor& seqlen)
+{
+
+    at::OptionalDeviceGuard guard(XQ.device());
+
+    auto B = XQ.size(0);
+    auto M = XQ.size(1);
+    auto G = XQ.size(2);
+    auto H = XQ.size(3);
+    auto D = XQ.size(4);
+
+    double qk_scale        = 1. / sqrt(D);
+    constexpr auto split_k = 1;
+
+    auto O                    = at::empty_like(XQ);
+    constexpr auto splitk_dim = 0;
+    constexpr auto rank       = 5;
+    auto split_O              = at::stack(O, splitk_dim);
+    auto split_max            = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+    auto split_sumexp         = at::empty_like(split_max);
+
+    dim3 blocks(B * H * M * G, split_k);
+    dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
+
+    constexpr int32_t KV_M_MAX = 8192;
+    constexpr int32_t K_MAX    = 4 * kThreadsPerWavefront;
+
+    int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+    int32_t smem_output  = K_MAX * sizeof(float) *
+                          threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+    const size_t lds_bytes = max(smem_softmax, smem_output);
+    auto stream            = at::cuda::getCurrentHIPStream().stream();
+
+    AT_DISPATCH_SWITCH_3(
+        at::ScalarType::Half,
+        at::ScalarType::BFloat16,
+        at::ScalarType::Float,
+        XQ.scalar_type(),
+        "efficient_attention_forward_decoder_split1_ck_test",
+        [&] {
+            using ck_data_t   = c10_to_data_t<scalar_t>::type;
+            using device_op_t = ck::tensor_operation::device::FMHADecoderSplit1DeviceOp<ck_data_t>;
+            auto op           = device_op_t{};
+
+            auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto K_acc  = K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+            auto V_acc  = V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+            auto split_O_acc =
+                split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+            auto O_acc   = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto seq_acc = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data();
+            auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+            auto split_sumexp_acc =
+                split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+            auto arg = device_op_t::Argument(
+                reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+                reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+                reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+                reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+                split_max_acc.data(),
+                split_sumexp_acc.data(),
+                seq_acc,
+                XQ_acc.stride(0),
+                XQ_acc.stride(1),
+                XQ_acc.stride(2),
+                XQ_acc.stride(3),
+                K_acc.stride(0),
+                K_acc.stride(1),
+                K_acc.stride(2),
+                K_acc.stride(3),
+                split_O_acc.stride(0),
+                XQ_acc.size(1),
+                XQ_acc.size(2),
+                XQ_acc.size(3),
+                XQ_acc.size(4),
+                K_acc.size(1),
+                K_acc.size(3) == 1,
+                qk_scale,
+                split_k,
+                blocks,
+                threads,
+                lds_bytes);
+
+            auto invoker = device_op_t::Invoker{};
+            (void)invoker.Run(arg, {stream});
+        });
+    return std::make_tuple(split_O[splitk_dim], split_max, split_sumexp);
 }
 
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(const int32_t padding, const int32_t B, const int32_t Hq, const int32_t Hkv, const decltype(torch::kFloat32) dtype = torch::kFloat32) {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t G = Hq / Hkv;
-  const int32_t num_queries = 1;
-
-  auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) 
-    ? at::randn({B, padding, G, Hkv, D}, options) 
-    : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  // auto seqlen = at::randint(1, padding + 1, {B}, int_options);
-  // auto seqlen = at::tensor({1062}, int_options);
-  auto seqlen = at::tensor({6, 12, 13, 9, 32, 10, 12, 6}, int_options);
-
-  return std::make_tuple(XQ, K, V, seqlen);
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
+generate_inputs(const int32_t padding,
+                const int32_t B,
+                const int32_t Hq,
+                const int32_t Hkv,
+                const decltype(torch::kFloat32) dtype = torch::kFloat32)
+{
+    const int32_t D           = 4 * kThreadsPerWavefront;
+    const int32_t G           = Hq / Hkv;
+    const int32_t num_queries = 1;
+
+    auto options = torch::TensorOptions()
+                       .dtype(dtype)
+                       .layout(torch::kStrided)
+                       .device(torch::kCUDA, 1)
+                       .requires_grad(false);
+    auto int_options = options.dtype(torch::kInt);
+    auto XQ          = at::randn({B, num_queries, G, Hq, D}, options);
+    auto K           = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
+                      : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
+    auto V = at::randn_like(K);
+    // auto seqlen = at::randint(1, padding + 1, {B}, int_options);
+    // auto seqlen = at::tensor({1062}, int_options);
+    auto seqlen = at::tensor({6, 12, 13, 9, 32, 10, 12, 6}, int_options);
+
+    return std::make_tuple(XQ, K, V, seqlen);
 }
 
-static void test_split1_attention() {
-  auto [XQ, K, V, seqlen] = generate_inputs(4096, 1, 16, 16);
-  
-  auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
+static void test_split1_attention()
+{
+    auto [XQ, K, V, seqlen] = generate_inputs(4096, 1, 16, 16);
 
-  auto hip_result = split1_attention_hip(XQ, K, V, seqlen);
+    auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
 
-  auto O_match_mask = at::isclose(std::get<0>(reference_result), std::get<0>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto m_match_mask = at::isclose(std::get<1>(reference_result), std::get<1>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto l_match_mask = at::isclose(std::get<2>(reference_result), std::get<2>(hip_result), /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+    auto hip_result = split1_attention_hip(XQ, K, V, seqlen);
 
-  auto O_percent_match = at::sum(O_match_mask.to(torch::kFloat32)) / O_match_mask.numel();
-  auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
-  auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
+    auto O_match_mask = at::isclose(std::get<0>(reference_result),
+                                    std::get<0>(hip_result),
+                                    /*atol*/ 1e-3,
+                                    /*rtol*/ 1e-5,
+                                    /*equal_nan*/ false);
+    auto m_match_mask = at::isclose(std::get<1>(reference_result),
+                                    std::get<1>(hip_result),
+                                    /*atol*/ 1e-3,
+                                    /*rtol*/ 1e-5,
+                                    /*equal_nan*/ false);
+    auto l_match_mask = at::isclose(std::get<2>(reference_result),
+                                    std::get<2>(hip_result),
+                                    /*atol*/ 1e-3,
+                                    /*rtol*/ 1e-5,
+                                    /*equal_nan*/ false);
 
-  printf(
-      "Mismatched split_O elements percentage: %.2f\n",
-      1. - O_percent_match.item<float>());
+    auto O_percent_match = at::sum(O_match_mask.to(torch::kFloat32)) / O_match_mask.numel();
+    auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
+    auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
 
-  printf(
-      "Mismatched split_max elements percentage: %.2f\n",
-      1. - m_percent_match.item<float>());
+    printf("Mismatched split_O elements percentage: %.2f\n", 1. - O_percent_match.item<float>());
 
-  printf(
-      "Mismatched split_sumexp elements percentage: %.2f\n",
-      1. - m_percent_match.item<float>());
+    printf("Mismatched split_max elements percentage: %.2f\n", 1. - m_percent_match.item<float>());
+
+    printf("Mismatched split_sumexp elements percentage: %.2f\n",
+           1. - m_percent_match.item<float>());
 }
 
-static void do_correctness_check() {
-  auto [XQ, K, V, seqlen] = generate_inputs(32, 8, 16, 16);
-
-  double qk_scale = 1. / sqrt(XQ.size(-1));
-  constexpr auto split_k = 2;
-  
-  auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
-      XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_split1_torch(
-      XQ, K, V, seqlen, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  auto nan_count = at::sum(at::isnan(result));
-  auto numel = result.numel();
-  auto inf_count = at::sum(at::isinf(result));
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
-  // printf("k_seqlen: %d\n", seqlen.item<int32_t>());
-  std::cout << "numel: " << numel << " nan count: " << nan_count << " inf count: " << inf_count << std::endl;
-  std::cout << "k_seqlen: " << seqlen << std::endl;
+static void do_correctness_check()
+{
+    auto [XQ, K, V, seqlen] = generate_inputs(32, 8, 16, 16);
+
+    double qk_scale        = 1. / sqrt(XQ.size(-1));
+    constexpr auto split_k = 2;
+
+    auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
+        XQ, K, V, seqlen, qk_scale, split_k);
+    auto gold_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
+    auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+    auto nan_count     = at::sum(at::isnan(result));
+    auto numel         = result.numel();
+    auto inf_count     = at::sum(at::isinf(result));
+    printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
+    // printf("k_seqlen: %d\n", seqlen.item<int32_t>());
+    std::cout << "numel: " << numel << " nan count: " << nan_count << " inf count: " << inf_count
+              << std::endl;
+    std::cout << "k_seqlen: " << seqlen << std::endl;
 }
 
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-
-    // test_split1_attention();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 6) {
-      std::cout
-          << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype n_wavefronts_per_block"
-          << std::endl;
-      return 0;
-    }
-    const int32_t padding = std::stoi(args[0]);
-    const int32_t batch_size = std::stoi(args[1]);
-    const int32_t nq_heads = std::stoi(args[2]);
-    const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-    auto [Q, K, V, seq] = generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-    auto O = at::empty_like(Q);
+int main(int argc, char** argv)
+{
+    if(argc == 1)
+    {
+        do_correctness_check();
 
-    constexpr auto splitk_dim = 0;
-    constexpr auto split_k = 1;
-    auto O_splits = at::stack(O, splitk_dim);
-
-    auto split_max = at::empty({batch_size, padding, Q.size(2), Q.size(3), split_k}, Q.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    const double qk_scale = 1. / sqrt(Q.size(-1));
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
+        // test_split1_attention();
     }
+    else
+    {
+        const auto args = std::vector<std::string>(argv + 1, argv + argc);
+        if(args.size() != 6)
+        {
+            std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
+                         "n_wavefronts_per_block"
+                      << std::endl;
+            return 0;
+        }
+        const int32_t padding    = std::stoi(args[0]);
+        const int32_t batch_size = std::stoi(args[1]);
+        const int32_t nq_heads   = std::stoi(args[2]);
+        const int32_t nkv_heads  = std::stoi(args[3]);
+        const auto dtype         = (args[4] == "f32")
+                               ? torch::kFloat32
+                               : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+        const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+        auto [Q, K, V, seq] = generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
+        auto O              = at::empty_like(Q);
+
+        constexpr auto splitk_dim = 0;
+        constexpr auto split_k    = 1;
+        auto O_splits             = at::stack(O, splitk_dim);
+
+        auto split_max    = at::empty({batch_size, padding, Q.size(2), Q.size(3), split_k},
+                                   Q.options().dtype(at::kFloat));
+        auto split_sumexp = at::empty_like(split_max);
+
+        const double qk_scale = 1. / sqrt(Q.size(-1));
+        auto call_ptr         = decltype(
+            &efficient_attention_forward_decoder_splitk_ck_out_impl<kThreadsPerWavefront,
+                                                                    kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                                              \
+    case(n):                                                                                    \
+        call_ptr =                                                                              \
+            &efficient_attention_forward_decoder_splitk_ck_out_impl<kThreadsPerWavefront, (n)>; \
+        break;
+
+        switch(n_wavefronts_per_block)
+        {
+            SWITCH_CASE_SET_CALLPTR(1);
+            SWITCH_CASE_SET_CALLPTR(2);
+            SWITCH_CASE_SET_CALLPTR(4);
+            SWITCH_CASE_SET_CALLPTR(8);
+            SWITCH_CASE_SET_CALLPTR(16);
+
+        default: call_ptr = nullptr; break;
+        }
 #undef SWITCH_CASE_SET_CALLPTR
 
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
+        if(call_ptr)
+        {
+            call_ptr(Q, K, V, seq, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
+        }
+        else
+        {
+            std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                      << n_wavefronts_per_block << std::endl;
+        }
     }
-  }
-  return 0;
+    return 0;
 }
 
 #endif // MAIN
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 24d57c8b4d..d2086405b9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -7,467 +7,508 @@
 #include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
 
-
 namespace {
 
 template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
-    typename ck::vector_type<float, vec_size>::type acc,
-    typename ck::vector_type<data_t, vec_size>::type a,
-    float b) {
-  union {
-    decltype(acc) vec;
-    float arr[vec_size];
-  } acc_u{acc};
-  union {
-    decltype(a) vec;
-    data_t arr[vec_size];
-  } a_u{a};
+__device__ typename ck::vector_type<float, vec_size>::type
+scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc,
+                 typename ck::vector_type<data_t, vec_size>::type a,
+                 float b)
+{
+    union
+    {
+        decltype(acc) vec;
+        float arr[vec_size];
+    } acc_u{acc};
+    union
+    {
+        decltype(a) vec;
+        data_t arr[vec_size];
+    } a_u{a};
 
 #pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-  }
+    for(int32_t i = 0; i < vec_size; ++i)
+    {
+        acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+    }
 
-  return acc_u.vec;
+    return acc_u.vec;
 }
 
 template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f) {
+float __device__ __forceinline__ wavefrontReduce(float val, F f)
+{
 #pragma unroll
-  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
-    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-  }
-  return val;
+    for(int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1)
+    {
+        val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+    }
+    return val;
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void load_v(
-    const TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec* __restrict__ load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+__forceinline__ __device__ void
+load_v(const TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec* __restrict__ load_to)
+{
+    *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void store_v(
-    TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+__forceinline__ __device__ void
+store_v(TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec value)
+{
+    *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
-template<
-typename scalar_t,
-int32_t vec_size = 4,
-typename compute_t = float
-> 
+template <typename scalar_t, int32_t vec_size = 4, typename compute_t = float>
 __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
-  const scalar_t* __restrict__ O_splits,
-  const compute_t* __restrict__ split_max,
-  const compute_t* __restrict__ split_sumexp,
-  scalar_t* __restrict__ O,
-  const int32_t Q_size_m,
-  const int32_t Q_size_g,
-  const int32_t Q_size_h,
-  const int32_t Q_size_k,
-  const ptrdiff_t O_stride_split,
-  const ptrdiff_t O_stride_b,
-  const ptrdiff_t O_stride_m,
-  const ptrdiff_t O_stride_g,
-  const ptrdiff_t O_stride_h,
-  const int32_t split_k
-) {
-  
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  union {
-    data_vec_t vec;
-    data_t arr[vec_size];
-  } O_split_data;
-  union {
-    compute_vec_t vec;
-    compute_t arr[vec_size];
-  } O_split_compute;
-  union {
-    data_vec_t vec;
-    data_t arr[vec_size];
-  } global_O_data;
-  union {
-    compute_vec_t vec;
-    compute_t arr[vec_size];
-  } global_O_compute;
-
-  global_O_compute.vec = 0;
-
-  const int32_t lane_idx = threadIdx.x;
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  if (!lane_active_for_io) {
-    return;
-  }
-
-  // for s in slices:
-  //       attn_slice = s["attn_slice"]
-  //       m = s["row_max"]
-  //       l = s["row_lse"]
-  //       m_new = torch.max(m, m_current_max)
-  //       assert not m_new.isnan().any(), "m_new is nan"
-  //       pick_new = m < m_current_max
-  //       pick_our = torch.logical_not(pick_new)
-
-  //       log_alpha = -torch.abs(m - m_current_max)
-  //       log_alpha[log_alpha.isnan()] = 0
-  //       alpha = torch.exp(log_alpha)
-  //       assert not alpha.isnan().any(), "alpha is nan"
-  //       out = out + attn_slice + (pick_our * out + pick_new * attn_slice) * (torch.sub(alpha, 1))
-  //       assert not out.isnan().any(), "out acc is nan"
-  //       l_current_sum = l_current_sum + l + (pick_our * l_current_sum + pick_new * l) * (torch.sub(alpha, 1))
-  //       assert not l_current_sum.isnan().any(), "l acc is nan"
-  //       m_current_max = m_new
-  //   out /= l_current_sum
-
-  compute_t new_max = 0;
-  compute_t global_sumexp = 0;
-  compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    load_v<data_t, data_vec_t>(O_splits 
-                               + b * O_stride_b 
-                               + m * O_stride_m 
-                               + g * O_stride_g 
-                               + h * O_stride_h
-                               + split_idx * O_stride_split, lane_idx, &O_split_data.vec);                       
-    #pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
-    }
-    compute_t local_max = *(split_max + blockIdx.x * split_k + split_idx); 
-    compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx); 
-    new_max = ck::math::max(local_max, global_max);
-    bool pick_new = local_max < global_max;
-    compute_t log_alpha = -std::abs(local_max - global_max);
-    compute_t alpha = isnan(log_alpha) ? compute_t{1} : ck::math::exp(log_alpha);
-    compute_t pick_current_coef = (1 + (1 - pick_new) * (alpha - 1));
-    compute_t pick_new_coef = (1 + pick_new * (alpha - 1));
-    global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
-    global_O_compute.vec = pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
-    global_max = new_max;
-  }
-  global_O_compute.vec /= global_sumexp;
-  #pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
-  }
-  store_v<data_t, data_vec_t>(O + b * O_stride_b + m * O_stride_m + g * O_stride_g + h * O_stride_h, lane_idx, global_O_data.vec);
-}
-
-template <
-    typename scalar_t,
-    int32_t vec_size = 4,
-    int32_t n_loop_unroll = 1,
-    int32_t n_loop_unroll_tail = 1,
-    int32_t KV_M_MAX = 8192,
-    typename compute_t = float>
-__global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O_splits,
-    compute_t* __restrict__ split_max,
-    compute_t* __restrict__ split_sumexp,
-    const int32_t* __restrict__ seq_kv_lens,
-    const ptrdiff_t XQ_stride_b,
-    const ptrdiff_t XQ_stride_m,
-    const ptrdiff_t XQ_stride_g,
-    const ptrdiff_t XQ_stride_h,
-    const ptrdiff_t K_stride_b,
-    const ptrdiff_t K_stride_m,
-    const ptrdiff_t K_stride_g,
-    const ptrdiff_t K_stride_h,
-    const ptrdiff_t O_stride_split,
+    const scalar_t* __restrict__ O_splits,
+    const compute_t* __restrict__ split_max,
+    const compute_t* __restrict__ split_sumexp,
+    scalar_t* __restrict__ O,
     const int32_t Q_size_m,
     const int32_t Q_size_g,
     const int32_t Q_size_h,
     const int32_t Q_size_k,
-    const int32_t K_size_m,
-    const bool multiquery,
-    const float qk_scale,
-    const int32_t split_k) {
-  static_assert(n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1, 
-     "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal (and tail is no-op)");
-
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-  const int32_t split_idx = blockIdx.y;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-  const auto XQO_base_offset =
-      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-  const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset =
-      b * K_stride_b + 0 * K_stride_m + g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  extern __shared__ __align__(16) compute_t smem[];
-
-  data_vec_t q_thread = 0;
-  // Load Q into registers in all wavefronts.
-  // Each thread handles `vec_size` D dimensions
-  if (lane_active_for_io) {
-    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  }
-
-  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-  // Compute S[0:t_max] = 
-  // ```
-  // for t in range(t_max): 
-  //   S[t] = dot(Q, K[t])
-  // ```
-  // Split the 0:t_max range across wavefronts in a block, 
-  // unroll loads to expose more parallelism.
-  // Reduce the dot product with cross-lane operation;
-  // Q and K[t] are in the registers of threads in a single wavefront.
-
-  data_vec_t k_loads[n_loop_unroll] = {};
-
-  const auto dtt = wavefronts_per_block * n_loop_unroll;
-  const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
-  const int32_t tt_low = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
-  const int32_t tt_high = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
-  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
-
-  for (auto tt = tt_low; tt < tt_high; tt += dtt) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the K[b][t][g][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-      }
+    const ptrdiff_t O_stride_split,
+    const ptrdiff_t O_stride_b,
+    const ptrdiff_t O_stride_m,
+    const ptrdiff_t O_stride_g,
+    const ptrdiff_t O_stride_h,
+    const int32_t split_k)
+{
+
+    // Each block handles a single batch and head and query and group
+    const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+    const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+    const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+    const int32_t h = blockIdx.x % Q_size_h;
+
+    using data_t        = scalar_t;
+    using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
+    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+    union
+    {
+        data_vec_t vec;
+        data_t arr[vec_size];
+    } O_split_data;
+    union
+    {
+        compute_vec_t vec;
+        compute_t arr[vec_size];
+    } O_split_compute;
+    union
+    {
+        data_vec_t vec;
+        data_t arr[vec_size];
+    } global_O_data;
+    union
+    {
+        compute_vec_t vec;
+        compute_t arr[vec_size];
+    } global_O_compute;
+
+    global_O_compute.vec = 0;
+
+    const int32_t lane_idx        = threadIdx.x;
+    const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+    if(!lane_active_for_io)
+    {
+        return;
     }
-    compute_t qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-          q_thread, k_loads[ttt], qk_accs[ttt]);
-      qk_accs[ttt] *= qk_scale;
-
-      qk_accs[ttt] =
-          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
+
+    // for s in slices:
+    //       attn_slice = s["attn_slice"]
+    //       m = s["row_max"]
+    //       l = s["row_lse"]
+    //       m_new = torch.max(m, m_current_max)
+    //       assert not m_new.isnan().any(), "m_new is nan"
+    //       pick_new = m < m_current_max
+    //       pick_our = torch.logical_not(pick_new)
+
+    //       log_alpha = -torch.abs(m - m_current_max)
+    //       log_alpha[log_alpha.isnan()] = 0
+    //       alpha = torch.exp(log_alpha)
+    //       assert not alpha.isnan().any(), "alpha is nan"
+    //       out = out + attn_slice + (pick_our * out + pick_new * attn_slice) * (torch.sub(alpha,
+    //       1)) assert not out.isnan().any(), "out acc is nan" l_current_sum = l_current_sum + l +
+    //       (pick_our * l_current_sum + pick_new * l) * (torch.sub(alpha, 1)) assert not
+    //       l_current_sum.isnan().any(), "l acc is nan" m_current_max = m_new
+    //   out /= l_current_sum
+
+    compute_t new_max       = 0;
+    compute_t global_sumexp = 0;
+    compute_t global_max    = ck::NumericLimits<compute_t>::Lowest();
+
+    for(int32_t split_idx = 0; split_idx < split_k; ++split_idx)
+    {
+        load_v<data_t, data_vec_t>(O_splits + b * O_stride_b + m * O_stride_m + g * O_stride_g +
+                                       h * O_stride_h + split_idx * O_stride_split,
+                                   lane_idx,
+                                   &O_split_data.vec);
+#pragma unroll
+        for(int32_t i = 0; i < vec_size; ++i)
+        {
+            O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
+        }
+        compute_t local_max         = *(split_max + blockIdx.x * split_k + split_idx);
+        compute_t local_sumexp      = *(split_sumexp + blockIdx.x * split_k + split_idx);
+        new_max                     = ck::math::max(local_max, global_max);
+        bool pick_new               = local_max < global_max;
+        compute_t log_alpha         = -std::abs(local_max - global_max);
+        compute_t alpha             = isnan(log_alpha) ? compute_t{1} : ck::math::exp(log_alpha);
+        compute_t pick_current_coef = (1 + (1 - pick_new) * (alpha - 1));
+        compute_t pick_new_coef     = (1 + pick_new * (alpha - 1));
+        global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
+        global_O_compute.vec =
+            pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
+        global_max = new_max;
     }
-    if (lane_idx == 0) {
-      auto* __restrict__ smem_base = smem + tt;
+    global_O_compute.vec /= global_sumexp;
+#pragma unroll
+    for(int32_t i = 0; i < vec_size; ++i)
+    {
+        global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+    }
+    store_v<data_t, data_vec_t>(O + b * O_stride_b + m * O_stride_m + g * O_stride_g +
+                                    h * O_stride_h,
+                                lane_idx,
+                                global_O_data.vec);
+}
+
+template <typename scalar_t,
+          int32_t vec_size           = 4,
+          int32_t n_loop_unroll      = 1,
+          int32_t n_loop_unroll_tail = 1,
+          int32_t KV_M_MAX           = 8192,
+          typename compute_t         = float>
+__global__ void
+efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict__ XQ,
+                                                     const scalar_t* __restrict__ cache_K,
+                                                     const scalar_t* __restrict__ cache_V,
+                                                     scalar_t* __restrict__ O_splits,
+                                                     compute_t* __restrict__ split_max,
+                                                     compute_t* __restrict__ split_sumexp,
+                                                     const int32_t* __restrict__ seq_kv_lens,
+                                                     const ptrdiff_t XQ_stride_b,
+                                                     const ptrdiff_t XQ_stride_m,
+                                                     const ptrdiff_t XQ_stride_g,
+                                                     const ptrdiff_t XQ_stride_h,
+                                                     const ptrdiff_t K_stride_b,
+                                                     const ptrdiff_t K_stride_m,
+                                                     const ptrdiff_t K_stride_g,
+                                                     const ptrdiff_t K_stride_h,
+                                                     const ptrdiff_t O_stride_split,
+                                                     const int32_t Q_size_m,
+                                                     const int32_t Q_size_g,
+                                                     const int32_t Q_size_h,
+                                                     const int32_t Q_size_k,
+                                                     const int32_t K_size_m,
+                                                     const bool multiquery,
+                                                     const float qk_scale,
+                                                     const int32_t split_k)
+{
+    static_assert(n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
+                  "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
+                  "(and tail is no-op)");
+
+    // Each block handles a single batch and head and query and group
+    const int32_t b         = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+    const int32_t m         = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+    const int32_t g         = (blockIdx.x / Q_size_h) % Q_size_g;
+    const int32_t h         = blockIdx.x % Q_size_h;
+    const int32_t split_idx = blockIdx.y;
+
+    // Note: this is decoding case where we attend to current and all previous
+    // tokens.
+    const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
+
+    const int32_t lane_idx              = threadIdx.x;
+    const int32_t wavefront_idx         = threadIdx.y;
+    const int32_t threads_per_wavefront = blockDim.x;
+    const int32_t wavefronts_per_block  = blockDim.y;
+    const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
+    const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
+    // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+    const auto XQO_base_offset =
+        b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
+    const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+    const auto cache_KV_base_offset =
+        b * K_stride_b + 0 * K_stride_m + g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
+    const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+    const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+    using data_t        = scalar_t;
+    using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
+    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+    const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+    extern __shared__ __align__(16) compute_t smem[];
+
+    data_vec_t q_thread = 0;
+    // Load Q into registers in all wavefronts.
+    // Each thread handles `vec_size` D dimensions
+    if(lane_active_for_io)
+    {
+        load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+    }
+
+    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+    // Compute S[0:t_max] =
+    // ```
+    // for t in range(t_max):
+    //   S[t] = dot(Q, K[t])
+    // ```
+    // Split the 0:t_max range across wavefronts in a block,
+    // unroll loads to expose more parallelism.
+    // Reduce the dot product with cross-lane operation;
+    // Q and K[t] are in the registers of threads in a single wavefront.
+
+    data_vec_t k_loads[n_loop_unroll] = {};
+
+    const auto dtt              = wavefronts_per_block * n_loop_unroll;
+    const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
+    const int32_t tt_low = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
+    const int32_t tt_high =
+        wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
+    const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
+    const int32_t tt_tail_low =
+        wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
+    const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
+
+    for(auto tt = tt_low; tt < tt_high; tt += dtt)
+    {
+        if(lane_active_for_io)
+        {
 #pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        smem_base[ttt] = qk_accs[ttt];
-      }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                // load the K[b][t][g][h|0][:] row into registers
+                load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+            }
+        }
+        compute_t qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+        for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+        {
+            ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+                q_thread, k_loads[ttt], qk_accs[ttt]);
+            qk_accs[ttt] *= qk_scale;
+
+            qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
+            max_qk_acc   = ck::math::max(qk_accs[ttt], max_qk_acc);
+        }
+        if(lane_idx == 0)
+        {
+            auto* __restrict__ smem_base = smem + tt;
+#pragma unroll n_loop_unroll
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                smem_base[ttt] = qk_accs[ttt];
+            }
+        }
     }
-  }
 
-  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-  for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
-    if (lane_active_for_io) {
+    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+    for(auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail)
+    {
+        if(lane_active_for_io)
+        {
 #pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the K[b][t][g][h|0][:] row into registers
-          load_v<data_t, data_vec_t>(
-              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
+                {
+                    // load the K[b][t][g][h|0][:] row into registers
+                    load_v<data_t, data_vec_t>(
+                        cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                }
+            }
         }
-      }
-    }
 #pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      compute_t qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-            q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
-
-        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
-        if (lane_idx == 0) {
-          smem[t] = qk_acc;
+        for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+        {
+            compute_t qk_acc = 0;
+            const int32_t t  = tt + ttt;
+            if(t < t_max)
+            {
+                ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+                    q_thread, k_loads[ttt], qk_acc);
+                qk_acc *= qk_scale;
+
+                qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+                max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+                // write accumulated sums to smem.
+                if(lane_idx == 0)
+                {
+                    smem[t] = qk_acc;
+                }
+            }
         }
-      }
     }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc =
-      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-  if (wavefront_idx == 0 && lane_idx == 0) {
-    split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
-  }
-
-  // each wavefront computes partial sum of exp.
-  compute_t softmax_denominator = 0.0f;
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    if (t >= tt_low && t < tt_tail_high) {
-      softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+
+    // Use shared reduction to compute max and compute softmax on shared memory.
+    // write max acc
+    if(lane_idx == 0)
+    {
+        smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+    }
+    __syncthreads();
+    if(lane_idx < wavefronts_per_block)
+    {
+        max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+    }
+    // shared across all threads in block
+    max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+    if(wavefront_idx == 0 && lane_idx == 0)
+    {
+        split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+    }
+
+    // each wavefront computes partial sum of exp.
+    compute_t softmax_denominator = 0.0f;
+    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    {
+        if(t >= tt_low && t < tt_tail_high)
+        {
+            softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+        }
+    }
+    softmax_denominator =
+        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+
+    if(lane_idx == 0)
+    {
+        smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+    }
+    __syncthreads();
+
+    // now, compute sum of exp(x - max(x)) over all intermediate results.
+    softmax_denominator = 0.0;
+    if(lane_idx < wavefronts_per_block)
+    {
+        softmax_denominator = smem[KV_M_MAX + lane_idx];
+    }
+    softmax_denominator =
+        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+
+    if(wavefront_idx == 0 && lane_idx == 0)
+    {
+        split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
     }
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-  }
-  __syncthreads();
-
-  // now, compute sum of exp(x - max(x)) over all intermediate results.
-  softmax_denominator = 0.0;
-  if (lane_idx < wavefronts_per_block) {
-    softmax_denominator = smem[KV_M_MAX + lane_idx];
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  if (wavefront_idx == 0 && lane_idx == 0) {
-    split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
-  }
-  
-  // now, compute the normalization across all threads.
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) { 
-    // softmax scale by sumexp will happen in the reduction kernel
-    smem[t] = ck::math::exp(smem[t] - max_qk_acc);
-  }
-  __syncthreads();
-
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
-
-  compute_t ps[n_loop_unroll] = {};
-  compute_vec_t o_acc = 0;
-  if (lane_active_for_io) {
-    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+
+    // now, compute the normalization across all threads.
+    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    {
+        // softmax scale by sumexp will happen in the reduction kernel
+        smem[t] = ck::math::exp(smem[t] - max_qk_acc);
+    }
+    __syncthreads();
+
+    // Split T across wavefronts in a block
+    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+    // outputs are of size float[D]
+
+    compute_t ps[n_loop_unroll] = {};
+    compute_vec_t o_acc         = 0;
+    if(lane_active_for_io)
+    {
+        for(auto tt = tt_low; tt < tt_high; tt += dtt)
+        {
 #pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the V[b][t][g][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t];
-      }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                // load the V[b][t][g][h|0][:] row into registers, reusing K register
+                // storage
+                load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                ps[ttt] = smem[t];
+            }
 
 #pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        o_acc =
-            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-      }
-    }
+            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            {
+                o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+            }
+        }
 
-    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+        for(auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail)
+        {
 #pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the V[b][t][g][h|0][:] row into registers, reusing K register
-          // storage
-          load_v<data_t, data_vec_t>(
-              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-          ps[ttt] = smem[t];
-        }
-      }
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
+                {
+                    // load the V[b][t][g][h|0][:] row into registers, reusing K register
+                    // storage
+                    load_v<data_t, data_vec_t>(
+                        cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+                    ps[ttt] = smem[t];
+                }
+            }
 
 #pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          o_acc =
-              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
+            {
+                const int32_t t = tt + ttt;
+                if(t < t_max)
+                {
+                    o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+                }
+            }
         }
-      }
     }
-  }
-  // now, each thread has partial sums. Write to smem and get accumulated
-  // results back.
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-  if (lane_active_for_io) {
-    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-  }
-
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0 && lane_active_for_io) {
-    union {
-      compute_vec_t vec = 0;
-      compute_t arr[vec_size];
-    } r;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r.vec += partial_r;
+    // now, each thread has partial sums. Write to smem and get accumulated
+    // results back.
+    __syncthreads();
+
+    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+    if(lane_active_for_io)
+    {
+        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
     }
-    // elementwise convert from compute_t result to data_t out to be written
-    union {
-      data_vec_t vec;
-      data_t arr[vec_size];
-    } bf_r;
+
+    __syncthreads();
+    // sum up partial D rows from other wavefronts
+    if(wavefront_idx == 0 && lane_active_for_io)
+    {
+        union
+        {
+            compute_vec_t vec = 0;
+            compute_t arr[vec_size];
+        } r;
+        for(int32_t w = 0; w < wavefronts_per_block; ++w)
+        {
+            compute_vec_t partial_r;
+            load_v<compute_t, compute_vec_t>(
+                smem, w * threads_per_wavefront + lane_idx, &partial_r);
+            r.vec += partial_r;
+        }
+        // elementwise convert from compute_t result to data_t out to be written
+        union
+        {
+            data_vec_t vec;
+            data_t arr[vec_size];
+        } bf_r;
 #pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+        for(int32_t i = 0; i < vec_size; ++i)
+        {
+            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+        }
+        // write output row O[b][m][g][h][:]
+        data_t* __restrict__ o_ = O_splits + XQO_base_offset + split_idx * O_stride_split;
+        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
     }
-    // write output row O[b][m][g][h][:]
-    data_t* __restrict__ o_ = O_splits + XQO_base_offset + split_idx * O_stride_split;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-  }
 }
 
 } // namespace
@@ -476,230 +517,241 @@ namespace ck {
 namespace tensor_operation {
 namespace device {
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitKDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitKDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-      std::string str() const {
-        std::ostringstream oss;
-        oss << "Argument { " << std::endl <<
-        "    XQ: " << XQ << std::endl <<
-        "    cache_K: " << cache_K << std::endl <<
-        "    cache_V: " << cache_V << std::endl << 
-        "    O: " << O << std::endl <<
-        "    split_O: " << split_O << std::endl <<
-        "    split_max: " << split_max << std::endl <<
-        "    split_sumexp: " << split_sumexp << std::endl <<
-        "    seq_kv_lens: " << seq_kv_lens << std::endl <<
-        "    XQ_stride_b: " << XQ_stride_b << std::endl <<
-        "    XQ_stride_m: " << XQ_stride_m << std::endl <<
-        "    XQ_stride_g: " << XQ_stride_g << std::endl <<
-        "    XQ_stride_h: " << XQ_stride_h << std::endl <<
-        "    K_stride_b: " << K_stride_b << std::endl <<
-        "    K_stride_m: " << K_stride_m << std::endl <<
-        "    K_stride_g: " << K_stride_g << std::endl <<
-        "    K_stride_h: " << K_stride_h << std::endl <<
-        "    O_stride_split: " << O_stride_split << std::endl <<
-        "    Q_size_m: " << Q_size_m << std::endl <<
-        "    Q_size_g: " << Q_size_g << std::endl <<
-        "    Q_size_h: " << Q_size_h << std::endl <<
-        "    Q_size_k: " << Q_size_k << std::endl <<
-        "    K_size_m: " << K_size_m << std::endl <<
-        "    multiquery: " << multiquery << std::endl <<
-        "    qk_scale: " << qk_scale << std::endl <<
-        "    split_k: " << split_k << std::endl <<
-        std::endl <<
-        "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z << std::endl <<
-        "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z << std::endl <<
-        "    lds_bytes: " << lds_bytes << std::endl <<
-        "}";
-        return oss.str();
-      }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-
-      auto threads_per_wavefront = arg.block_dim.x;
-
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
+struct FMHADecoderSplitKDeviceOp : public BaseOperator
+{
+    using DeviceOp = FMHADecoderSplitKDeviceOp;
+    struct Argument : public BaseArgument
+    {
+        const scalar_t* __restrict__ XQ;
+        const scalar_t* __restrict__ cache_K;
+        const scalar_t* __restrict__ cache_V;
+        scalar_t* __restrict__ O;
+        scalar_t* __restrict__ split_O;
+        compute_t* __restrict__ split_max;
+        compute_t* __restrict__ split_sumexp;
+        const int32_t* __restrict__ seq_kv_lens;
+        const ptrdiff_t XQ_stride_b;
+        const ptrdiff_t XQ_stride_m;
+        const ptrdiff_t XQ_stride_g;
+        const ptrdiff_t XQ_stride_h;
+        const ptrdiff_t K_stride_b;
+        const ptrdiff_t K_stride_m;
+        const ptrdiff_t K_stride_g;
+        const ptrdiff_t K_stride_h;
+        const ptrdiff_t O_stride_split;
+        const int32_t Q_size_m;
+        const int32_t Q_size_g;
+        const int32_t Q_size_h;
+        const int32_t Q_size_k;
+        const int32_t K_size_m;
+        const bool multiquery;
+        const float qk_scale;
+        const int32_t split_k;
+
+        const dim3 grid_dim;
+        const dim3 block_dim;
+        const size_t lds_bytes;
+
+        Argument(const scalar_t* __restrict__ XQ,
+                 const scalar_t* __restrict__ cache_K,
+                 const scalar_t* __restrict__ cache_V,
+                 scalar_t* __restrict__ O,
+                 scalar_t* __restrict__ split_O,
+                 compute_t* __restrict__ split_max,
+                 compute_t* __restrict__ split_sumexp,
+                 const int32_t* __restrict__ seq_kv_lens,
+                 const ptrdiff_t XQ_stride_b,
+                 const ptrdiff_t XQ_stride_m,
+                 const ptrdiff_t XQ_stride_g,
+                 const ptrdiff_t XQ_stride_h,
+                 const ptrdiff_t K_stride_b,
+                 const ptrdiff_t K_stride_m,
+                 const ptrdiff_t K_stride_g,
+                 const ptrdiff_t K_stride_h,
+                 const ptrdiff_t O_stride_split,
+                 const int32_t Q_size_m,
+                 const int32_t Q_size_g,
+                 const int32_t Q_size_h,
+                 const int32_t Q_size_k,
+                 const int32_t K_size_m,
+                 const bool multiquery,
+                 const float qk_scale,
+                 const int32_t split_k,
+                 // launch params
+                 const dim3 grid_dim,
+                 const dim3 block_dim,
+                 const size_t lds_bytes)
+            : XQ(XQ),
+              cache_K(cache_K),
+              cache_V(cache_V),
+              O(O),
+              split_O(split_O),
+              split_max(split_max),
+              split_sumexp(split_sumexp),
+              seq_kv_lens(seq_kv_lens),
+              XQ_stride_b(XQ_stride_b),
+              XQ_stride_m(XQ_stride_m),
+              XQ_stride_g(XQ_stride_g),
+              XQ_stride_h(XQ_stride_h),
+              K_stride_b(K_stride_b),
+              K_stride_m(K_stride_m),
+              K_stride_g(K_stride_g),
+              K_stride_h(K_stride_h),
+              O_stride_split(O_stride_split),
+              Q_size_m(Q_size_m),
+              Q_size_g(Q_size_g),
+              Q_size_h(Q_size_h),
+              Q_size_k(Q_size_k),
+              K_size_m(K_size_m),
+              multiquery(multiquery),
+              qk_scale(qk_scale),
+              split_k(split_k),
+              // launch params
+              grid_dim(grid_dim),
+              block_dim(block_dim),
+              lds_bytes(lds_bytes)
+        {
         }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-        const dim3 reduce_gridsize = {arg.grid_dim.x};
-        const dim3 reduce_blocksize = {arg.block_dim.x};
-        constexpr int32_t reduce_lds_bytes = 0;
-        float reduce_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes, 
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.O_stride_split,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.split_k
-        );
-        return split_attention_result + reduce_result;
-    }
-  };
+
+        std::string str() const
+        {
+            std::ostringstream oss;
+            oss << "Argument { " << std::endl
+                << "    XQ: " << XQ << std::endl
+                << "    cache_K: " << cache_K << std::endl
+                << "    cache_V: " << cache_V << std::endl
+                << "    O: " << O << std::endl
+                << "    split_O: " << split_O << std::endl
+                << "    split_max: " << split_max << std::endl
+                << "    split_sumexp: " << split_sumexp << std::endl
+                << "    seq_kv_lens: " << seq_kv_lens << std::endl
+                << "    XQ_stride_b: " << XQ_stride_b << std::endl
+                << "    XQ_stride_m: " << XQ_stride_m << std::endl
+                << "    XQ_stride_g: " << XQ_stride_g << std::endl
+                << "    XQ_stride_h: " << XQ_stride_h << std::endl
+                << "    K_stride_b: " << K_stride_b << std::endl
+                << "    K_stride_m: " << K_stride_m << std::endl
+                << "    K_stride_g: " << K_stride_g << std::endl
+                << "    K_stride_h: " << K_stride_h << std::endl
+                << "    O_stride_split: " << O_stride_split << std::endl
+                << "    Q_size_m: " << Q_size_m << std::endl
+                << "    Q_size_g: " << Q_size_g << std::endl
+                << "    Q_size_h: " << Q_size_h << std::endl
+                << "    Q_size_k: " << Q_size_k << std::endl
+                << "    K_size_m: " << K_size_m << std::endl
+                << "    multiquery: " << multiquery << std::endl
+                << "    qk_scale: " << qk_scale << std::endl
+                << "    split_k: " << split_k << std::endl
+                << std::endl
+                << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z
+                << std::endl
+                << "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z
+                << std::endl
+                << "    lds_bytes: " << lds_bytes << std::endl
+                << "}";
+            return oss.str();
+        }
+    };
+
+    struct Invoker : public BaseInvoker
+    {
+        using Argument = DeviceOp::Argument;
+        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
+        {
+
+            auto threads_per_wavefront = arg.block_dim.x;
+
+            auto Q_size_k_alignment_necessary = 0;
+
+            for(auto vec_size : {4, 2, 1})
+            {
+                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                {
+                    Q_size_k_alignment_necessary = vec_size;
+                }
+            }
+
+            if(!Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported Q_size_k");
+            }
+
+            if(arg.Q_size_k % Q_size_k_alignment_necessary)
+            {
+                throw std::runtime_error("Unsupported alignment for Q_size_k");
+            }
+
+            float split_attention_result = launch_and_time_kernel(
+                stream_config,
+                Q_size_k_alignment_necessary == 4
+                    ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
+                    : Q_size_k_alignment_necessary == 2
+                          ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
+                          : Q_size_k_alignment_necessary == 1
+                                ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
+                                : nullptr,
+                arg.grid_dim,
+                arg.block_dim,
+                arg.lds_bytes,
+                arg.XQ,
+                arg.cache_K,
+                arg.cache_V,
+                arg.split_O,
+                arg.split_max,
+                arg.split_sumexp,
+                arg.seq_kv_lens,
+                arg.XQ_stride_b,
+                arg.XQ_stride_m,
+                arg.XQ_stride_g,
+                arg.XQ_stride_h,
+                arg.K_stride_b,
+                arg.K_stride_m,
+                arg.K_stride_g,
+                arg.K_stride_h,
+                arg.O_stride_split,
+                arg.Q_size_m,
+                arg.Q_size_g,
+                arg.Q_size_h,
+                arg.Q_size_k,
+                arg.K_size_m,
+                arg.multiquery,
+                arg.qk_scale,
+                arg.split_k);
+
+            const dim3 reduce_gridsize         = {arg.grid_dim.x};
+            const dim3 reduce_blocksize        = {arg.block_dim.x};
+            constexpr int32_t reduce_lds_bytes = 0;
+            float reduce_result                = launch_and_time_kernel(
+                stream_config,
+                Q_size_k_alignment_necessary == 4
+                    ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
+                    : Q_size_k_alignment_necessary == 2
+                          ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
+                          : Q_size_k_alignment_necessary == 1
+                                ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                                      scalar_t,
+                                      1>
+                                : nullptr,
+                reduce_gridsize,
+                reduce_blocksize,
+                reduce_lds_bytes,
+                arg.split_O,
+                arg.split_max,
+                arg.split_sumexp,
+                arg.O,
+                arg.Q_size_m,
+                arg.Q_size_g,
+                arg.Q_size_h,
+                arg.Q_size_k,
+                arg.O_stride_split,
+                arg.XQ_stride_b,
+                arg.XQ_stride_m,
+                arg.XQ_stride_g,
+                arg.XQ_stride_h,
+                arg.split_k);
+            return split_attention_result + reduce_result;
+        }
+    };
 };
 } // namespace device
 } // namespace tensor_operation

From 588b3a02d6d7b3bf96aefcf7efee01816e21d66e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 17:18:50 +0000
Subject: [PATCH 338/837] Enable support of attn-bias types with LocalAttention

---
 tests/test_forward_ck_tiled.py                | 2100 ++++++++++++++---
 tests/test_mqa_forward_ck_tiled.py            |  673 ++++++
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |   13 +-
 xformers/ops/fmha/ck.py                       |  163 +-
 4 files changed, 2602 insertions(+), 347 deletions(-)
 create mode 100644 tests/test_mqa_forward_ck_tiled.py

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index e2d6abc6fd..a0685d88e4 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -5,22 +5,26 @@
 
 import math
 import random
+from functools import partial
 from typing import List, Optional, Sequence, Tuple, Type, TypeVar
 
 import pytest
 import torch
+import torch.nn.functional as F
 from scipy.stats import binomtest
 from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
+from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
+from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
 from xformers.ops.fmha.common import AttentionOpBase
+from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
 
 from .utils import assert_allclose
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
 _types = [torch.float16, torch.bfloat16]
 
@@ -91,13 +95,14 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
     ]
     # Add some random shapes
     if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
+        fmha.cutlass.FwOp,
+        fmha.cutlass.BwOp,
+        fmha.flash.BwOp,
     ]:
         K_CHOICES = [8 * i for i in range(1, 256 // 8)]
         r = random.Random(0)
         found_count = 0
-        while found_count < 20:
+        while found_count < 200:
             B = r.randint(1, 400)
             Mq = r.randint(1, 500)
             Mkv = r.randint(1, 500)
@@ -146,10 +151,10 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
                         B, Mq, Mkv, H, K, Kv = shape
                         B = min(B, 12)
 
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
+                        if bias_type in {
+                            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+                            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                        }:
                             Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
                         elif (
                             bias_type
@@ -207,50 +212,40 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
 )
 
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
-    if q.ndim == 4:
-        B, M, Hq, K = q.shape
-        _, N, Hkv, Kv = v.shape
-        nhead_ratio_qk = Hq // Hkv
 
-        def attn_bias_head(head: int):
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 5:
+
+        def attn_bias_group(group: int):
             if isinstance(attn_bias, torch.Tensor):
-                assert attn_bias.ndim == 4
-                _, H, _, _ = attn_bias.shape        
-                assert H == Hq
-                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-                return bias_bghmn[:, :, head]
+                return attn_bias[:, group]
             if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                assert attn_bias._bias.ndim == 4
-                _, H, _, _ = attn_bias._bias.shape        
-                assert H == Hq
-                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-
                 return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    bias_bghmn[:, :, head]
+                    attn_bias._bias[:, group]
                 )
             return attn_bias
 
-        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
-
         return torch.stack(
             [
                 ref_attention_bmhk(
-                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
+                    q[:, :, g],
+                    k[:, :, g],
+                    v[:, :, g],
+                    scale=scale,
+                    attn_bias=attn_bias_group(g),
                 )
-                for h in range(q_bmghk.shape[3])
+                for g in range(q.shape[2])
             ],
-            dim=3,
-        ).reshape((B, M, Hq, Kv))
-     
-    assert q.ndim == 3
-    if dtype is None:
-        dtype = torch.float32
-    q = q.to(dtype=dtype)
-    k = k.to(dtype=dtype)
-    v = v.to(dtype=dtype)
-
-    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+            dim=2,
+        )
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, scale=scale, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
     q = q * scale
 
     attn = q @ k.transpose(-2, -1)
@@ -260,23 +255,23 @@ def attn_bias_head(head: int):
             attn_bias_tensor = attn_bias.materialize(
                 (q.shape[0], 1, q.shape[1], k.shape[1]),
                 device=q.device,
-                dtype=dtype,
+                dtype=torch.float32,
             )
         else:
-            attn_bias_tensor = attn_bias.to(dtype=dtype)
+            attn_bias_tensor = attn_bias
         if attn_bias_tensor.ndim == 4:
             assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
             attn_bias_tensor = attn_bias_tensor.reshape(
                 [-1, *attn_bias_tensor.shape[2:]]
             )
-        attn = attn + attn_bias_tensor
+        attn = attn + attn_bias_tensor.float()
     attn = attn.softmax(-1)
     if drop_mask is not None:
         attn = attn * (drop_mask / (1 - p))
     return attn @ v
 
 
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -290,50 +285,11 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
 
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
     idx = {0, total}
@@ -343,158 +299,6 @@ def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     return [e - b for b, e in zip(s[:-1], s[1:])]
 
 
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        if fmt == "BMK":
-            attn_bias = attn_bias[:, 0]
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
 def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
     tensor_with_grad: Optional[torch.Tensor] = None
     if isinstance(attn_bias, torch.Tensor):
@@ -523,18 +327,46 @@ def create_tensors(
     *,
     attn_bias_requires_grad: bool = False,
     fmt: str = "BMK",
+    g: int = 1,
 ):
     torch.manual_seed(B * q_len + kv_len * k + kv)
+
+    mask_is_bottom_right = attn_bias_type is not None and issubclass(
+        attn_bias_type,
+        (
+            fmha.attn_bias.LowerTriangularFromBottomRightMask,
+            fmha.attn_bias.LowerTriangularFromBottomRightLocalAttentionMask,
+            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            fmha.attn_bias.BlockDiagonalCausalLocalAttentionMask,
+            fmha.attn_bias.LocalAttentionFromBottomRightMask,
+        ),
+    )
+    if mask_is_bottom_right and q_len > kv_len:
+        # Bottom-right attention and local-attention masks require q_len <= kv_len
+        kv_len = q_len
     scale = 3
     if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype)
+    elif fmt == "BMHK":
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype)
     else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+        assert fmt == "BMGHK"
+        query = torch.randn((B, q_len, g, h, k), device=device, dtype=dtype)
+        key = torch.randn((B, kv_len, g, 1, k), device=device, dtype=dtype)
+        value = torch.randn((B, kv_len, g, 1, kv), device=device, dtype=dtype)
+
+    for x in [query, key, value]:
+        x.mul_(scale)
+
+    if fmt == "BMGHK":
+        # Expand - after the in-place mul
+        key = key.expand((B, kv_len, g, h, k))
+        value = value.expand((B, kv_len, g, h, k))
 
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
         attn_bias_type = None
@@ -544,6 +376,7 @@ def create_tensors(
             attn_bias_type,
             batch_size=B,
             num_heads=h,
+            num_heads_groups=g,
             q_len=q_len,
             kv_len=kv_len,
             dtype=dtype,
@@ -590,11 +423,7 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed,
-    fmt,
-):
+def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
     (
         op,
         device,
@@ -618,12 +447,13 @@ def test_forward(
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
         )
-
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
         pytest.skip("BMK incompatible with this bias")
 
     query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK" if packed else fmt,
+        **kwargs,
     )
 
     if packed:
@@ -637,6 +467,7 @@ def test_forward(
                 bias_type=bias_type,
                 batch_size=batch_size,
                 num_heads=h,
+                num_heads_groups=1,
                 q_len=q_len,
                 kv_len=kv_len,
                 device=device,
@@ -645,9 +476,11 @@ def test_forward(
                 fmt=fmt,
                 op=op,
             )
-        else:
+        elif fmt == "BMHK":
             # bm3hk -> 3 x bmhk
             query, key, value = xformers.ops.unbind(c, 2)
+        else:
+            assert False, f"Unsupport fmt {fmt} with packing"
         assert not query.is_contiguous()
 
     out = xformers.ops.memory_efficient_attention_forward(
@@ -671,84 +504,1524 @@ def test_forward(
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
-@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
-@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
-@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
-@pytest.mark.parametrize("batches", [100, 64, 1])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
-@pytest.mark.parametrize("op", [fmha.ck.FwOp])
-def test_mqa_forward(
-    op,
-    attn_bias_type,
-    dtype, 
-    batches: int, 
-    seqlen_kv: int, 
-    seqlen_q: int, 
-    nhead_kv: int, 
-    nhead_q: int, 
-    hdim_v: int, 
-    hdim_k: int, 
+
+@cuda_only
+@pytest.mark.parametrize("k_len", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 4])
+@pytest.mark.parametrize("kv_len", [128, 512])
+@pytest.mark.parametrize("q_len", [128, 512])
+@pytest.mark.parametrize("dtype", _types)
+def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
+    device = "cuda"
+    scale = 3
+    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
+    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
+    # this should be equivalent to the average over value
+    ref = value.mean(1, keepdim=True).expand_as(query)
+
+    if dtype is torch.float16:
+        assert_allclose(out, ref, atol=1e-5)
+    else:
+        assert_allclose(out, ref, atol=1e-2)
+
+def _block_diag_reshape_lse(
+    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
+) -> torch.Tensor:
+    """LSE can be padded, let's remove the padding"""
+    parts = []
+    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
+        parts.append(slice[:, : end - start])
+    return torch.cat(parts, dim=1).unsqueeze(1)
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+
+    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+        attn_bias=attn_bias,
+    )
+    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            tensor_bias = attn_bias.materialize(
+                (query.shape[0], 1, query.shape[1], key.shape[1]),
+                device=query.device,
+                dtype=torch.float32,
+            )
+        else:
+            assert isinstance(attn_bias, torch.Tensor)
+            tensor_bias = attn_bias
+        if tensor_bias.ndim == 4:
+            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
+        attn = attn + tensor_bias.float()
+    ref_lse = attn.logsumexp(-1)
+    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
+        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
+    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
+
+
+@cuda_only
+@pytest.mark.parametrize("op", [fmha.cutlass.FwOp, fmha.flash.FwOp])
+def test_logsumexp_mqa(op):
+    if not op.is_available():
+        pytest.skip("not available")
+
+    dtype = torch.float16
+    s = 3
+    query = torch.randn([1, 1, 32, 128], dtype=dtype, device="cuda") * s
+    key = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
+        -1, -1, 32, -1
+    )
+    value = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
+        -1, -1, 32, -1
+    )
+    assert key.stride(2) == 0
+
+    _, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+    )
+    query, key, value = [x[0].transpose(0, 1) for x in [query, key, value]]
+    attn = (query.float() / query.shape[-1] ** 0.5) @ key.float().transpose(-2, -1)
+    ref_lse = attn.logsumexp(-1)
+    assert_allclose(lse[0, :, 0], ref_lse[:, 0], atol=2e-4)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("grad_out_contiguous", [False, True])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_backward(
+    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    grad_out_contiguous,
+    fmt,
 ):
-    B = batches
-    M = seqlen_q
-    N = seqlen_kv
-    Hq = nhead_q
-    Hkv = nhead_kv
-    K = hdim_k
-    Kv = hdim_v
+    (
+        op_bw,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    print("Hq=", Hq, "Hkv=", Hkv)
+    ## ToDo: reopen bfloat16 for testing
+    if dtype is torch.bfloat16:
+        pytest.skip("Temporarily disabled bfloat16 as we are still improving the accuracy of the results")
 
-    device = torch.device("cuda")
+    if k > 128 or kv > 128:
+        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
 
-    if not (K == Kv and (Kv == 64 or Kv == 128)):
-        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
+    if k % 2 != 0:
+        pytest.skip("head-dim length must be an even value for CK-FlashAttention")    
 
-    if Kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+    if grad_out_contiguous is False:
+        pytest.skip("CK-FlashAttention requires grad_out and out have same lengths/strides")
 
-    scale = 3
-    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
-    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
-    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
+    attn_bias_requires_grad = (
+        random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
+    )
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        attn_bias_requires_grad=attn_bias_requires_grad,
+        fmt=fmt,
+    )
 
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=Hq,
-            q_len=M,
-            kv_len=N,
-            dtype=dtype,
-            device=device,
-            requires_grad=False,
-            fmt="BMHK",
-            op=op,
+    # To understand why we do this, check the comment on the
+    # `AttentionBwOpBase` class
+    scale = None
+    if op_bw.SUPPORTS_CUSTOM_SCALE and query.shape[-1] < 32:
+        scale = (1 / 32) ** 0.5
+    op_fw = (
+        sample_random_supported_fw(
+            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
+            seed=q_len * kv + kv_len * k,
         )
+        if op_bw != fmha.ck.BwOp
+        else fmha.ck.FwOp
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
 
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
 
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
+    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
+        pytest.skip("inputs not supported")
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, scale=scale, op=(op_fw, op_bw)
     )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
+
+    grad_out = torch.randn_like(out)
+    if grad_out_contiguous is False:
+        grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
+            None, None, :
+        ].expand_as(out)
+
+    out.backward(grad_out)
+
+    if qkv is None and op_bw == fmha.cutlass.BwOp:
+        assert query.stride() == query.grad.stride()
+
+    grads = []
+    if qkv is None:
+        grads = [query.grad, key.grad, value.grad]
+        query.grad = None
+        key.grad = None
+        value.grad = None
+    else:
+        grads = [qkv.grad]
+        qkv.grad = None
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
+        if attn_bias_grad is not None:
+            grads.append(attn_bias_grad)
+
+    ref = ref_attention(query, key, value, attn_bias, scale=scale)
+    ref.backward(grad_out)
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        "fw pass",
+        atol=op_fw.ERROR_ATOL[dtype],
+        rtol=op_fw.ERROR_RTOL[dtype],
     )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
+
+    del out
+    del grad_out
+    del ref
+
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+
+    grads_ref = []
+    grads_name = []
+    if qkv is None:
+        assert isinstance(query.grad, torch.Tensor)
+        assert isinstance(key.grad, torch.Tensor)
+        assert isinstance(value.grad, torch.Tensor)
+        grads_ref = [query.grad, key.grad, value.grad]
+        grads_name = ["query", "key", "value"]
+    else:
+        assert isinstance(qkv.grad, torch.Tensor)
+        grads_ref = [qkv.grad]
+        grads_name = ["qkv"]
+
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias)
+        if attn_bias_grad is not None:
+            grads_ref.append(attn_bias.grad)
+            grads_name.append("bias")
+
+    del query
+    del key
+    del value
+    del qkv
+
+    assert len(grads_ref) == len(
+        grads
+    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
+    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
+        assert_allclose(
+            calc_grad,
+            ref_grad,
+            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
+            atol=atol,
+            rtol=rtol,
+        )
+
+
+def _vec_binom_test(x, n, p):
+    """
+    vectorized implementation of scipy.stats.binom_test
+    this makes our tests much faster
+    reference: https://github.com/scipy/scipy/blob/v1.8.0/scipy/stats/_morestats.py#L2609-L2702
+    """
+    import numpy as np
+    from scipy.stats import distributions
+
+    x = np.atleast_1d(x)
+    d = distributions.binom.pmf(x, n, p)[:, None]
+    rerr = 1 + 1e-7
+    # x < p * n case
+    i = np.arange(np.ceil(p * n), n + 1)
+    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
+    pval1 = distributions.binom.cdf(x, n, p) + distributions.binom.sf(n - y, n, p)
+
+    # other case
+    i = np.arange(np.floor(p * n) + 1)
+    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
+    pval2 = distributions.binom.cdf(y - 1, n, p) + distributions.binom.sf(x - 1, n, p)
+
+    pval = np.where(x < p * n, pval1, pval2)
+    pval = np.minimum(1.0, pval)
+    return pval
+
+def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
+    if op == fmha.ck.FwOp:
+        mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
+        ## rand_uniform is an int32 tensor
+        rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
+        ##mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
+        mask = (rand_uniform <= int((1.0-p)*255.0)).to(torch.float32)
+        mask = mask.reshape(batch_size, q_len, kv_len)
+    else:
+        mask = torch.empty((batch_size, q_len, kv_len), device=device)
+        mask = torch.ops.xformers._temp_dropout(mask, p)
+
+    return mask
+
+@cuda_only
+@pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
+@pytest.mark.parametrize("seed", [42, 124])
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k_len", [32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
+@pytest.mark.parametrize("q_len", [2, 33])
+@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
+@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
+    device = "cuda"
+    scale = 0.05 
+    query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+
+    inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
+    if not op.supports(inputs_for_support_check):
+        del query, key, value, attn_bias
+        pytest.skip(f"{op.NAME}: unsupported input")
+
+    torch.manual_seed(seed)
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, p, op=(op, None)
     )
 
+    torch.manual_seed(seed)
+    out2 = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, p, op=(op, None)
+    )
+
+    assert_allclose(out, out2, "dropout reproducibility")
+
+    torch.manual_seed(seed)
+    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+    ref = ref_attention(query, key, value, attn_bias, mask, p)
+    assert_allclose(out.float(), ref, atol=3e-3, rtol=5e-4), f"{(out - ref).abs().max()}"
+
+    num_trials = 1000
+    p_val_tol = 1e-6
+    keep_prob = 1 - p
+    masks = []
+    for i in range(num_trials):
+        mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+        masks.append(mask.clone().cpu())
+    masks = torch.stack(masks, dim=0)
+    p_value = binomtest(int(masks.sum()), masks.numel(), p=keep_prob).pvalue
+    assert p_value > p_val_tol, p_value
+    masks = masks.sum(0).flatten()
+    p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
+    assert all(p_values > p_val_tol)
+
+
+def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
+    if dtype is torch.bfloat16 and compute_capability < (8, 0):
+        pytest.skip("bf16 requires Sm80")
+    if not op.is_available():
+        pytest.skip()
+
+    scale = 3 
+    device = "cuda"
+    query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    grad_out = torch.ones_like(query)
+
+    assert op.supports(fmha.Inputs(query=query, key=key, value=value, p=p))
+
+    seed = 42
+    torch.manual_seed(seed)
+    out = xformers.ops.memory_efficient_attention(query, key, value, p=p, op=(op, None))
+
+    out.backward(grad_out)
+
+    grad_q = query.grad
+    grad_k = key.grad
+    grad_v = value.grad
+
+    query.grad = None
+    key.grad = None
+    value.grad = None
+
+    torch.manual_seed(seed)
+    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+
+    ref = ref_attention(query, key, value, None, mask, p)
+    ref.backward(grad_out)
+
+    atol, rtol = (
+        fmha.AttentionBwOpBase.ERROR_ATOL[dtype],
+        fmha.AttentionBwOpBase.ERROR_RTOL[dtype],
+    )
+    assert_allclose(
+        grad_v,
+        value.grad,
+        "grad_v",
+        atol=atol,
+        rtol=rtol,
+    )
+    # TODO: Investigate why precision is worse
+    if dtype in [torch.float16, torch.bfloat16]:
+        atol = atol * 2 + 0.15
+        rtol = rtol * 2
+    assert_allclose(
+        grad_q,
+        query.grad,
+        "grad_q",
+        atol=atol,
+        rtol=rtol,
+    )
+    assert_allclose(
+        grad_k,
+        key.grad,
+        "grad_k",
+        atol=atol,
+        rtol=rtol,
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
+@pytest.mark.parametrize("q_len", [2, 33])
+def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
+@pytest.mark.parametrize("k", [16, 128, 256])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 248, 256])
+@pytest.mark.parametrize("q_len", [3, 248, 256])
+@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
+def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len,
+        kv_len,
+        batch_size,
+        k,
+        p,
+        op=fmha.cutlass.FwOp,
+        dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("k_len", [32])
+@pytest.mark.parametrize("batch_size", [1])
+@pytest.mark.parametrize("kv_len", [3 * 32])
+@pytest.mark.parametrize("q_len", [3 * 32])
+def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size, k_len):
+    device = "cuda"
+    op_fw = fmha.small_k.FwOp
+    op_bw = fmha.small_k.BwOp
+
+    scale = 3
+    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+
+    # in this case, most of the blocks in a row get masked
+    attn_bias = torch.full((3, 32), float("-inf"), device=device)
+    attn_bias[:2, :4] = 0
+    attn_bias = attn_bias.flatten()[None, None, :].expand(1, q_len, -1)
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, op=(op_fw, op_bw)
+    )
     ref = ref_attention(query, key, value, attn_bias)
+
+    assert_allclose(
+        out, ref, atol=op_fw.ERROR_ATOL[query.dtype], rtol=op_fw.ERROR_RTOL[query.dtype]
+    )
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    grad_out = torch.ones_like(query)
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, attn_bias)
+    out.backward(grad_out)
+
+    grad_q = query.grad
+    grad_k = key.grad
+    grad_v = value.grad
+
+    query.grad = None
+    key.grad = None
+    value.grad = None
+
+    ref = ref_attention(query, key, value, attn_bias)
+    ref.backward(grad_out)
+
+    atol = op_bw.ERROR_ATOL[query.dtype]
+    rtol = op_bw.ERROR_RTOL[query.dtype]
+    assert_allclose(grad_q, query.grad, "grad_q", atol=atol, rtol=rtol)
+    assert_allclose(grad_k, key.grad, "grad_k", atol=atol, rtol=rtol)
+    assert_allclose(grad_v, value.grad, "grad_v", atol=atol, rtol=rtol)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt=fmt
+    )
+    grad_out = torch.ones_like(query)
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query, key, value, attn_bias
+    )
+    assert out.ndim == query.ndim
+    dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
+        grad_out, out, lse, query, key, value, attn_bias
+    )
+    assert dq.shape == query.shape
+    assert dk.shape == key.shape
+    assert dv.shape == value.shape
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_cuda_streams(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    if device != "cuda":
+        pytest.skip("Not CUDA")
+    bias_type = None
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ]
+    s_hipri = torch.cuda.Stream(priority=-1)
+    s_lopri = torch.cuda.Stream(priority=0)
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK"
+    )
+    torch.cuda.synchronize()
+    with torch.cuda.stream(s_lopri):
+        torch.cuda._sleep(100_000_000)  # wait 100m cycles
+        query *= 2
+    s_hipri.wait_stream(s_lopri)
+    with torch.cuda.stream(s_hipri):
+        # If the kernel is scheduled in the main stream
+        # `query * 2` has not been executed yet
+        out = xformers.ops.memory_efficient_attention(query, key, value, op=(op, None))
+    # Test that `s_lopri` is still sleeping
+    # and that `query *= 2` has not been executed yet
+    query2_main_stream = query * 2
+    torch.cuda.synchronize()
+    # TODO: Figure out why this is failing sometimes
+    # The sleep timer seems to be high enough already ...
+    # assert torch.allclose(query2_main_stream, query), "Need to increase sleep time"
+    del query2_main_stream
+
+    ref = ref_attention(query, key, value)
     assert out.shape == ref.shape, out.shape
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    p = 0.0
+    scale = 0.1
+
+    (
+        op_bw,
+        device,
+        dtype,
+        _,
+        B,
+        q_len,
+        kv_len,
+        H,
+        k,
+        Kv,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    torch.manual_seed(q_len + kv_len + k)
+    if device != "cuda":
+        pytest.skip("Not CUDA")
+
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+    inputs = fmha.Inputs(
+        query=query, key=key, value=value, attn_bias=attn_bias, scale=scale
+    )
+    op_fw = sample_random_supported_fw(inputs, seed=q_len * k + kv_len * k)
+    grad_out = query.new_ones(B * H, q_len, Kv)
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    reasons = op_fw.not_supported_reasons(inputs)
+    if reasons:
+        pytest.skip(f"{op_fw.NAME}: unsupported ({'/'.join(reasons)})")
+    reasons = op_bw.not_supported_reasons(inputs)
+    if reasons:
+        pytest.skip(f"{op_bw.NAME}: unsupported ({'/'.join(reasons)})")
+
+    # NOTE: we still need to scale the inputs to not blowup
+    # the pre-softmax values (numerical stability)
+    s = k**-0.5
+    out = xformers.ops.memory_efficient_attention(
+        query * s, key, value, attn_bias, p, scale, op=(op_fw, op_bw)
+    )
+    out.backward(grad_out)
+    grad_q, grad_k, grad_v = query.grad, key.grad, value.grad
+    query.grad = key.grad = value.grad = None
+
+    ref = ref_attention(query * s, key, value, attn_bias, None, p, scale)
+    ref.backward(grad_out)
+    ref_grad_q, ref_grad_k, ref_grad_v = query.grad, key.grad, value.grad
+    query.grad = key.grad = value.grad = None
+
+    atol = op_fw.ERROR_ATOL[dtype]
+    rtol = op_fw.ERROR_RTOL[dtype]
+    assert_allclose(out.float(), ref.float(), "out", atol=atol, rtol=rtol)
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+    assert_allclose(grad_q, ref_grad_q, "grad_q", atol=atol, rtol=rtol)
+    assert_allclose(grad_k, ref_grad_k, "grad_k", atol=atol, rtol=rtol)
+    assert_allclose(grad_v, ref_grad_v, "grad_v", atol=atol, rtol=rtol)
+
+
+def apply_attention(query, key, value, attn_bias, op_fw, proj):
+    x = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias=attn_bias, op=(op_fw, None)
+    )
+    x = proj(x)
+    return x
+
+
+@pytest.mark.parametrize("use_reentrant", [False, True])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_grad_checkpointing(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    use_reentrant,
+):
+    fmt = "BMHK"
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    bias_type = None
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    )
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt=fmt,
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    proj = torch.nn.Linear(kv, k, device=device, dtype=dtype)
+
+    x = query
+    for _ in range(5):
+        x = checkpoint(
+            apply_attention,
+            x,
+            key,
+            value,
+            attn_bias,
+            op,
+            proj,
+            use_reentrant=use_reentrant,
+        )
+    x.mean().backward()
+
+
+ALL_FW_OPS_NO_SMALLK = [op for op in ALL_FW_OPS if op is not fmha.small_k.FwOp]
+
+
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_cpu(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 1, 1, 32])
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
+        0, 3, 1, 2
+    )
+    try:
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+    except ValueError as e:
+        if "Only work on pre-MLIR triton for now" in str(e):
+            pytest.skip("Only work on pre-MLIR triton for now")
+        q = q.contiguous()
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
+    try:
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+    except ValueError as e:
+        if "Only work on pre-MLIR triton for now" in str(e):
+            pytest.skip("Only work on pre-MLIR triton for now")
+        q = q.contiguous()
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+def test_attn_bias_causal() -> None:
+    m = -math.inf
+    causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
+    tensor_bias = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
+
+    attn_bias = fmha.attn_bias.LowerTriangularMask()
+    assert_allclose(attn_bias.materialize(causal_mask.shape), causal_mask, "causal")
+    attn_bias = attn_bias.add_bias(tensor_bias)
+    assert_allclose(
+        attn_bias.materialize(causal_mask.shape),
+        tensor_bias + causal_mask,
+        "causal+tensor_bias",
+    )
+
+
+def test_attn_bias_torch_tensor() -> None:
+    tensor_bias = torch.tensor([[1.0, 2.0, 3.0], [3.0, 4.0, 5.0]])
+    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias)
+    m = -math.inf
+    causal_bias = torch.tensor([[0, m, m], [0, 0, m]])
+    assert_allclose(
+        attn_bias.materialize((2, 3)), causal_bias + tensor_bias, "tensor_bias+causal"
+    )
+
+
+def test_attn_bias_blockdiag() -> None:
+    queries = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([1, 5, 1, 8]),
+    ]
+    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((10, 10))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 2 * 2 + 5 * 5
+    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
+    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1")
+    assert_allclose(as_tensor[5:, 5:], torch.zeros([5, 5]), "batch2")
+
+    # Verify we can split it back
+    queries2 = attn_bias.split(q)
+    assert len(queries) == len(queries2)
+    for q1, q2 in zip(queries, queries2):
+        assert_allclose(q1, q2)
+
+
+def test_attn_bias_blockdiag_batched() -> None:
+    queries = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([3, 2, 1, 8]),
+        torch.randn([1, 5, 1, 8]),
+    ]
+    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((14, 14))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 3 * 2 * 2 + 5 * 5
+    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
+    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1.0")
+    assert_allclose(as_tensor[5:7, 5:7], torch.zeros([2, 2]), "batch1.1")
+    assert_allclose(as_tensor[7:9, 7:9], torch.zeros([2, 2]), "batch1.2")
+    assert_allclose(as_tensor[9:, 9:], torch.zeros([5, 5]), "batch2")
+
+    # Verify we can split it back
+    queries2 = attn_bias.split(q)
+    assert len(queries) == len(queries2)
+    for q1, q2 in zip(queries, queries2):
+        assert_allclose(q1, q2)
+
+
+def test_attn_bias_blockdiag_crossattn_causal() -> None:
+    # Q / KV have different seqlen
+    list_q = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([2, 1, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 3, 1, 8]),
+    ]
+
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((q.shape[1], k.shape[1]))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 2 + 2 * 3 * 1
+    assert_allclose(as_tensor[0:3, 0:2], torch.zeros([3, 2]), "batch0")
+    assert_allclose(as_tensor[3:4, 2:5], torch.zeros([1, 3]), "batch1.0")
+    assert_allclose(as_tensor[4:, 5:], torch.zeros([1, 3]), "batch1.1")
+
+    # Also test causal version
+    as_tensor = attn_bias.make_causal().materialize((q.shape[1], k.shape[1]))
+    assert_allclose(
+        as_tensor[3:4, 2:5],
+        fmha.attn_bias.LowerTriangularMask().materialize((1, 3)),
+        "batch1.0[causal]",
+    )
+
+    # Verify we can split it back
+    list_q2 = attn_bias.split_queries(q)
+    assert len(list_q) == len(list_q2)
+    for q1, q2 in zip(list_q, list_q2):
+        assert_allclose(q1, q2)
+    with pytest.raises(ValueError):
+        attn_bias.split_queries(k)
+    list_k2 = attn_bias.split_kv(k)
+    assert len(list_k) == len(list_k2)
+    for k1, k2 in zip(list_k, list_k2):
+        assert_allclose(k1, k2)
+
+
+def test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond() -> None:
+    list_q = [
+        torch.randn([1, 3, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+    ]
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+    with pytest.raises(ValueError):
+        attn_bias.make_causal_from_bottomright()
+
+
+def test_attn_bias_blockdiag_crossattn_causal_with_prefix() -> None:
+    # Q / KV have different seqlen
+    list_q = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 2, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 5, 1, 8]),
+    ]
+
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+    as_tensor = attn_bias.make_causal_from_bottomright().materialize(
+        (q.shape[1], k.shape[1])
+    )
+    m = -math.inf
+    assert_allclose(
+        as_tensor[0:2, 0:2],
+        torch.tensor([[0, m], [0, 0]], dtype=torch.float32),
+        "batch1.1[causal_with_prefix]",
+    )
+    assert_allclose(
+        as_tensor[2:4, 2:7],
+        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
+        "batch2.1[causal_with_prefix]",
+    )
+    assert_allclose(
+        as_tensor[4:6, 7:12],
+        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
+        "batch2.2[causal_with_prefix]",
+    )
+
+
+@cuda_only
+def test_attn_bias_padded() -> None:
+    bsize, n_heads, d, padding = 8, 3, 8, 32
+
+    # Q / KV have different seqlen
+    k = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
+    k_seqlen = [5, 8, 7, 1, 9, 3, 12, 32]
+    other = bsize - 1
+    v = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
+    n_q_first = 4
+    q = [
+        torch.randn((1, n_q_first, n_heads, d), device="cuda", dtype=torch.float16),
+        torch.randn((1, other, n_heads, d), device="cuda", dtype=torch.float16),
+    ]
+    q_cat = torch.cat([x.view(1, -1, n_heads, d) for x in q], dim=1)
+    q_seqlen = [n_q_first] + [1] * other
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=q_seqlen,
+        kv_seqlen=k_seqlen,
+        kv_padding=padding,
+    )
+
+    v = v.view(1, -1, n_heads, d)
+    k = k.view(1, -1, n_heads, d)
+
+    scores = (q_cat.transpose(1, 2) @ k.transpose(1, 2).transpose(2, 3)).float()
+    assert not scores.isnan().any()
+    mask = torch.full_like(scores, -float("inf"))
+    for i, (slen, qlen) in enumerate(zip(k_seqlen, q_seqlen)):
+        kseq_start = i * padding
+        qstart = sum(q_seqlen[:i])
+        mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen] = torch.triu(
+            mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen].float(),
+            diagonal=1 + slen - qlen,
+        ).float()
+
+    scores += mask
+    assert not scores.isnan().any()
+    # 1,3,10,8 @ 1,3,8,256 -> 1,3,10,256
+    scores = torch.nn.functional.softmax(scores, -1).half()
+    # torch.Size([1, 3, 3, 32]) @ torch.Size([1, 3, 32, 8])
+    output = scores @ v.transpose(1, 2)  # 1,3,10,256 @ 1,3,256, 8 -> 1,3,10,8
+    output = output.transpose(1, 2).contiguous()
+
+    fmha_output = fmha.memory_efficient_attention_forward(
+        q_cat, k, v, attn_bias, scale=1.0, op=fmha.ck.FwOp
+    )
+
+    # assert torch.allclose(output, fmha_output)
+    assert_allclose(
+        output,
+        fmha_output,
+        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
+        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
+    )
+
+
+def _kv_heads_label(kv_heads: Optional[int]) -> str:
+    if kv_heads is None:
+        return ""
+    if kv_heads == 1:
+        return "mq"
+    return f"gqa{kv_heads}"
+
+@pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
+@pytest.mark.parametrize("padding", [32, 4096])
+@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
+def test_decoder(
+    op,
+    n_heads: int,
+    kv_heads: Optional[int],
+    padding: int,
+    bsz: int,
+    dtype: str,
+    dequant: bool = False,
+    num_queries: int = 1,
+    d = 256,
+) -> None:
+    # kv_heads = 1: multiquery
+    # kv_heads = None: neither MQA nor GQA
+    # kv_heads > 1: BMGHK
+    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
+    tensor_options = {"dtype": dtype_, "device": "cuda"}
+    torch.manual_seed(1)
+    num_queries = 1
+    if kv_heads is not None and kv_heads > 1:
+        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
+        q_shape: Tuple[int, ...] = (
+            1,
+            bsz * num_queries,
+            kv_heads,
+            n_heads,
+            d,
+        )
+    else:
+        k_shape = (1, bsz * padding, n_heads, d)
+        q_shape = (1, bsz * num_queries, n_heads, d)
+
+    k = torch.randn(k_shape, **tensor_options)
+    k_seqlen = torch.randint(num_queries, padding + 1, (bsz,)).tolist()
+    v = torch.randn_like(k)
+    q = torch.randn(q_shape, **tensor_options)
+    causal_diagonal = torch.tensor(  # TODO: make unnecessary
+        [i - 1 for i in k_seqlen], dtype=torch.int32
+    ).cuda()
+
+    if kv_heads is not None:
+        k = k[..., :1, :].expand(k_shape)
+        v = v[..., :1, :].expand(k_shape)
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=[num_queries] * bsz,
+        kv_seqlen=k_seqlen,
+        causal_diagonal=causal_diagonal,
+        kv_padding=padding,
+    )
+    inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
+    if (not_supported_reasons := op.not_supported_reasons(inp)):
+        pytest.skip(f"{not_supported_reasons=}")
+
+    decoder_output = fmha.memory_efficient_attention_forward(
+        q, k, v, attn_bias, op=op
+    )
+
+    ref_output = ref_attention(q, k, v, attn_bias)
+
+    assert_allclose(
+        decoder_output.float(),
+        ref_output,
+        atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
+        rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
+    )
+
+def test_attn_bias_from_seqlens() -> None:
+    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
+    out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
+    assert len(out) == 3
+    assert tuple(out[0].shape) == (1, 3, 16)
+
+
+@cuda_only
+def test_attn_bias_blockdiag_doc() -> None:
+    """IMPORTANT:
+    This is the example in the doc for `BlockDiagonalMask`.
+    If this example needs to be updated, please also update the doc
+    """
+    import torch
+
+    from xformers.ops import fmha
+
+    K = 16
+    dtype = torch.float16
+    device = "cuda"
+    list_x = [
+        torch.randn([1, 3, 1, K], dtype=dtype, device=device),
+        torch.randn([1, 6, 1, K], dtype=dtype, device=device),
+        torch.randn([1, 2, 1, K], dtype=dtype, device=device),
+    ]
+    attn_bias, x = fmha.BlockDiagonalMask.from_tensor_list(list_x)
+
+    linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
+
+    q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
+    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None))
+    list_out = attn_bias.split(out)
+    assert tuple(list_out[0].shape) == (1, 3, 1, K)
+
+
+@cuda_only
+class TestAttnBias:
+    @staticmethod
+    def create_tensors(
+        dtype,
+        B: int = 2,
+        Mq: int = 32,
+        Mkv: int = 32,
+        H: int = 3,
+        K: int = 16,
+        Kv: int = 16,
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        return (
+            torch.randn([B, Mq, H, K], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, Mkv, H, K], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, Mkv, H, Kv], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, H, Mq, Mkv], device="cuda", dtype=dtype) * 3,
+        )
+
+    @staticmethod
+    def pad_bias(bias: torch.Tensor) -> torch.Tensor:
+        align_to = 16
+        if (bias.shape[-1] % align_to) == 0:
+            return bias
+        pad_count = align_to - (bias.shape[-1] % align_to)
+        return torch.nn.functional.pad(bias, [0, pad_count])[:, :, :, : bias.shape[-1]]
+
+    def test_f16_biasf32(self) -> None:
+        q, k, v, bias = self.create_tensors(torch.float16)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        bias = bias.to(torch.float32)
+        with pytest.raises((ValueError, RuntimeError)):
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+
+    def test_f32_biasf16(self) -> None:
+        q, k, v, bias = self.create_tensors(torch.float32)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        bias = bias.to(torch.float16)
+        with pytest.raises((ValueError, RuntimeError)):
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+
+    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+    def test_wrong_alignment(self, dtype) -> None:
+        op = fmha.cutlass.FwOp
+        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
+        try:
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
+            return
+        except (ValueError, RuntimeError):
+            pass
+        # This case is not supported, likely due to padding issues
+        # Let's make sure it works with padding
+        assert bias.ndim == 4, bias.shape
+        bias_padded = self.pad_bias(bias)
+        out = fmha.memory_efficient_attention(
+            q, k, v, attn_bias=bias_padded, op=(op, None)
+        ).float()
+        ref_out = ref_attention_bmhk(q, k, v, bias)
+        assert_allclose(
+            out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
+        )
+
+    def test_permuted_attn_bias(self) -> None:
+        op = fmha.cutlass.FwOp
+        dtype = torch.float16
+        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
+        bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
+        # Either it works, or it raises an exception
+        # but we should never get a CUDA error
+        try:
+            out = fmha.memory_efficient_attention(
+                q, k, v, attn_bias=bias, op=(op, None)
+            ).float()
+            ref_out = ref_attention_bmhk(q, k, v, bias)
+            assert_allclose(
+                out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
+            )
+        except (ValueError, RuntimeError):
+            pass
+
+
+SM_AND_SHMEM_KBYTES = [
+    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
+    (50, 64),
+    (60, 64),
+    (70, 96),
+    (75, 64),
+    (80, 163),
+    (86, 99),
+    (89, 99),
+    # (90, 227),
+]
+
+
+@cuda_only
+@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
+@pytest.mark.parametrize(
+    "sm_shmem",
+    SM_AND_SHMEM_KBYTES,
+    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
+)
+def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
+    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
+    sm, shmem_kbytes = sm_shmem
+    if sm < 80 and dtype_str == "bf16":
+        return
+
+    for k in [16, 32, 64, 128, 256]:
+        assert torch.ops.xformers._has_cutlassF_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+        assert torch.ops.xformers._has_cutlassB_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+
+
+def test_window_size_materialize() -> None:
+    seqlens = [4, 6]
+    attn_bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+        q_seqlen=seqlens,
+        kv_seqlen=seqlens,
+    ).make_local_attention(2)
+    mask = attn_bias.materialize(
+        (1, 1, sum(seqlens), sum(seqlens)),
+        device="cpu",
+        dtype=torch.float32,
+    )
+    true_mask = torch.log(
+        torch.Tensor(
+            [
+                [
+                    [
+                        [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0],
+                    ]
+                ]
+            ]
+        )
+    )
+    assert torch.all(mask == true_mask)
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "opFW_biasT",
+    [
+        (op, biasT)
+        for op in ALL_FW_OPS
+        for biasT in op.SUPPORTED_ATTN_BIAS_TYPES
+        if op.SUPPORTS_BMGHK
+    ],
+)
+def test_forward_gqa(opFW_biasT):
+    opFW, biasT = opFW_biasT
+    B_Mq_Mkv_H_K_Kv = (3, 512, 512, 16, 128, 128)
+    test_forward(
+        (
+            opFW,
+            "cuda",
+            torch.float16,
+            biasT,
+            *B_Mq_Mkv_H_K_Kv,
+        ),
+        packed=False,
+        fmt="BMGHK",
+        g=2,
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "opBW",
+    [
+        fmha.flash.BwOp,
+        fmha.cutlass.BwOp,
+    ],
+)
+def test_backward_gqa(opBW):
+    H = 8
+    B_Mq_Mkv_H_K_Kv = (3, 512, 512, H, 128, 128)
+    dtype = torch.float16
+    query, key, value, attn_bias = create_tensors(
+        *(opBW, "cuda", dtype, type(None), *B_Mq_Mkv_H_K_Kv),
+        attn_bias_requires_grad=False,
+        fmt="BMHK",
+    )
+    op = (fmha.cutlass.FwOp, opBW)
+    key = key[:, :, :1].expand(-1, -1, H, -1)
+    value = value[:, :, :1].expand(-1, -1, H, -1)
+    key.requires_grad_(True)
+    out = fmha.memory_efficient_attention(query, key, value, attn_bias=attn_bias)
+    out_ref = ref_attention_bmhk(query, key, value, attn_bias=attn_bias)
+    assert_allclose(
+        out.float(),
+        out_ref.float(),
+        atol=op[0].ERROR_ATOL[dtype],
+        rtol=op[0].ERROR_RTOL[dtype],
+    )
+    out.backward(query)
+    dk = key.grad
+    key.grad = None
+    out_ref.backward(query)
+    assert_allclose(
+        dk.float(),
+        key.grad.float(),
+        atol=op[1].ERROR_ATOL[dtype],
+        rtol=op[1].ERROR_RTOL[dtype],
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("opFW", [op for op in ALL_FW_OPS if op.SUPPORTS_BMGHK])
+def test_forward_gqa_one_group(opFW):
+    dtype = torch.float16
+    B, Mq, Mkv, H, K = 3, 13, 16, 5, 128
+    q = torch.randn([B, Mq, 1, H, K], dtype=dtype, device="cuda") * 3
+    k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
+    v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
+
+    supported = opFW.supports(fmha.Inputs(q, k, v))
+    if not supported:
+        supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
+        assert supported == supported_bmhk
+        pytest.skip("not supported")
+    out = fmha.memory_efficient_attention_forward(q, k, v, op=opFW)
+    ref = ref_attention(q, k, v)
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=opFW.ERROR_ATOL[dtype],
+        rtol=opFW.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+'''
+@sm80_or_better_only
+def test_flash_gqa_wrong_strides() -> None:
+    op = (fmha.flash.FwOp, None)
+    device = "cuda"
+    B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
+    q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
+    kv = torch.empty((B, Mkv, G, H, K), dtype=torch.float16, device=device)
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, H, G, K), dtype=torch.float16, device=device).permute(
+        0, 1, 3, 2, 4
+    )
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, G, 1, K), dtype=torch.float16, device=device)
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, kv, kv, op=op)
+    kv = kv.expand(-1, -1, -1, H, K)
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, G, H, 2 * K), dtype=torch.float16, device=device)[
+        :, :, :, :, :K
+    ]
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+'''
+
+def _dispatches_to_splitK(q, kv):
+    return (
+        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0]
+        is fmha.triton_splitk.FwOp
+    )
+
+
+def _dispatches_to_flash_decoding(q, kv):
+    return (
+        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
+    )
+
+
+def test_dispatch_decoding_bmhk() -> None:
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
+    ), "Should not use SplitK with 1 head (no tensorcores)"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 32, 128]),
+        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should use Flash-Decoding with BMHK MQA"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 32, 128]),
+        torch.empty([1, 2048, 32, 128]),
+    ), "Should not use SplitK when no TensorCores"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 128, 32, 128]),
+        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should not use SplitK if q seqlen is long"
+    assert not _dispatches_to_splitK(
+        torch.empty([128, 8, 32, 128]),
+        torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should not use SplitK if B is big"
+
+
+def test_dispatch_decoding_bmghk() -> None:
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
+    ), "Should not use SplitK with 1 head (no tensorcores)"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should use Flash-Decoding with MQA"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 4, 32, 128]),
+        torch.empty([1, 2048, 4, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should use Flash-Decoding with GQA"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 32, 128]),
+    ), "Should not use SplitK when no TensorCores"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 128, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should not use SplitK if q seqlen is long"
+    assert not _dispatches_to_splitK(
+        torch.empty([128, 8, 1, 32, 128]),
+        torch.empty([128, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should not use SplitK if B is big"
+
+
+shapes_triton_splitk = [
+    (1, 8, 2**16, 1, 128, 128),
+    (1, 4, 2**16, 1, 128, 128),
+    (1, 16, 2**16, 1, 128, 128),
+    (1, 16, 2**16, 1, 32, 32),
+    (1, 8, 1025, 1, 128, 128),
+    (2, 8, 4096, 1, 128, 128),
+    (10, 8, 2**16, 1, 128, 128),
+    (10, 15, 2**16, 1, 128, 128),
+    (1, 3, 2**16, 1, 128, 128),
+    (1, 3, 2**16 - 10, 1, 128, 128),
+    (2, 3, 73, 1, 128, 128),
+    (2, 7, 7328, 1, 128, 128),
+    (2, 7, 7328, 1, 120, 120),
+    (2, 7, 63, 1, 120, 120),
+]
+op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk = [
+    (fmha.triton_splitk.FwOp, "cuda", torch.float16, type(None), *s)
+    for s in shapes_triton_splitk
+] + [
+    (fmha.triton_splitk.FwOp, "cuda", torch.bfloat16, type(None), *s)
+    for s in shapes_triton_splitk
+]
+
+
+@pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk,
+    ids=[make_id(*c) for c in op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk],
+)
+@cuda_only
+def test_forward_splitk(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed=False,
+    fmt="BMHK",
+):
+    test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed=packed, fmt=fmt)
+
+
+@cuda_only
+@pytest.mark.parametrize("op", [fmha.triton_splitk.FwOp])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize(
+    "B_Mkv_H_K",
+    [
+        (1, 2**16, 3, 128),
+        (5, 53, 4, 64),
+    ],
+)
+def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
+    B, Mkv, H, K = B_Mkv_H_K
+    q = torch.randn([B, 1, H, K], dtype=dtype, device="cuda") * 3
+    k = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
+    v = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
+    k = k.expand(-1, -1, H, -1)
+    v = v.expand(-1, -1, H, -1)
+
+    if not op.supports(fmha.Inputs(q, k, v)):
+        pytest.skip("not supported")
+    out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
+    ref = ref_attention(q, k, v)
     assert_allclose(
         out.float(),
         ref,
@@ -756,3 +2029,204 @@ def test_mqa_forward(
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_query(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    query = query[:, :0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    assert out.shape[1] == 0
+    out.backward(out)
+    # dK/dV should be all zeros
+    assert_allclose(key.grad, torch.zeros_like(key.grad), "key.grad")
+    assert_allclose(value.grad, torch.zeros_like(value.grad), "value.grad")
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_kv(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    key = key[:, :0]
+    value = value[:, :0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    assert_allclose(out, torch.zeros_like(out), "out")
+    out.backward(out)
+    # dQ should be all zeros
+    assert_allclose(query.grad, torch.zeros_like(query.grad), "query.grad")
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_b(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    query, key, value = query[:0], key[:0], value[:0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    out.backward(out)
+
+
+def test_local_attn_bias() -> None:
+    mask = (
+        fmha.attn_bias.LocalAttentionFromBottomRightMask(window_left=1, window_right=2)
+        .materialize(shape=(4, 4))
+        .exp()
+    )
+
+    expected = torch.tensor(
+        [[1, 1, 1, 0], [1, 1, 1, 1], [0, 1, 1, 1], [0, 0, 1, 1]], dtype=torch.float32
+    )
+    assert (mask == expected).all().item()
+
+
+@cuda_only
+@pytest.mark.parametrize("cc", [60, 70, 80])
+@pytest.mark.parametrize("maxK", [32, 64, 128, 256])
+@pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+@pytest.mark.parametrize(
+    "custom_mask_type",
+    [
+        fmha.cutlass._CustomMaskType.NoCustomMask,
+        fmha.cutlass._CustomMaskType.CausalFromTopLeft,
+        fmha.cutlass._CustomMaskType.CausalFromBottomRight,
+    ],
+)
+@pytest.mark.parametrize("window_size", [0, 3, 300])
+@pytest.mark.parametrize(
+    "num_queries,num_keys",
+    [
+        (30, 66),
+        (256, 256),
+        # Edge cases
+        (314, 320),
+        (32, 256),
+        (224, 226),
+        (5, 531),
+        (320, 332),  # for win_size=300
+        # Others
+        (256, 62),
+        (256, 63),
+        (256, 64),
+        (256, 65),
+        (256, 66),
+    ],
+)
+def test_cutlassB_iter_order(
+    dtype,
+    cc: int,
+    maxK: int,
+    num_queries: int,
+    num_keys: int,
+    custom_mask_type,
+    window_size,
+) -> None:
+    """
+    This tests some internals of the cutlassB kernel
+    We test the iteration across blocks of [queries, keys] to ensure
+    that we correctly:
+    * Iterate over all the blocks that should be iterated
+    * Do *not* iterate over blocks that are completely masked out
+    * Correctly compute the number of parallel blocks that will compute
+        the same block of dQ
+    .. and we test this across variable causal masks+local attention combinations
+    """
+    if (
+        window_size > 0
+        and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
+    ):
+        pytest.skip("LocalAttention is only supported for causal")
+    get_iteration_data = partial(
+        torch.ops.xformers._cutlassB_iteration_data,
+        dtype=dtype,
+        cc=cc,
+        maxK=maxK,
+        num_queries=num_queries,
+        num_keys=num_keys,
+        custom_mask_type=custom_mask_type,
+        window_size=window_size,
+    )
+    bias = torch.zeros([num_queries, num_keys], dtype=torch.float32)
+    if custom_mask_type != fmha.cutlass._CustomMaskType.NoCustomMask:
+        bias = fmha.attn_bias._materialize_causal_mask(
+            (num_queries, num_keys),
+            dtype=torch.float32,
+            device="cpu",
+            window_size=None if window_size == 0 else window_size,
+            from_bottomright=(
+                custom_mask_type == fmha.cutlass._CustomMaskType.CausalFromBottomRight
+            ),
+        )
+
+    block_queries, block_keys = get_iteration_data()[:2]
+    mask_pooled = (
+        F.max_pool2d(bias.unsqueeze(0), (block_queries, block_keys), ceil_mode=True)
+        == 0
+    ).int()[0]
+    attn_computed = torch.zeros_like(mask_pooled)
+    for key_start in range(0, num_keys, block_keys):
+        it = 0
+        new_key_start = key_start
+        new_query_start = get_iteration_data(key_start=key_start)[2]
+        try:
+            expected_first_query = (
+                mask_pooled[:, key_start // block_keys].tolist().index(1)
+                * block_queries
+            )
+            assert (
+                new_query_start == expected_first_query
+            ), f"Wrong first query for K={key_start}: {new_query_start} (expected {expected_first_query})"
+        except ValueError:  # Nothing to compute in this column
+            pass
+
+        while new_key_start == key_start and new_query_start < num_queries:
+            query_start = new_query_start
+            attn_computed[query_start // block_queries, key_start // block_keys] += 1
+            # print(f"Compute [{query_start}, {key_start}]")
+
+            # Is there something to compute here?
+            assert mask_pooled[
+                query_start // block_queries, key_start // block_keys
+            ].item(), "Computing a block that is not needed!"
+            new_query_start, new_key_start = get_iteration_data(
+                key_start=key_start, query_start=query_start
+            )[3:5]
+            it += 1
+            assert it < num_queries, ""
+        assert (attn_computed == mask_pooled)[
+            :, key_start // block_keys
+        ].all(), "some blocks were not computed!"
+
+    # Now check that the number returned by `getNumParallelBlocksForQuery` is correct
+    for query_start in range(0, num_queries, block_queries):
+        num_parallel_blocks = get_iteration_data(
+            query_start=query_start, num_splits_key=num_keys
+        )[5]
+        num_actual = mask_pooled[query_start // block_queries].sum().item()
+        assert num_parallel_blocks == num_actual
+# end of file
diff --git a/tests/test_mqa_forward_ck_tiled.py b/tests/test_mqa_forward_ck_tiled.py
new file mode 100644
index 0000000000..e3c1f488c1
--- /dev/null
+++ b/tests/test_mqa_forward_ck_tiled.py
@@ -0,0 +1,673 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_types = [torch.float16, torch.bfloat16]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
+    fmha.ck.BwOp,
+]
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    for B in op._TEST_BATCH_SIZES:
+        for Mq in [32, 256]:
+            for Mkv in [32, 64, 256, 1024]:
+                for K in op._TEST_K:
+                    shapes.append((B, Mq, Mkv, 1, K, K))
+        Mq = 256
+        Mkv = 128
+        K = 32
+        H = 1
+        # Weird values of parameters
+        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
+            shapes.append((B, M, Mkv, H, K, K))
+            shapes.append((B, Mq, M, H, K, K))
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
+            if _K <= op.SUPPORTED_MAX_K:
+                shapes.append((B, Mq, Mkv, H, _K, _K))
+        # Different value for K / Kv
+        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+            for _K in [32, 36, 64, 256 + 8]:
+                shapes.append((B, Mq, Mkv, H, K, _K))
+                shapes.append((B, Mq, Mkv, H, _K, K))
+        # Exotic sizes
+        for K in op._TEST_K:
+            shapes.append((B, 16, 1024, H, K, K))
+            shapes.append((B, 1024, 16, H, K, K))
+        # Some number of heads
+        for H in [3, 5, 12]:
+            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Filter-out not supported shapes
+    shapes = [
+        shape
+        for shape in shapes
+        if len(
+            op.shape_not_supported_reasons(
+                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
+            )
+        )
+        == 0
+    ]
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        found_count = 0
+        while found_count < 20:
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
+                continue
+            found_count += 1
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def make_id(op, device, dtype, bias_type, *shape):
+    return (
+        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+        f"-{'-'.join([str(s) for s in shape])}"
+    )
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+    return {
+        "argvalues": combination,
+        "ids": [make_id(*c) for c in combination],
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
+)
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+    if q.ndim == 4:
+        B, M, Hq, K = q.shape
+        _, N, Hkv, Kv = v.shape
+        nhead_ratio_qk = Hq // Hkv
+
+        def attn_bias_head(head: int):
+            if isinstance(attn_bias, torch.Tensor):
+                assert attn_bias.ndim == 4
+                _, H, _, _ = attn_bias.shape        
+                assert H == Hq
+                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+                return bias_bghmn[:, :, head]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                assert attn_bias._bias.ndim == 4
+                _, H, _, _ = attn_bias._bias.shape        
+                assert H == Hq
+                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    bias_bghmn[:, :, head]
+                )
+            return attn_bias
+
+        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
+
+        return torch.stack(
+            [
+                ref_attention_bmhk(
+                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
+                )
+                for h in range(q_bmghk.shape[3])
+            ],
+            dim=3,
+        ).reshape((B, M, Hq, Kv))
+     
+    assert q.ndim == 3
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
+
+    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=dtype,
+            )
+        else:
+            attn_bias_tensor = attn_bias.to(dtype=dtype)
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
+            # make sure it also works if the first columns are partially masked out
+            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        if fmt == "BMK":
+            attn_bias = attn_bias[:, 0]
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
+    tensor_with_grad: Optional[torch.Tensor] = None
+    if isinstance(attn_bias, torch.Tensor):
+        tensor_with_grad = attn_bias
+    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+        tensor_with_grad = attn_bias._bias
+    if tensor_with_grad is not None:
+        grad = tensor_with_grad.grad
+        if clear:
+            tensor_with_grad.grad = None
+        return grad
+    return None
+
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
+@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
+@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
+@pytest.mark.parametrize("batches", [100, 64, 1])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize("op", [fmha.ck.FwOp])
+def test_mqa_forward(
+    op,
+    attn_bias_type,
+    dtype, 
+    batches: int, 
+    seqlen_kv: int, 
+    seqlen_q: int, 
+    nhead_kv: int, 
+    nhead_q: int, 
+    hdim_v: int, 
+    hdim_k: int, 
+):
+    B = batches
+    M = seqlen_q
+    N = seqlen_kv
+    Hq = nhead_q
+    Hkv = nhead_kv
+    K = hdim_k
+    Kv = hdim_v
+
+    print("Hq=", Hq, "Hkv=", Hkv)
+
+    device = torch.device("cuda")
+
+    if not (K == Kv and (Kv == 64 or Kv == 128)):
+        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
+
+    if Kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+
+    scale = 3
+    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
+    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
+    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
+
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=Hq,
+            q_len=M,
+            kv_len=N,
+            dtype=dtype,
+            device=device,
+            requires_grad=False,
+            fmt="BMHK",
+            op=op,
+        )
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 94b36c2350..856e64651c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -522,24 +522,21 @@ struct FmhaFwdKernel
                 {
                     if(kargs.mask_type == CausalMaskType::MaskDisabled)
                     {
-                        ck::index_t lr_size = kargs.window_size / 2;
+                        ck::index_t left_size  = kargs.window_size / 2;
+                        ck::index_t right_size = kargs.window_size - 1 - left_size;
 
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            lr_size, lr_size, kargs.seqlen_q, kargs.seqlen_k);
+                            left_size, right_size, kargs.seqlen_q, kargs.seqlen_k);
                     }
                     else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft)
                     {
-                        ck::index_t lr_size = kargs.window_size / 2;
-
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            lr_size, 0, kargs.seqlen_q, kargs.seqlen_k, true);
+                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, true);
                     }
                     else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromBottomRight)
                     {
-                        ck::index_t lr_size = kargs.window_size / 2;
-
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            lr_size, 0, kargs.seqlen_q, kargs.seqlen_k, false);
+                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, false);
                     }
                 }
                 else
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 3cb4ed014a..67e71ccd63 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -4,8 +4,10 @@
 # LICENSE file in the root directory of this source tree.
 
 
+from dataclasses import replace
 from enum import Enum
-from typing import Any, List, Mapping, Optional, Set, Tuple, Union
+from functools import partial
+from typing import Any, List, Optional, Set, Tuple, Union, Mapping
 
 import torch
 
@@ -13,9 +15,13 @@
 from . import attn_bias
 from .attn_bias import (
     AttentionBias,
+    BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+    BlockDiagonalCausalLocalAttentionMask,
     BlockDiagonalCausalMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
     BlockDiagonalMask,
+    LowerTriangularFromBottomRightLocalAttentionMask,
+    LowerTriangularFromBottomRightMask,
     LowerTriangularMask,
     LowerTriangularMaskWithTensorBias,
 )
@@ -25,29 +31,34 @@
     Context,
     Gradients,
     Inputs,
+    _attn_bias_apply,
     check_lastdim_alignment_stride1,
 )
 
 def _minimum_gemm_alignment(inp: Inputs) -> int:
     return 1
 
-
 def _get_seqlen_info(
     inp: Inputs,
-) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor]]:
+) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], int, int]:
     attn_bias = inp.attn_bias
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
+        ##attn_bias.k_seqinfo.to(inp.query.device)
+        ##attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
+        ##max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
     else:
         seqstart_k = None
         seqstart_q = None
         max_seqlen_q = -1
+        ##max_seqlen_k = -1
+
+    return seqstart_k, seqstart_q, max_seqlen_q,
 
-    return seqstart_k, seqstart_q, max_seqlen_q
 
 def _get_tensor_bias(
     attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
@@ -100,7 +111,6 @@ def _check_large_shapes(reasons: List[str], inp: Inputs) -> None:
             "Input is too large: product of first two dimensions of q/k/v must be < 2**20"
         )
 
-
 class _CustomMaskType(int, Enum):
     """
     (Matches CustomMaskType in C++.)
@@ -117,14 +127,18 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
         (
             LowerTriangularMask,
             BlockDiagonalCausalMask,
+            BlockDiagonalCausalLocalAttentionMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromTopLeft)
     if isinstance(
         bias,
         (
+            LowerTriangularFromBottomRightMask,
+            LowerTriangularFromBottomRightLocalAttentionMask,
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
             BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromBottomRight)
@@ -134,26 +148,48 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
 @register_operator
 class FwOp(AttentionFwOpBase):
     """xFormers' MHA kernel based on Composable Kernel.
-    Supports AMD MI 200 and MI 300 GPUs
     """
 
+    ### ck_check_op is temporarily used to check ck-tiled availability
+    ck_check_op = get_xformers_operator("is_ck_tiled_used")
+    use_ck_tiled = ck_check_op()
+ 
     OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
     SUPPORTED_MAX_K = 65536
-    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        type(None),
-        torch.Tensor,
-        LowerTriangularMask,
-        LowerTriangularMaskWithTensorBias,
-        BlockDiagonalMask,
-        BlockDiagonalCausalMask,
-        BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    }
+    
+    if use_ck_tiled: 
+        SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+            type(None),
+            torch.Tensor,
+            LowerTriangularMask,
+            LowerTriangularFromBottomRightMask,
+            LowerTriangularFromBottomRightLocalAttentionMask,
+            LowerTriangularMaskWithTensorBias,
+            BlockDiagonalMask,
+            BlockDiagonalCausalMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            attn_bias.BlockDiagonalCausalLocalAttentionMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+        }
+    else:
+        SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+            type(None),
+            torch.Tensor,
+            LowerTriangularMask,
+            LowerTriangularMaskWithTensorBias,
+            BlockDiagonalMask,
+            BlockDiagonalCausalMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            attn_bias.BlockDiagonalCausalFromBottomRightMask,
+         }
+
     SUPPORTS_DROPOUT = True
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
+    SUPPORTS_BMGHK = True
     NAME = "ckF"
 
     ERROR_ATOL: Mapping[torch.dtype, float] = {
@@ -176,6 +212,70 @@ class FwOp(AttentionFwOpBase):
     @classmethod
     def apply(
         cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
+            raise NotImplementedError("Unsupported attn_bias type")
+        if inp.query.ndim in [3, 4]:
+            return cls.apply_bmhk(inp, needs_gradient=needs_gradient)
+        assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
+        ctx: Optional[Context] = None
+        # XXX: Hackfix for BMGHK with H=1
+        # In that case we don't want to run G different streams because it adds
+        # some overhead
+        if inp.query.ndim == 5 and inp.query.shape[3] == 1:
+            slice_op = partial(torch.squeeze, dim=3)
+            inp = replace(
+                inp,
+                query=slice_op(inp.query),
+                key=slice_op(inp.key),
+                value=slice_op(inp.value),
+                attn_bias=_attn_bias_apply(
+                    inp.attn_bias, partial(torch.squeeze, dim=2)
+                ),
+            )
+            out, ctx = cls.apply_bmhk(inp, needs_gradient=needs_gradient)
+            out = out.unsqueeze(3)
+            if ctx is not None:
+                ctx = replace(ctx, lse=ctx.lse.unsqueeze(1), out=out)
+            return out, ctx
+
+        # Workaround until this is properly implemented in C++
+        # run each head group in a different stream
+        n_groups = inp.key.shape[2]
+        main_stream = torch.cuda.current_stream()
+        streams = [main_stream] + [
+            torch.cuda.Stream(device=inp.query.device) for _ in range(n_groups - 1)
+        ]
+        outs = []
+        for group, stream in enumerate(streams):
+            stream.wait_stream(main_stream)
+            with torch.cuda.stream(stream):
+                query = inp.query[:, :, group]
+                key = inp.key[:, :, group]
+                value = inp.value[:, :, group]
+                bias = _attn_bias_apply(
+                    inp.attn_bias, partial(torch.select, dim=1, index=group)
+                )
+                outs.append(
+                    cls.apply_bmhk(
+                        replace(inp, query=query, key=key, value=value, attn_bias=bias),
+                        needs_gradient=needs_gradient,
+                    )
+                )
+        for s in streams[1:]:
+            main_stream.wait_stream(s)
+        out = torch.stack([o[0] for o in outs], dim=2)
+        if needs_gradient:
+            ctx = Context(
+                out=out,
+                lse=torch.stack([o[1].lse for o in outs], dim=1),  # type: ignore
+                op_bw=outs[0][1].op_bw,  # type: ignore
+            )
+        return out, ctx
+
+    @classmethod
+    def apply_bmhk(
+        cls, inp: Inputs, needs_gradient: bool
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
@@ -195,8 +295,18 @@ def apply(
             seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
-            window_size=0,
+            window_size=inp.attn_bias._window_size
+            if isinstance(
+                inp.attn_bias,
+                (
+                    BlockDiagonalCausalLocalAttentionMask,
+                    BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                    LowerTriangularFromBottomRightLocalAttentionMask,
+                ),
+            )
+            else None,
         )
+
         ctx: Optional[Context] = None
         if needs_gradient:
             ctx = Context(
@@ -233,6 +343,7 @@ def operator_flop(
         b,
         seqstart_q,
         seqstart_k,
+        max_seqlen_q_,
         compute_lse,
         custom_mask_type,
         *a,
@@ -259,11 +370,16 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
+        LowerTriangularFromBottomRightMask,
+        # TODO: Still some infs/nans in the BW pass for
+        # local + causal
+        # LowerTriangularFromBottomRightLocalAttentionMask,
         # TODO: Fix handling of gradient through the fMHA autograd function
         # LowerTriangularMaskWithTensorBias,
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        attn_bias.BlockDiagonalCausalLocalAttentionMask,
     }
     SUPPORTS_ATTN_BIAS_GRAD = True
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
@@ -271,14 +387,6 @@ class BwOp(AttentionBwOpBase):
     SUPPORTS_DIFFERENT_VALUE_EMBED = FwOp.SUPPORTS_DIFFERENT_VALUE_EMBED
     NAME = "ckB"
 
-    ERROR_ATOL: Mapping[torch.dtype, float] = {
-        torch.float: 5e-4,
-        # increased from 9e-2, more opportunities for numerical errors when bias is
-        # used, noticed in gK on SM80
-        torch.half: 1e-1,
-        torch.bfloat16: 7e-1,
-    }
-
     _TEST_K: List[int] = [
         32,  # 64x64 kernel
         128,  # 64x128/128x128 kernel
@@ -323,7 +431,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
 
-        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q, max_seqlen_k = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
         rng_seed = rng_offset = 0
@@ -361,6 +469,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
         )
+        
 
         # c++/CUDA implementation returns an uninitialized tensor if bias doesn't
         # require grad
@@ -382,6 +491,8 @@ def operator_flop(
         b,
         cu_seqlens_q,
         cu_seqlens_k,
+        max_seqlen_q,
+        max_seqlen_k,
         logsumexp,
         output,
         dropout_p,

From 04cf84bfdb840a0241cd3bd1e6bfe46b742b0104 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 17:18:50 +0000
Subject: [PATCH 339/837] Enable support of attn-bias types with LocalAttention

---
 tests/test_forward_ck_tiled.py                | 2100 ++++++++++++++---
 tests/test_mqa_forward_ck_tiled.py            |  673 ++++++
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |   13 +-
 xformers/ops/fmha/ck.py                       |  163 +-
 4 files changed, 2602 insertions(+), 347 deletions(-)
 create mode 100644 tests/test_mqa_forward_ck_tiled.py

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index e2d6abc6fd..a0685d88e4 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -5,22 +5,26 @@
 
 import math
 import random
+from functools import partial
 from typing import List, Optional, Sequence, Tuple, Type, TypeVar
 
 import pytest
 import torch
+import torch.nn.functional as F
 from scipy.stats import binomtest
 from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
+from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
+from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
 from xformers.ops.fmha.common import AttentionOpBase
+from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
 
 from .utils import assert_allclose
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
 _types = [torch.float16, torch.bfloat16]
 
@@ -91,13 +95,14 @@ def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
     ]
     # Add some random shapes
     if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
+        fmha.cutlass.FwOp,
+        fmha.cutlass.BwOp,
+        fmha.flash.BwOp,
     ]:
         K_CHOICES = [8 * i for i in range(1, 256 // 8)]
         r = random.Random(0)
         found_count = 0
-        while found_count < 20:
+        while found_count < 200:
             B = r.randint(1, 400)
             Mq = r.randint(1, 500)
             Mkv = r.randint(1, 500)
@@ -146,10 +151,10 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
                         B, Mq, Mkv, H, K, Kv = shape
                         B = min(B, 12)
 
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
+                        if bias_type in {
+                            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+                            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                        }:
                             Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
                         elif (
                             bias_type
@@ -207,50 +212,40 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
 )
 
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
-    if q.ndim == 4:
-        B, M, Hq, K = q.shape
-        _, N, Hkv, Kv = v.shape
-        nhead_ratio_qk = Hq // Hkv
 
-        def attn_bias_head(head: int):
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    if q.ndim == 5:
+
+        def attn_bias_group(group: int):
             if isinstance(attn_bias, torch.Tensor):
-                assert attn_bias.ndim == 4
-                _, H, _, _ = attn_bias.shape        
-                assert H == Hq
-                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-                return bias_bghmn[:, :, head]
+                return attn_bias[:, group]
             if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                assert attn_bias._bias.ndim == 4
-                _, H, _, _ = attn_bias._bias.shape        
-                assert H == Hq
-                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-
                 return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    bias_bghmn[:, :, head]
+                    attn_bias._bias[:, group]
                 )
             return attn_bias
 
-        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
-
         return torch.stack(
             [
                 ref_attention_bmhk(
-                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
+                    q[:, :, g],
+                    k[:, :, g],
+                    v[:, :, g],
+                    scale=scale,
+                    attn_bias=attn_bias_group(g),
                 )
-                for h in range(q_bmghk.shape[3])
+                for g in range(q.shape[2])
             ],
-            dim=3,
-        ).reshape((B, M, Hq, Kv))
-     
-    assert q.ndim == 3
-    if dtype is None:
-        dtype = torch.float32
-    q = q.to(dtype=dtype)
-    k = k.to(dtype=dtype)
-    v = v.to(dtype=dtype)
-
-    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+            dim=2,
+        )
+    if q.ndim == 4:
+        assert p == 0.0
+        return ref_attention_bmhk(q, k, v, scale=scale, attn_bias=attn_bias)
+    q = q.float()
+    k = k.float()
+    v = v.float()
+
+    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
     q = q * scale
 
     attn = q @ k.transpose(-2, -1)
@@ -260,23 +255,23 @@ def attn_bias_head(head: int):
             attn_bias_tensor = attn_bias.materialize(
                 (q.shape[0], 1, q.shape[1], k.shape[1]),
                 device=q.device,
-                dtype=dtype,
+                dtype=torch.float32,
             )
         else:
-            attn_bias_tensor = attn_bias.to(dtype=dtype)
+            attn_bias_tensor = attn_bias
         if attn_bias_tensor.ndim == 4:
             assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
             attn_bias_tensor = attn_bias_tensor.reshape(
                 [-1, *attn_bias_tensor.shape[2:]]
             )
-        attn = attn + attn_bias_tensor
+        attn = attn + attn_bias_tensor.float()
     attn = attn.softmax(-1)
     if drop_mask is not None:
         attn = attn * (drop_mask / (1 - p))
     return attn @ v
 
 
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -290,50 +285,11 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
 
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
     idx = {0, total}
@@ -343,158 +299,6 @@ def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     return [e - b for b, e in zip(s[:-1], s[1:])]
 
 
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        if fmt == "BMK":
-            attn_bias = attn_bias[:, 0]
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
 def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
     tensor_with_grad: Optional[torch.Tensor] = None
     if isinstance(attn_bias, torch.Tensor):
@@ -523,18 +327,46 @@ def create_tensors(
     *,
     attn_bias_requires_grad: bool = False,
     fmt: str = "BMK",
+    g: int = 1,
 ):
     torch.manual_seed(B * q_len + kv_len * k + kv)
+
+    mask_is_bottom_right = attn_bias_type is not None and issubclass(
+        attn_bias_type,
+        (
+            fmha.attn_bias.LowerTriangularFromBottomRightMask,
+            fmha.attn_bias.LowerTriangularFromBottomRightLocalAttentionMask,
+            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            fmha.attn_bias.BlockDiagonalCausalLocalAttentionMask,
+            fmha.attn_bias.LocalAttentionFromBottomRightMask,
+        ),
+    )
+    if mask_is_bottom_right and q_len > kv_len:
+        # Bottom-right attention and local-attention masks require q_len <= kv_len
+        kv_len = q_len
     scale = 3
     if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype)
+    elif fmt == "BMHK":
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype)
     else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+        assert fmt == "BMGHK"
+        query = torch.randn((B, q_len, g, h, k), device=device, dtype=dtype)
+        key = torch.randn((B, kv_len, g, 1, k), device=device, dtype=dtype)
+        value = torch.randn((B, kv_len, g, 1, kv), device=device, dtype=dtype)
+
+    for x in [query, key, value]:
+        x.mul_(scale)
+
+    if fmt == "BMGHK":
+        # Expand - after the in-place mul
+        key = key.expand((B, kv_len, g, h, k))
+        value = value.expand((B, kv_len, g, h, k))
 
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
         attn_bias_type = None
@@ -544,6 +376,7 @@ def create_tensors(
             attn_bias_type,
             batch_size=B,
             num_heads=h,
+            num_heads_groups=g,
             q_len=q_len,
             kv_len=kv_len,
             dtype=dtype,
@@ -590,11 +423,7 @@ def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed,
-    fmt,
-):
+def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
     (
         op,
         device,
@@ -618,12 +447,13 @@ def test_forward(
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
         )
-
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
         pytest.skip("BMK incompatible with this bias")
 
     query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK" if packed else fmt,
+        **kwargs,
     )
 
     if packed:
@@ -637,6 +467,7 @@ def test_forward(
                 bias_type=bias_type,
                 batch_size=batch_size,
                 num_heads=h,
+                num_heads_groups=1,
                 q_len=q_len,
                 kv_len=kv_len,
                 device=device,
@@ -645,9 +476,11 @@ def test_forward(
                 fmt=fmt,
                 op=op,
             )
-        else:
+        elif fmt == "BMHK":
             # bm3hk -> 3 x bmhk
             query, key, value = xformers.ops.unbind(c, 2)
+        else:
+            assert False, f"Unsupport fmt {fmt} with packing"
         assert not query.is_contiguous()
 
     out = xformers.ops.memory_efficient_attention_forward(
@@ -671,84 +504,1524 @@ def test_forward(
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
-@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
-@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
-@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
-@pytest.mark.parametrize("batches", [100, 64, 1])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
-@pytest.mark.parametrize("op", [fmha.ck.FwOp])
-def test_mqa_forward(
-    op,
-    attn_bias_type,
-    dtype, 
-    batches: int, 
-    seqlen_kv: int, 
-    seqlen_q: int, 
-    nhead_kv: int, 
-    nhead_q: int, 
-    hdim_v: int, 
-    hdim_k: int, 
+
+@cuda_only
+@pytest.mark.parametrize("k_len", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 4])
+@pytest.mark.parametrize("kv_len", [128, 512])
+@pytest.mark.parametrize("q_len", [128, 512])
+@pytest.mark.parametrize("dtype", _types)
+def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
+    device = "cuda"
+    scale = 3
+    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
+    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
+    # this should be equivalent to the average over value
+    ref = value.mean(1, keepdim=True).expand_as(query)
+
+    if dtype is torch.float16:
+        assert_allclose(out, ref, atol=1e-5)
+    else:
+        assert_allclose(out, ref, atol=1e-2)
+
+def _block_diag_reshape_lse(
+    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
+) -> torch.Tensor:
+    """LSE can be padded, let's remove the padding"""
+    parts = []
+    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
+        parts.append(slice[:, : end - start])
+    return torch.cat(parts, dim=1).unsqueeze(1)
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+
+    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+        attn_bias=attn_bias,
+    )
+    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            tensor_bias = attn_bias.materialize(
+                (query.shape[0], 1, query.shape[1], key.shape[1]),
+                device=query.device,
+                dtype=torch.float32,
+            )
+        else:
+            assert isinstance(attn_bias, torch.Tensor)
+            tensor_bias = attn_bias
+        if tensor_bias.ndim == 4:
+            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
+        attn = attn + tensor_bias.float()
+    ref_lse = attn.logsumexp(-1)
+    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
+        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
+    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
+
+
+@cuda_only
+@pytest.mark.parametrize("op", [fmha.cutlass.FwOp, fmha.flash.FwOp])
+def test_logsumexp_mqa(op):
+    if not op.is_available():
+        pytest.skip("not available")
+
+    dtype = torch.float16
+    s = 3
+    query = torch.randn([1, 1, 32, 128], dtype=dtype, device="cuda") * s
+    key = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
+        -1, -1, 32, -1
+    )
+    value = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
+        -1, -1, 32, -1
+    )
+    assert key.stride(2) == 0
+
+    _, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query,
+        key,
+        value,
+        op=op,
+    )
+    query, key, value = [x[0].transpose(0, 1) for x in [query, key, value]]
+    attn = (query.float() / query.shape[-1] ** 0.5) @ key.float().transpose(-2, -1)
+    ref_lse = attn.logsumexp(-1)
+    assert_allclose(lse[0, :, 0], ref_lse[:, 0], atol=2e-4)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@pytest.mark.parametrize("grad_out_contiguous", [False, True])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+def test_backward(
+    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    grad_out_contiguous,
+    fmt,
 ):
-    B = batches
-    M = seqlen_q
-    N = seqlen_kv
-    Hq = nhead_q
-    Hkv = nhead_kv
-    K = hdim_k
-    Kv = hdim_v
+    (
+        op_bw,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    print("Hq=", Hq, "Hkv=", Hkv)
+    ## ToDo: reopen bfloat16 for testing
+    if dtype is torch.bfloat16:
+        pytest.skip("Temporarily disabled bfloat16 as we are still improving the accuracy of the results")
 
-    device = torch.device("cuda")
+    if k > 128 or kv > 128:
+        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
 
-    if not (K == Kv and (Kv == 64 or Kv == 128)):
-        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
+    if k % 2 != 0:
+        pytest.skip("head-dim length must be an even value for CK-FlashAttention")    
 
-    if Kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+    if grad_out_contiguous is False:
+        pytest.skip("CK-FlashAttention requires grad_out and out have same lengths/strides")
 
-    scale = 3
-    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
-    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
-    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
+    attn_bias_requires_grad = (
+        random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
+    )
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        attn_bias_requires_grad=attn_bias_requires_grad,
+        fmt=fmt,
+    )
 
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=Hq,
-            q_len=M,
-            kv_len=N,
-            dtype=dtype,
-            device=device,
-            requires_grad=False,
-            fmt="BMHK",
-            op=op,
+    # To understand why we do this, check the comment on the
+    # `AttentionBwOpBase` class
+    scale = None
+    if op_bw.SUPPORTS_CUSTOM_SCALE and query.shape[-1] < 32:
+        scale = (1 / 32) ** 0.5
+    op_fw = (
+        sample_random_supported_fw(
+            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
+            seed=q_len * kv + kv_len * k,
         )
+        if op_bw != fmha.ck.BwOp
+        else fmha.ck.FwOp
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
 
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
 
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
+    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
+        pytest.skip("inputs not supported")
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, scale=scale, op=(op_fw, op_bw)
     )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
+
+    grad_out = torch.randn_like(out)
+    if grad_out_contiguous is False:
+        grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
+            None, None, :
+        ].expand_as(out)
+
+    out.backward(grad_out)
+
+    if qkv is None and op_bw == fmha.cutlass.BwOp:
+        assert query.stride() == query.grad.stride()
+
+    grads = []
+    if qkv is None:
+        grads = [query.grad, key.grad, value.grad]
+        query.grad = None
+        key.grad = None
+        value.grad = None
+    else:
+        grads = [qkv.grad]
+        qkv.grad = None
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
+        if attn_bias_grad is not None:
+            grads.append(attn_bias_grad)
+
+    ref = ref_attention(query, key, value, attn_bias, scale=scale)
+    ref.backward(grad_out)
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        "fw pass",
+        atol=op_fw.ERROR_ATOL[dtype],
+        rtol=op_fw.ERROR_RTOL[dtype],
     )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
+
+    del out
+    del grad_out
+    del ref
+
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+
+    grads_ref = []
+    grads_name = []
+    if qkv is None:
+        assert isinstance(query.grad, torch.Tensor)
+        assert isinstance(key.grad, torch.Tensor)
+        assert isinstance(value.grad, torch.Tensor)
+        grads_ref = [query.grad, key.grad, value.grad]
+        grads_name = ["query", "key", "value"]
+    else:
+        assert isinstance(qkv.grad, torch.Tensor)
+        grads_ref = [qkv.grad]
+        grads_name = ["qkv"]
+
+    if attn_bias_requires_grad:
+        attn_bias_grad = get_bias_grad(attn_bias)
+        if attn_bias_grad is not None:
+            grads_ref.append(attn_bias.grad)
+            grads_name.append("bias")
+
+    del query
+    del key
+    del value
+    del qkv
+
+    assert len(grads_ref) == len(
+        grads
+    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
+    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
+        assert_allclose(
+            calc_grad,
+            ref_grad,
+            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
+            atol=atol,
+            rtol=rtol,
+        )
+
+
+def _vec_binom_test(x, n, p):
+    """
+    vectorized implementation of scipy.stats.binom_test
+    this makes our tests much faster
+    reference: https://github.com/scipy/scipy/blob/v1.8.0/scipy/stats/_morestats.py#L2609-L2702
+    """
+    import numpy as np
+    from scipy.stats import distributions
+
+    x = np.atleast_1d(x)
+    d = distributions.binom.pmf(x, n, p)[:, None]
+    rerr = 1 + 1e-7
+    # x < p * n case
+    i = np.arange(np.ceil(p * n), n + 1)
+    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
+    pval1 = distributions.binom.cdf(x, n, p) + distributions.binom.sf(n - y, n, p)
+
+    # other case
+    i = np.arange(np.floor(p * n) + 1)
+    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
+    pval2 = distributions.binom.cdf(y - 1, n, p) + distributions.binom.sf(x - 1, n, p)
+
+    pval = np.where(x < p * n, pval1, pval2)
+    pval = np.minimum(1.0, pval)
+    return pval
+
+def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
+    if op == fmha.ck.FwOp:
+        mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
+        ## rand_uniform is an int32 tensor
+        rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
+        ##mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
+        mask = (rand_uniform <= int((1.0-p)*255.0)).to(torch.float32)
+        mask = mask.reshape(batch_size, q_len, kv_len)
+    else:
+        mask = torch.empty((batch_size, q_len, kv_len), device=device)
+        mask = torch.ops.xformers._temp_dropout(mask, p)
+
+    return mask
+
+@cuda_only
+@pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
+@pytest.mark.parametrize("seed", [42, 124])
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k_len", [32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
+@pytest.mark.parametrize("q_len", [2, 33])
+@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
+@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
+def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
+    device = "cuda"
+    scale = 0.05 
+    query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+
+    inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
+    if not op.supports(inputs_for_support_check):
+        del query, key, value, attn_bias
+        pytest.skip(f"{op.NAME}: unsupported input")
+
+    torch.manual_seed(seed)
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, p, op=(op, None)
     )
 
+    torch.manual_seed(seed)
+    out2 = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, p, op=(op, None)
+    )
+
+    assert_allclose(out, out2, "dropout reproducibility")
+
+    torch.manual_seed(seed)
+    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+    ref = ref_attention(query, key, value, attn_bias, mask, p)
+    assert_allclose(out.float(), ref, atol=3e-3, rtol=5e-4), f"{(out - ref).abs().max()}"
+
+    num_trials = 1000
+    p_val_tol = 1e-6
+    keep_prob = 1 - p
+    masks = []
+    for i in range(num_trials):
+        mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+        masks.append(mask.clone().cpu())
+    masks = torch.stack(masks, dim=0)
+    p_value = binomtest(int(masks.sum()), masks.numel(), p=keep_prob).pvalue
+    assert p_value > p_val_tol, p_value
+    masks = masks.sum(0).flatten()
+    p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
+    assert all(p_values > p_val_tol)
+
+
+def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
+    if dtype is torch.bfloat16 and compute_capability < (8, 0):
+        pytest.skip("bf16 requires Sm80")
+    if not op.is_available():
+        pytest.skip()
+
+    scale = 3 
+    device = "cuda"
+    query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    grad_out = torch.ones_like(query)
+
+    assert op.supports(fmha.Inputs(query=query, key=key, value=value, p=p))
+
+    seed = 42
+    torch.manual_seed(seed)
+    out = xformers.ops.memory_efficient_attention(query, key, value, p=p, op=(op, None))
+
+    out.backward(grad_out)
+
+    grad_q = query.grad
+    grad_k = key.grad
+    grad_v = value.grad
+
+    query.grad = None
+    key.grad = None
+    value.grad = None
+
+    torch.manual_seed(seed)
+    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
+
+    ref = ref_attention(query, key, value, None, mask, p)
+    ref.backward(grad_out)
+
+    atol, rtol = (
+        fmha.AttentionBwOpBase.ERROR_ATOL[dtype],
+        fmha.AttentionBwOpBase.ERROR_RTOL[dtype],
+    )
+    assert_allclose(
+        grad_v,
+        value.grad,
+        "grad_v",
+        atol=atol,
+        rtol=rtol,
+    )
+    # TODO: Investigate why precision is worse
+    if dtype in [torch.float16, torch.bfloat16]:
+        atol = atol * 2 + 0.15
+        rtol = rtol * 2
+    assert_allclose(
+        grad_q,
+        query.grad,
+        "grad_q",
+        atol=atol,
+        rtol=rtol,
+    )
+    assert_allclose(
+        grad_k,
+        key.grad,
+        "grad_k",
+        atol=atol,
+        rtol=rtol,
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("p", [0.3, 0.7])
+@pytest.mark.parametrize("k", [5, 6, 32])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
+@pytest.mark.parametrize("q_len", [2, 33])
+def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
+@pytest.mark.parametrize("k", [16, 128, 256])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 248, 256])
+@pytest.mark.parametrize("q_len", [3, 248, 256])
+@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
+def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len,
+        kv_len,
+        batch_size,
+        k,
+        p,
+        op=fmha.cutlass.FwOp,
+        dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("k_len", [32])
+@pytest.mark.parametrize("batch_size", [1])
+@pytest.mark.parametrize("kv_len", [3 * 32])
+@pytest.mark.parametrize("q_len", [3 * 32])
+def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size, k_len):
+    device = "cuda"
+    op_fw = fmha.small_k.FwOp
+    op_bw = fmha.small_k.BwOp
+
+    scale = 3
+    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+
+    # in this case, most of the blocks in a row get masked
+    attn_bias = torch.full((3, 32), float("-inf"), device=device)
+    attn_bias[:2, :4] = 0
+    attn_bias = attn_bias.flatten()[None, None, :].expand(1, q_len, -1)
+
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias, op=(op_fw, op_bw)
+    )
     ref = ref_attention(query, key, value, attn_bias)
+
+    assert_allclose(
+        out, ref, atol=op_fw.ERROR_ATOL[query.dtype], rtol=op_fw.ERROR_RTOL[query.dtype]
+    )
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    grad_out = torch.ones_like(query)
+
+    out = xformers.ops.memory_efficient_attention(query, key, value, attn_bias)
+    out.backward(grad_out)
+
+    grad_q = query.grad
+    grad_k = key.grad
+    grad_v = value.grad
+
+    query.grad = None
+    key.grad = None
+    value.grad = None
+
+    ref = ref_attention(query, key, value, attn_bias)
+    ref.backward(grad_out)
+
+    atol = op_bw.ERROR_ATOL[query.dtype]
+    rtol = op_bw.ERROR_RTOL[query.dtype]
+    assert_allclose(grad_q, query.grad, "grad_q", atol=atol, rtol=rtol)
+    assert_allclose(grad_k, key.grad, "grad_k", atol=atol, rtol=rtol)
+    assert_allclose(grad_v, value.grad, "grad_v", atol=atol, rtol=rtol)
+
+
+@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt=fmt
+    )
+    grad_out = torch.ones_like(query)
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
+        query, key, value, attn_bias
+    )
+    assert out.ndim == query.ndim
+    dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
+        grad_out, out, lse, query, key, value, attn_bias
+    )
+    assert dq.shape == query.shape
+    assert dk.shape == key.shape
+    assert dv.shape == value.shape
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_cuda_streams(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    if device != "cuda":
+        pytest.skip("Not CUDA")
+    bias_type = None
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ]
+    s_hipri = torch.cuda.Stream(priority=-1)
+    s_lopri = torch.cuda.Stream(priority=0)
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK"
+    )
+    torch.cuda.synchronize()
+    with torch.cuda.stream(s_lopri):
+        torch.cuda._sleep(100_000_000)  # wait 100m cycles
+        query *= 2
+    s_hipri.wait_stream(s_lopri)
+    with torch.cuda.stream(s_hipri):
+        # If the kernel is scheduled in the main stream
+        # `query * 2` has not been executed yet
+        out = xformers.ops.memory_efficient_attention(query, key, value, op=(op, None))
+    # Test that `s_lopri` is still sleeping
+    # and that `query *= 2` has not been executed yet
+    query2_main_stream = query * 2
+    torch.cuda.synchronize()
+    # TODO: Figure out why this is failing sometimes
+    # The sleep timer seems to be high enough already ...
+    # assert torch.allclose(query2_main_stream, query), "Need to increase sleep time"
+    del query2_main_stream
+
+    ref = ref_attention(query, key, value)
     assert out.shape == ref.shape, out.shape
+
+    assert_allclose(
+        out.float(),
+        ref.float(),
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+
+@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
+    p = 0.0
+    scale = 0.1
+
+    (
+        op_bw,
+        device,
+        dtype,
+        _,
+        B,
+        q_len,
+        kv_len,
+        H,
+        k,
+        Kv,
+    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    torch.manual_seed(q_len + kv_len + k)
+    if device != "cuda":
+        pytest.skip("Not CUDA")
+
+    query, key, value, attn_bias = create_tensors(
+        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
+    )
+    inputs = fmha.Inputs(
+        query=query, key=key, value=value, attn_bias=attn_bias, scale=scale
+    )
+    op_fw = sample_random_supported_fw(inputs, seed=q_len * k + kv_len * k)
+    grad_out = query.new_ones(B * H, q_len, Kv)
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    reasons = op_fw.not_supported_reasons(inputs)
+    if reasons:
+        pytest.skip(f"{op_fw.NAME}: unsupported ({'/'.join(reasons)})")
+    reasons = op_bw.not_supported_reasons(inputs)
+    if reasons:
+        pytest.skip(f"{op_bw.NAME}: unsupported ({'/'.join(reasons)})")
+
+    # NOTE: we still need to scale the inputs to not blowup
+    # the pre-softmax values (numerical stability)
+    s = k**-0.5
+    out = xformers.ops.memory_efficient_attention(
+        query * s, key, value, attn_bias, p, scale, op=(op_fw, op_bw)
+    )
+    out.backward(grad_out)
+    grad_q, grad_k, grad_v = query.grad, key.grad, value.grad
+    query.grad = key.grad = value.grad = None
+
+    ref = ref_attention(query * s, key, value, attn_bias, None, p, scale)
+    ref.backward(grad_out)
+    ref_grad_q, ref_grad_k, ref_grad_v = query.grad, key.grad, value.grad
+    query.grad = key.grad = value.grad = None
+
+    atol = op_fw.ERROR_ATOL[dtype]
+    rtol = op_fw.ERROR_RTOL[dtype]
+    assert_allclose(out.float(), ref.float(), "out", atol=atol, rtol=rtol)
+    atol = op_bw.ERROR_ATOL[dtype]
+    rtol = op_bw.ERROR_RTOL[dtype]
+    assert_allclose(grad_q, ref_grad_q, "grad_q", atol=atol, rtol=rtol)
+    assert_allclose(grad_k, ref_grad_k, "grad_k", atol=atol, rtol=rtol)
+    assert_allclose(grad_v, ref_grad_v, "grad_v", atol=atol, rtol=rtol)
+
+
+def apply_attention(query, key, value, attn_bias, op_fw, proj):
+    x = xformers.ops.memory_efficient_attention(
+        query, key, value, attn_bias=attn_bias, op=(op_fw, None)
+    )
+    x = proj(x)
+    return x
+
+
+@pytest.mark.parametrize("use_reentrant", [False, True])
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_grad_checkpointing(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    use_reentrant,
+):
+    fmt = "BMHK"
+    (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+    bias_type = None
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
+        op,
+        device,
+        dtype,
+        bias_type,
+        batch_size,
+        q_len,
+        kv_len,
+        h,
+        k,
+        kv,
+    )
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt=fmt,
+    )
+    qkv = None
+
+    if (
+        fmt == "BMHK"
+        and query.shape[3] == value.shape[3]
+        and query.shape[1] == value.shape[1]
+    ):
+        qkv = torch.stack([query, key, value], 2)
+        qkv.requires_grad_(True)
+        # bm3hk -> 3 x bmhk
+        query, key, value = xformers.ops.unbind(qkv, 2)
+        assert not query.is_contiguous()
+
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+
+    proj = torch.nn.Linear(kv, k, device=device, dtype=dtype)
+
+    x = query
+    for _ in range(5):
+        x = checkpoint(
+            apply_attention,
+            x,
+            key,
+            value,
+            attn_bias,
+            op,
+            proj,
+            use_reentrant=use_reentrant,
+        )
+    x.mean().backward()
+
+
+ALL_FW_OPS_NO_SMALLK = [op for op in ALL_FW_OPS if op is not fmha.small_k.FwOp]
+
+
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_cpu(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 1, 1, 32])
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
+        0, 3, 1, 2
+    )
+    try:
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+    except ValueError as e:
+        if "Only work on pre-MLIR triton for now" in str(e):
+            pytest.skip("Only work on pre-MLIR triton for now")
+        q = q.contiguous()
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
+)
+def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
+    q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
+    try:
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+    except ValueError as e:
+        if "Only work on pre-MLIR triton for now" in str(e):
+            pytest.skip("Only work on pre-MLIR triton for now")
+        q = q.contiguous()
+        fmha.memory_efficient_attention(q, q, q, op=(op, None))
+
+def test_attn_bias_causal() -> None:
+    m = -math.inf
+    causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
+    tensor_bias = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
+
+    attn_bias = fmha.attn_bias.LowerTriangularMask()
+    assert_allclose(attn_bias.materialize(causal_mask.shape), causal_mask, "causal")
+    attn_bias = attn_bias.add_bias(tensor_bias)
+    assert_allclose(
+        attn_bias.materialize(causal_mask.shape),
+        tensor_bias + causal_mask,
+        "causal+tensor_bias",
+    )
+
+
+def test_attn_bias_torch_tensor() -> None:
+    tensor_bias = torch.tensor([[1.0, 2.0, 3.0], [3.0, 4.0, 5.0]])
+    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias)
+    m = -math.inf
+    causal_bias = torch.tensor([[0, m, m], [0, 0, m]])
+    assert_allclose(
+        attn_bias.materialize((2, 3)), causal_bias + tensor_bias, "tensor_bias+causal"
+    )
+
+
+def test_attn_bias_blockdiag() -> None:
+    queries = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([1, 5, 1, 8]),
+    ]
+    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((10, 10))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 2 * 2 + 5 * 5
+    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
+    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1")
+    assert_allclose(as_tensor[5:, 5:], torch.zeros([5, 5]), "batch2")
+
+    # Verify we can split it back
+    queries2 = attn_bias.split(q)
+    assert len(queries) == len(queries2)
+    for q1, q2 in zip(queries, queries2):
+        assert_allclose(q1, q2)
+
+
+def test_attn_bias_blockdiag_batched() -> None:
+    queries = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([3, 2, 1, 8]),
+        torch.randn([1, 5, 1, 8]),
+    ]
+    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((14, 14))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 3 * 2 * 2 + 5 * 5
+    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
+    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1.0")
+    assert_allclose(as_tensor[5:7, 5:7], torch.zeros([2, 2]), "batch1.1")
+    assert_allclose(as_tensor[7:9, 7:9], torch.zeros([2, 2]), "batch1.2")
+    assert_allclose(as_tensor[9:, 9:], torch.zeros([5, 5]), "batch2")
+
+    # Verify we can split it back
+    queries2 = attn_bias.split(q)
+    assert len(queries) == len(queries2)
+    for q1, q2 in zip(queries, queries2):
+        assert_allclose(q1, q2)
+
+
+def test_attn_bias_blockdiag_crossattn_causal() -> None:
+    # Q / KV have different seqlen
+    list_q = [
+        torch.randn([1, 3, 1, 8]),
+        torch.randn([2, 1, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 3, 1, 8]),
+    ]
+
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+
+    # Verify mask
+    as_tensor = attn_bias.materialize((q.shape[1], k.shape[1]))
+    assert int((as_tensor != -math.inf).sum().item()) == 3 * 2 + 2 * 3 * 1
+    assert_allclose(as_tensor[0:3, 0:2], torch.zeros([3, 2]), "batch0")
+    assert_allclose(as_tensor[3:4, 2:5], torch.zeros([1, 3]), "batch1.0")
+    assert_allclose(as_tensor[4:, 5:], torch.zeros([1, 3]), "batch1.1")
+
+    # Also test causal version
+    as_tensor = attn_bias.make_causal().materialize((q.shape[1], k.shape[1]))
+    assert_allclose(
+        as_tensor[3:4, 2:5],
+        fmha.attn_bias.LowerTriangularMask().materialize((1, 3)),
+        "batch1.0[causal]",
+    )
+
+    # Verify we can split it back
+    list_q2 = attn_bias.split_queries(q)
+    assert len(list_q) == len(list_q2)
+    for q1, q2 in zip(list_q, list_q2):
+        assert_allclose(q1, q2)
+    with pytest.raises(ValueError):
+        attn_bias.split_queries(k)
+    list_k2 = attn_bias.split_kv(k)
+    assert len(list_k) == len(list_k2)
+    for k1, k2 in zip(list_k, list_k2):
+        assert_allclose(k1, k2)
+
+
+def test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond() -> None:
+    list_q = [
+        torch.randn([1, 3, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+    ]
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+    with pytest.raises(ValueError):
+        attn_bias.make_causal_from_bottomright()
+
+
+def test_attn_bias_blockdiag_crossattn_causal_with_prefix() -> None:
+    # Q / KV have different seqlen
+    list_q = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 2, 1, 8]),
+    ]
+    list_k = [
+        torch.randn([1, 2, 1, 8]),
+        torch.randn([2, 5, 1, 8]),
+    ]
+
+    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
+        list_q, list_k
+    )
+    as_tensor = attn_bias.make_causal_from_bottomright().materialize(
+        (q.shape[1], k.shape[1])
+    )
+    m = -math.inf
+    assert_allclose(
+        as_tensor[0:2, 0:2],
+        torch.tensor([[0, m], [0, 0]], dtype=torch.float32),
+        "batch1.1[causal_with_prefix]",
+    )
+    assert_allclose(
+        as_tensor[2:4, 2:7],
+        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
+        "batch2.1[causal_with_prefix]",
+    )
+    assert_allclose(
+        as_tensor[4:6, 7:12],
+        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
+        "batch2.2[causal_with_prefix]",
+    )
+
+
+@cuda_only
+def test_attn_bias_padded() -> None:
+    bsize, n_heads, d, padding = 8, 3, 8, 32
+
+    # Q / KV have different seqlen
+    k = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
+    k_seqlen = [5, 8, 7, 1, 9, 3, 12, 32]
+    other = bsize - 1
+    v = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
+    n_q_first = 4
+    q = [
+        torch.randn((1, n_q_first, n_heads, d), device="cuda", dtype=torch.float16),
+        torch.randn((1, other, n_heads, d), device="cuda", dtype=torch.float16),
+    ]
+    q_cat = torch.cat([x.view(1, -1, n_heads, d) for x in q], dim=1)
+    q_seqlen = [n_q_first] + [1] * other
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=q_seqlen,
+        kv_seqlen=k_seqlen,
+        kv_padding=padding,
+    )
+
+    v = v.view(1, -1, n_heads, d)
+    k = k.view(1, -1, n_heads, d)
+
+    scores = (q_cat.transpose(1, 2) @ k.transpose(1, 2).transpose(2, 3)).float()
+    assert not scores.isnan().any()
+    mask = torch.full_like(scores, -float("inf"))
+    for i, (slen, qlen) in enumerate(zip(k_seqlen, q_seqlen)):
+        kseq_start = i * padding
+        qstart = sum(q_seqlen[:i])
+        mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen] = torch.triu(
+            mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen].float(),
+            diagonal=1 + slen - qlen,
+        ).float()
+
+    scores += mask
+    assert not scores.isnan().any()
+    # 1,3,10,8 @ 1,3,8,256 -> 1,3,10,256
+    scores = torch.nn.functional.softmax(scores, -1).half()
+    # torch.Size([1, 3, 3, 32]) @ torch.Size([1, 3, 32, 8])
+    output = scores @ v.transpose(1, 2)  # 1,3,10,256 @ 1,3,256, 8 -> 1,3,10,8
+    output = output.transpose(1, 2).contiguous()
+
+    fmha_output = fmha.memory_efficient_attention_forward(
+        q_cat, k, v, attn_bias, scale=1.0, op=fmha.ck.FwOp
+    )
+
+    # assert torch.allclose(output, fmha_output)
+    assert_allclose(
+        output,
+        fmha_output,
+        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
+        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
+    )
+
+
+def _kv_heads_label(kv_heads: Optional[int]) -> str:
+    if kv_heads is None:
+        return ""
+    if kv_heads == 1:
+        return "mq"
+    return f"gqa{kv_heads}"
+
+@pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
+@pytest.mark.parametrize("padding", [32, 4096])
+@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
+def test_decoder(
+    op,
+    n_heads: int,
+    kv_heads: Optional[int],
+    padding: int,
+    bsz: int,
+    dtype: str,
+    dequant: bool = False,
+    num_queries: int = 1,
+    d = 256,
+) -> None:
+    # kv_heads = 1: multiquery
+    # kv_heads = None: neither MQA nor GQA
+    # kv_heads > 1: BMGHK
+    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
+    tensor_options = {"dtype": dtype_, "device": "cuda"}
+    torch.manual_seed(1)
+    num_queries = 1
+    if kv_heads is not None and kv_heads > 1:
+        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
+        q_shape: Tuple[int, ...] = (
+            1,
+            bsz * num_queries,
+            kv_heads,
+            n_heads,
+            d,
+        )
+    else:
+        k_shape = (1, bsz * padding, n_heads, d)
+        q_shape = (1, bsz * num_queries, n_heads, d)
+
+    k = torch.randn(k_shape, **tensor_options)
+    k_seqlen = torch.randint(num_queries, padding + 1, (bsz,)).tolist()
+    v = torch.randn_like(k)
+    q = torch.randn(q_shape, **tensor_options)
+    causal_diagonal = torch.tensor(  # TODO: make unnecessary
+        [i - 1 for i in k_seqlen], dtype=torch.int32
+    ).cuda()
+
+    if kv_heads is not None:
+        k = k[..., :1, :].expand(k_shape)
+        v = v[..., :1, :].expand(k_shape)
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=[num_queries] * bsz,
+        kv_seqlen=k_seqlen,
+        causal_diagonal=causal_diagonal,
+        kv_padding=padding,
+    )
+    inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
+    if (not_supported_reasons := op.not_supported_reasons(inp)):
+        pytest.skip(f"{not_supported_reasons=}")
+
+    decoder_output = fmha.memory_efficient_attention_forward(
+        q, k, v, attn_bias, op=op
+    )
+
+    ref_output = ref_attention(q, k, v, attn_bias)
+
+    assert_allclose(
+        decoder_output.float(),
+        ref_output,
+        atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
+        rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
+    )
+
+def test_attn_bias_from_seqlens() -> None:
+    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
+    out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
+    assert len(out) == 3
+    assert tuple(out[0].shape) == (1, 3, 16)
+
+
+@cuda_only
+def test_attn_bias_blockdiag_doc() -> None:
+    """IMPORTANT:
+    This is the example in the doc for `BlockDiagonalMask`.
+    If this example needs to be updated, please also update the doc
+    """
+    import torch
+
+    from xformers.ops import fmha
+
+    K = 16
+    dtype = torch.float16
+    device = "cuda"
+    list_x = [
+        torch.randn([1, 3, 1, K], dtype=dtype, device=device),
+        torch.randn([1, 6, 1, K], dtype=dtype, device=device),
+        torch.randn([1, 2, 1, K], dtype=dtype, device=device),
+    ]
+    attn_bias, x = fmha.BlockDiagonalMask.from_tensor_list(list_x)
+
+    linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
+
+    q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
+    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None))
+    list_out = attn_bias.split(out)
+    assert tuple(list_out[0].shape) == (1, 3, 1, K)
+
+
+@cuda_only
+class TestAttnBias:
+    @staticmethod
+    def create_tensors(
+        dtype,
+        B: int = 2,
+        Mq: int = 32,
+        Mkv: int = 32,
+        H: int = 3,
+        K: int = 16,
+        Kv: int = 16,
+    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        return (
+            torch.randn([B, Mq, H, K], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, Mkv, H, K], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, Mkv, H, Kv], device="cuda", dtype=dtype) * 3,
+            torch.randn([B, H, Mq, Mkv], device="cuda", dtype=dtype) * 3,
+        )
+
+    @staticmethod
+    def pad_bias(bias: torch.Tensor) -> torch.Tensor:
+        align_to = 16
+        if (bias.shape[-1] % align_to) == 0:
+            return bias
+        pad_count = align_to - (bias.shape[-1] % align_to)
+        return torch.nn.functional.pad(bias, [0, pad_count])[:, :, :, : bias.shape[-1]]
+
+    def test_f16_biasf32(self) -> None:
+        q, k, v, bias = self.create_tensors(torch.float16)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        bias = bias.to(torch.float32)
+        with pytest.raises((ValueError, RuntimeError)):
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+
+    def test_f32_biasf16(self) -> None:
+        q, k, v, bias = self.create_tensors(torch.float32)
+        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+        bias = bias.to(torch.float16)
+        with pytest.raises((ValueError, RuntimeError)):
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
+
+    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+    def test_wrong_alignment(self, dtype) -> None:
+        op = fmha.cutlass.FwOp
+        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
+        try:
+            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
+            return
+        except (ValueError, RuntimeError):
+            pass
+        # This case is not supported, likely due to padding issues
+        # Let's make sure it works with padding
+        assert bias.ndim == 4, bias.shape
+        bias_padded = self.pad_bias(bias)
+        out = fmha.memory_efficient_attention(
+            q, k, v, attn_bias=bias_padded, op=(op, None)
+        ).float()
+        ref_out = ref_attention_bmhk(q, k, v, bias)
+        assert_allclose(
+            out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
+        )
+
+    def test_permuted_attn_bias(self) -> None:
+        op = fmha.cutlass.FwOp
+        dtype = torch.float16
+        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
+        bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
+        # Either it works, or it raises an exception
+        # but we should never get a CUDA error
+        try:
+            out = fmha.memory_efficient_attention(
+                q, k, v, attn_bias=bias, op=(op, None)
+            ).float()
+            ref_out = ref_attention_bmhk(q, k, v, bias)
+            assert_allclose(
+                out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
+            )
+        except (ValueError, RuntimeError):
+            pass
+
+
+SM_AND_SHMEM_KBYTES = [
+    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
+    (50, 64),
+    (60, 64),
+    (70, 96),
+    (75, 64),
+    (80, 163),
+    (86, 99),
+    (89, 99),
+    # (90, 227),
+]
+
+
+@cuda_only
+@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
+@pytest.mark.parametrize(
+    "sm_shmem",
+    SM_AND_SHMEM_KBYTES,
+    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
+)
+def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
+    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
+    sm, shmem_kbytes = sm_shmem
+    if sm < 80 and dtype_str == "bf16":
+        return
+
+    for k in [16, 32, 64, 128, 256]:
+        assert torch.ops.xformers._has_cutlassF_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+        assert torch.ops.xformers._has_cutlassB_kernel_for(
+            dtype, sm, shmem_kbytes * 1024, k
+        ), f"k={k}"
+
+
+def test_window_size_materialize() -> None:
+    seqlens = [4, 6]
+    attn_bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+        q_seqlen=seqlens,
+        kv_seqlen=seqlens,
+    ).make_local_attention(2)
+    mask = attn_bias.materialize(
+        (1, 1, sum(seqlens), sum(seqlens)),
+        device="cpu",
+        dtype=torch.float32,
+    )
+    true_mask = torch.log(
+        torch.Tensor(
+            [
+                [
+                    [
+                        [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0],
+                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0],
+                    ]
+                ]
+            ]
+        )
+    )
+    assert torch.all(mask == true_mask)
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "opFW_biasT",
+    [
+        (op, biasT)
+        for op in ALL_FW_OPS
+        for biasT in op.SUPPORTED_ATTN_BIAS_TYPES
+        if op.SUPPORTS_BMGHK
+    ],
+)
+def test_forward_gqa(opFW_biasT):
+    opFW, biasT = opFW_biasT
+    B_Mq_Mkv_H_K_Kv = (3, 512, 512, 16, 128, 128)
+    test_forward(
+        (
+            opFW,
+            "cuda",
+            torch.float16,
+            biasT,
+            *B_Mq_Mkv_H_K_Kv,
+        ),
+        packed=False,
+        fmt="BMGHK",
+        g=2,
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize(
+    "opBW",
+    [
+        fmha.flash.BwOp,
+        fmha.cutlass.BwOp,
+    ],
+)
+def test_backward_gqa(opBW):
+    H = 8
+    B_Mq_Mkv_H_K_Kv = (3, 512, 512, H, 128, 128)
+    dtype = torch.float16
+    query, key, value, attn_bias = create_tensors(
+        *(opBW, "cuda", dtype, type(None), *B_Mq_Mkv_H_K_Kv),
+        attn_bias_requires_grad=False,
+        fmt="BMHK",
+    )
+    op = (fmha.cutlass.FwOp, opBW)
+    key = key[:, :, :1].expand(-1, -1, H, -1)
+    value = value[:, :, :1].expand(-1, -1, H, -1)
+    key.requires_grad_(True)
+    out = fmha.memory_efficient_attention(query, key, value, attn_bias=attn_bias)
+    out_ref = ref_attention_bmhk(query, key, value, attn_bias=attn_bias)
+    assert_allclose(
+        out.float(),
+        out_ref.float(),
+        atol=op[0].ERROR_ATOL[dtype],
+        rtol=op[0].ERROR_RTOL[dtype],
+    )
+    out.backward(query)
+    dk = key.grad
+    key.grad = None
+    out_ref.backward(query)
+    assert_allclose(
+        dk.float(),
+        key.grad.float(),
+        atol=op[1].ERROR_ATOL[dtype],
+        rtol=op[1].ERROR_RTOL[dtype],
+    )
+
+
+@cuda_only
+@pytest.mark.parametrize("opFW", [op for op in ALL_FW_OPS if op.SUPPORTS_BMGHK])
+def test_forward_gqa_one_group(opFW):
+    dtype = torch.float16
+    B, Mq, Mkv, H, K = 3, 13, 16, 5, 128
+    q = torch.randn([B, Mq, 1, H, K], dtype=dtype, device="cuda") * 3
+    k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
+    v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
+
+    supported = opFW.supports(fmha.Inputs(q, k, v))
+    if not supported:
+        supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
+        assert supported == supported_bmhk
+        pytest.skip("not supported")
+    out = fmha.memory_efficient_attention_forward(q, k, v, op=opFW)
+    ref = ref_attention(q, k, v)
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=opFW.ERROR_ATOL[dtype],
+        rtol=opFW.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
+'''
+@sm80_or_better_only
+def test_flash_gqa_wrong_strides() -> None:
+    op = (fmha.flash.FwOp, None)
+    device = "cuda"
+    B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
+    q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
+    kv = torch.empty((B, Mkv, G, H, K), dtype=torch.float16, device=device)
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, H, G, K), dtype=torch.float16, device=device).permute(
+        0, 1, 3, 2, 4
+    )
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, G, 1, K), dtype=torch.float16, device=device)
+    with pytest.raises(ValueError):
+        fmha.memory_efficient_attention(q, kv, kv, op=op)
+    kv = kv.expand(-1, -1, -1, H, K)
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+
+    kv = torch.empty((B, Mkv, G, H, 2 * K), dtype=torch.float16, device=device)[
+        :, :, :, :, :K
+    ]
+    fmha.memory_efficient_attention(q, kv, kv, op=op)
+'''
+
+def _dispatches_to_splitK(q, kv):
+    return (
+        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0]
+        is fmha.triton_splitk.FwOp
+    )
+
+
+def _dispatches_to_flash_decoding(q, kv):
+    return (
+        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
+    )
+
+
+def test_dispatch_decoding_bmhk() -> None:
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
+    ), "Should not use SplitK with 1 head (no tensorcores)"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 32, 128]),
+        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should use Flash-Decoding with BMHK MQA"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 32, 128]),
+        torch.empty([1, 2048, 32, 128]),
+    ), "Should not use SplitK when no TensorCores"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 128, 32, 128]),
+        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should not use SplitK if q seqlen is long"
+    assert not _dispatches_to_splitK(
+        torch.empty([128, 8, 32, 128]),
+        torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
+    ), "Should not use SplitK if B is big"
+
+
+def test_dispatch_decoding_bmghk() -> None:
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
+    ), "Should not use SplitK with 1 head (no tensorcores)"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should use Flash-Decoding with MQA"
+    assert _dispatches_to_flash_decoding(
+        torch.empty([1, 8, 4, 32, 128]),
+        torch.empty([1, 2048, 4, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should use Flash-Decoding with GQA"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 8, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 32, 128]),
+    ), "Should not use SplitK when no TensorCores"
+    assert not _dispatches_to_splitK(
+        torch.empty([1, 128, 1, 32, 128]),
+        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should not use SplitK if q seqlen is long"
+    assert not _dispatches_to_splitK(
+        torch.empty([128, 8, 1, 32, 128]),
+        torch.empty([128, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
+    ), "Should not use SplitK if B is big"
+
+
+shapes_triton_splitk = [
+    (1, 8, 2**16, 1, 128, 128),
+    (1, 4, 2**16, 1, 128, 128),
+    (1, 16, 2**16, 1, 128, 128),
+    (1, 16, 2**16, 1, 32, 32),
+    (1, 8, 1025, 1, 128, 128),
+    (2, 8, 4096, 1, 128, 128),
+    (10, 8, 2**16, 1, 128, 128),
+    (10, 15, 2**16, 1, 128, 128),
+    (1, 3, 2**16, 1, 128, 128),
+    (1, 3, 2**16 - 10, 1, 128, 128),
+    (2, 3, 73, 1, 128, 128),
+    (2, 7, 7328, 1, 128, 128),
+    (2, 7, 7328, 1, 120, 120),
+    (2, 7, 63, 1, 120, 120),
+]
+op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk = [
+    (fmha.triton_splitk.FwOp, "cuda", torch.float16, type(None), *s)
+    for s in shapes_triton_splitk
+] + [
+    (fmha.triton_splitk.FwOp, "cuda", torch.bfloat16, type(None), *s)
+    for s in shapes_triton_splitk
+]
+
+
+@pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk,
+    ids=[make_id(*c) for c in op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk],
+)
+@cuda_only
+def test_forward_splitk(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+    packed=False,
+    fmt="BMHK",
+):
+    test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed=packed, fmt=fmt)
+
+
+@cuda_only
+@pytest.mark.parametrize("op", [fmha.triton_splitk.FwOp])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize(
+    "B_Mkv_H_K",
+    [
+        (1, 2**16, 3, 128),
+        (5, 53, 4, 64),
+    ],
+)
+def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
+    B, Mkv, H, K = B_Mkv_H_K
+    q = torch.randn([B, 1, H, K], dtype=dtype, device="cuda") * 3
+    k = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
+    v = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
+    k = k.expand(-1, -1, H, -1)
+    v = v.expand(-1, -1, H, -1)
+
+    if not op.supports(fmha.Inputs(q, k, v)):
+        pytest.skip("not supported")
+    out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
+    ref = ref_attention(q, k, v)
     assert_allclose(
         out.float(),
         ref,
@@ -756,3 +2029,204 @@ def test_mqa_forward(
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_query(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    query = query[:, :0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    assert out.shape[1] == 0
+    out.backward(out)
+    # dK/dV should be all zeros
+    assert_allclose(key.grad, torch.zeros_like(key.grad), "key.grad")
+    assert_allclose(value.grad, torch.zeros_like(value.grad), "value.grad")
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_kv(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    key = key[:, :0]
+    value = value[:, :0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    assert_allclose(out, torch.zeros_like(out), "out")
+    out.backward(out)
+    # dQ should be all zeros
+    assert_allclose(query.grad, torch.zeros_like(query.grad), "query.grad")
+
+
+@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
+def test_empty_tensors_empty_b(
+    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+):
+    query, key, value, attn_bias = create_tensors(
+        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
+        fmt="BMHK",
+    )
+    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
+
+    query, key, value = query[:0], key[:0], value[:0]
+    query.requires_grad_(True)
+    key.requires_grad_(True)
+    value.requires_grad_(True)
+    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
+    out.backward(out)
+
+
+def test_local_attn_bias() -> None:
+    mask = (
+        fmha.attn_bias.LocalAttentionFromBottomRightMask(window_left=1, window_right=2)
+        .materialize(shape=(4, 4))
+        .exp()
+    )
+
+    expected = torch.tensor(
+        [[1, 1, 1, 0], [1, 1, 1, 1], [0, 1, 1, 1], [0, 0, 1, 1]], dtype=torch.float32
+    )
+    assert (mask == expected).all().item()
+
+
+@cuda_only
+@pytest.mark.parametrize("cc", [60, 70, 80])
+@pytest.mark.parametrize("maxK", [32, 64, 128, 256])
+@pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
+@pytest.mark.parametrize(
+    "custom_mask_type",
+    [
+        fmha.cutlass._CustomMaskType.NoCustomMask,
+        fmha.cutlass._CustomMaskType.CausalFromTopLeft,
+        fmha.cutlass._CustomMaskType.CausalFromBottomRight,
+    ],
+)
+@pytest.mark.parametrize("window_size", [0, 3, 300])
+@pytest.mark.parametrize(
+    "num_queries,num_keys",
+    [
+        (30, 66),
+        (256, 256),
+        # Edge cases
+        (314, 320),
+        (32, 256),
+        (224, 226),
+        (5, 531),
+        (320, 332),  # for win_size=300
+        # Others
+        (256, 62),
+        (256, 63),
+        (256, 64),
+        (256, 65),
+        (256, 66),
+    ],
+)
+def test_cutlassB_iter_order(
+    dtype,
+    cc: int,
+    maxK: int,
+    num_queries: int,
+    num_keys: int,
+    custom_mask_type,
+    window_size,
+) -> None:
+    """
+    This tests some internals of the cutlassB kernel
+    We test the iteration across blocks of [queries, keys] to ensure
+    that we correctly:
+    * Iterate over all the blocks that should be iterated
+    * Do *not* iterate over blocks that are completely masked out
+    * Correctly compute the number of parallel blocks that will compute
+        the same block of dQ
+    .. and we test this across variable causal masks+local attention combinations
+    """
+    if (
+        window_size > 0
+        and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
+    ):
+        pytest.skip("LocalAttention is only supported for causal")
+    get_iteration_data = partial(
+        torch.ops.xformers._cutlassB_iteration_data,
+        dtype=dtype,
+        cc=cc,
+        maxK=maxK,
+        num_queries=num_queries,
+        num_keys=num_keys,
+        custom_mask_type=custom_mask_type,
+        window_size=window_size,
+    )
+    bias = torch.zeros([num_queries, num_keys], dtype=torch.float32)
+    if custom_mask_type != fmha.cutlass._CustomMaskType.NoCustomMask:
+        bias = fmha.attn_bias._materialize_causal_mask(
+            (num_queries, num_keys),
+            dtype=torch.float32,
+            device="cpu",
+            window_size=None if window_size == 0 else window_size,
+            from_bottomright=(
+                custom_mask_type == fmha.cutlass._CustomMaskType.CausalFromBottomRight
+            ),
+        )
+
+    block_queries, block_keys = get_iteration_data()[:2]
+    mask_pooled = (
+        F.max_pool2d(bias.unsqueeze(0), (block_queries, block_keys), ceil_mode=True)
+        == 0
+    ).int()[0]
+    attn_computed = torch.zeros_like(mask_pooled)
+    for key_start in range(0, num_keys, block_keys):
+        it = 0
+        new_key_start = key_start
+        new_query_start = get_iteration_data(key_start=key_start)[2]
+        try:
+            expected_first_query = (
+                mask_pooled[:, key_start // block_keys].tolist().index(1)
+                * block_queries
+            )
+            assert (
+                new_query_start == expected_first_query
+            ), f"Wrong first query for K={key_start}: {new_query_start} (expected {expected_first_query})"
+        except ValueError:  # Nothing to compute in this column
+            pass
+
+        while new_key_start == key_start and new_query_start < num_queries:
+            query_start = new_query_start
+            attn_computed[query_start // block_queries, key_start // block_keys] += 1
+            # print(f"Compute [{query_start}, {key_start}]")
+
+            # Is there something to compute here?
+            assert mask_pooled[
+                query_start // block_queries, key_start // block_keys
+            ].item(), "Computing a block that is not needed!"
+            new_query_start, new_key_start = get_iteration_data(
+                key_start=key_start, query_start=query_start
+            )[3:5]
+            it += 1
+            assert it < num_queries, ""
+        assert (attn_computed == mask_pooled)[
+            :, key_start // block_keys
+        ].all(), "some blocks were not computed!"
+
+    # Now check that the number returned by `getNumParallelBlocksForQuery` is correct
+    for query_start in range(0, num_queries, block_queries):
+        num_parallel_blocks = get_iteration_data(
+            query_start=query_start, num_splits_key=num_keys
+        )[5]
+        num_actual = mask_pooled[query_start // block_queries].sum().item()
+        assert num_parallel_blocks == num_actual
+# end of file
diff --git a/tests/test_mqa_forward_ck_tiled.py b/tests/test_mqa_forward_ck_tiled.py
new file mode 100644
index 0000000000..e3c1f488c1
--- /dev/null
+++ b/tests/test_mqa_forward_ck_tiled.py
@@ -0,0 +1,673 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
+import math
+import random
+from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+
+import pytest
+import torch
+from scipy.stats import binomtest
+from torch.utils.checkpoint import checkpoint
+
+import xformers.ops
+from xformers.ops import fmha
+from xformers.ops.fmha.common import AttentionOpBase
+
+from .utils import assert_allclose
+
+torch.backends.cuda.matmul.allow_tf32 = False
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_types = [torch.float16, torch.bfloat16]
+
+T = TypeVar(
+    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
+)
+
+ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
+    fmha.ck.FwOp,
+]
+
+ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
+    fmha.ck.BwOp,
+]
+
+def sample_random_supported_fw(
+    inp: fmha.Inputs, seed: int
+) -> Type[fmha.common.AttentionFwOpBase]:
+    r = random.Random(seed)
+    fw_ops = list(ALL_FW_OPS)
+    r.shuffle(fw_ops)
+    for op in fw_ops:
+        if op.supports(inp):
+            return op
+    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
+
+
+def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+    shapes = []
+    for B in op._TEST_BATCH_SIZES:
+        for Mq in [32, 256]:
+            for Mkv in [32, 64, 256, 1024]:
+                for K in op._TEST_K:
+                    shapes.append((B, Mq, Mkv, 1, K, K))
+        Mq = 256
+        Mkv = 128
+        K = 32
+        H = 1
+        # Weird values of parameters
+        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
+            shapes.append((B, M, Mkv, H, K, K))
+            shapes.append((B, Mq, M, H, K, K))
+        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
+            if _K <= op.SUPPORTED_MAX_K:
+                shapes.append((B, Mq, Mkv, H, _K, _K))
+        # Different value for K / Kv
+        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+            for _K in [32, 36, 64, 256 + 8]:
+                shapes.append((B, Mq, Mkv, H, K, _K))
+                shapes.append((B, Mq, Mkv, H, _K, K))
+        # Exotic sizes
+        for K in op._TEST_K:
+            shapes.append((B, 16, 1024, H, K, K))
+            shapes.append((B, 1024, 16, H, K, K))
+        # Some number of heads
+        for H in [3, 5, 12]:
+            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
+    # Filter-out not supported shapes
+    shapes = [
+        shape
+        for shape in shapes
+        if len(
+            op.shape_not_supported_reasons(
+                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
+            )
+        )
+        == 0
+    ]
+    # Add some random shapes
+    if op in [
+        fmha.ck.FwOp,
+        fmha.ck.BwOp,
+    ]:
+        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
+        r = random.Random(0)
+        found_count = 0
+        while found_count < 20:
+            B = r.randint(1, 400)
+            Mq = r.randint(1, 500)
+            Mkv = r.randint(1, 500)
+            H = r.randint(2, 11)
+            B = max(B // H, 1)
+            K = r.choice(K_CHOICES)
+            Kv = r.choice(K_CHOICES)
+            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
+                Kv = K
+            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
+                continue
+            found_count += 1
+            shapes.append((B, Mq, Mkv, H, K, Kv))
+    return shapes
+
+
+def make_id(op, device, dtype, bias_type, *shape):
+    return (
+        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+        f"-{'-'.join([str(s) for s in shape])}"
+    )
+
+
+def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
+    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
+):
+    r = random.Random(0)
+    combination = []
+    ids = []
+    for op in ops_list:
+        op_count = 0
+        # Sort list of masks, so it's deterministic across runs
+        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
+        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
+            has_one = False
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    bias_type = r.choice(LIST_MASKS)
+                    # Avoid using too much memory
+                    if bias_type not in [
+                        type(None),
+                        fmha.attn_bias.LowerTriangularMask,
+                    ]:
+                        B, Mq, Mkv, H, K, Kv = shape
+                        B = min(B, 12)
+
+                        if (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
+                        elif (
+                            bias_type
+                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
+                        ):
+                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
+                        shape = (B, Mq, Mkv, H, K, Kv)
+                    combination.append((op, device, dtype, bias_type, *shape))
+                    ids.append(
+                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
+                        f"-{'-'.join([str(s) for s in shape])}"
+                    )
+                    has_one = True
+            if has_one:
+                op_count += 1
+            if op_count > max_shapes_per_op:
+                break
+        # Some specific shapes for which we want to run without any mask
+        bias_type = type(None)
+        for shape in (
+            # Some strides/dims don't fit on an uint16
+            (1, 128, 128, 300, 128, 128),
+            (13, 1, 67, 200, 8, 8),
+            (1, 1 + 2**16, 4, 1, 8, 8),
+            (1, 4, 1 + 2**16, 1, 8, 8),
+            # TODO: Some strides don't fit on an uint32
+            # Crashes on Flash, Errors on Cutlass
+            # (1, 1, 64000, 300, 128, 128)
+        ):
+            for device in _devices:
+                if device not in op.SUPPORTED_DEVICES:
+                    continue
+                for dtype in op.SUPPORTED_DTYPES:
+                    combination.append((op, device, dtype, bias_type, *shape))
+    return {
+        "argvalues": combination,
+        "ids": [make_id(*c) for c in combination],
+    }
+
+
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
+)
+parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
+)
+parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
+    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
+    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
+)
+
+def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+    if q.ndim == 4:
+        B, M, Hq, K = q.shape
+        _, N, Hkv, Kv = v.shape
+        nhead_ratio_qk = Hq // Hkv
+
+        def attn_bias_head(head: int):
+            if isinstance(attn_bias, torch.Tensor):
+                assert attn_bias.ndim == 4
+                _, H, _, _ = attn_bias.shape        
+                assert H == Hq
+                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+                return bias_bghmn[:, :, head]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                assert attn_bias._bias.ndim == 4
+                _, H, _, _ = attn_bias._bias.shape        
+                assert H == Hq
+                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    bias_bghmn[:, :, head]
+                )
+            return attn_bias
+
+        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
+
+        return torch.stack(
+            [
+                ref_attention_bmhk(
+                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
+                )
+                for h in range(q_bmghk.shape[3])
+            ],
+            dim=3,
+        ).reshape((B, M, Hq, Kv))
+     
+    assert q.ndim == 3
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
+
+    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
+    q = q * scale
+
+    attn = q @ k.transpose(-2, -1)
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=dtype,
+            )
+        else:
+            attn_bias_tensor = attn_bias.to(dtype=dtype)
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+        attn = attn + attn_bias_tensor
+    attn = attn.softmax(-1)
+    if drop_mask is not None:
+        attn = attn * (drop_mask / (1 - p))
+    return attn @ v
+
+
+def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+
+def _rand_seqlens(
+    r: random.Random,
+    bs: int,
+    q_len: int,
+    kv_len: int,
+    more_keys_than_queries_per_block: bool,
+) -> Tuple[Sequence[int], Sequence[int]]:
+    """
+    Generates lists of lengths of query blocks and corresponding key blocks.
+    The total number of queries will be bs * q_len and the
+    total number of keys will be bs * kv_len.
+    """
+    if more_keys_than_queries_per_block:
+        assert kv_len >= q_len
+    q_len *= bs
+    kv_len *= bs
+    seqlens_q: List[int] = []
+    seqlens_k: List[int] = []
+
+    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
+    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
+    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
+        num_queries = r.randrange(*step_q)
+        seqlens_q.append(num_queries)
+
+        if more_keys_than_queries_per_block:
+            # Must select at least `num_queries` keys
+            # But also leave enough keys for later
+            keys_left = kv_len - sum(seqlens_k, 0)
+            queries_left = q_len - sum(seqlens_q[:-1], 0)
+            assert keys_left >= queries_left
+            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
+        else:
+            seqlens_k.append(r.randrange(*step_k))
+    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
+    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
+    return seqlens_q, seqlens_k
+
+
+def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
+    # returns list of n nonnegative integers summing to total
+    idx = {0, total}
+    while len(idx) < n + 1:
+        idx.add(r.randint(1, total - 1))
+    s = sorted(idx)
+    return [e - b for b, e in zip(s[:-1], s[1:])]
+
+
+def _rand_maxed_partition(
+    r: random.Random, total: int, n: int, mx: int, positive: bool = True
+) -> List[int]:
+    # returns list of n nonnegative integers less than mx summing to total
+    # NB: This is unfortunately biased towards evenly-split bins.
+    # If `positive`, outputs are positive
+    if positive:
+        total -= n
+        mx -= 1
+    idxs = r.sample(range(n * mx), total)
+    y = torch.zeros(n, mx, dtype=torch.int32)
+    y.flatten()[idxs] = 1
+    z = y.sum(1)
+    if positive:
+        z += 1
+    return z.tolist()
+
+
+def _rand_seqlens_padded_k(
+    r: random.Random, bs: int, q_len: int, kv_len: int
+) -> Tuple[Sequence[int], Sequence[int]]:
+    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
+    # we need q_seqlens and k_seqlens to be of len bsz.
+    # For each "batch element" there must be more keys than queries
+    # because this bias type is "bottom right" and so any extra queries
+    # will attend to nothing and have undefined result.
+    # In addition every element of k_seqlens must be <= kv_len
+    if q_len > kv_len:
+        raise ValueError("need more keys than values")
+    if q_len == kv_len:
+        # all key slots are needed so we cannot have padding
+        q_seqlens = k_seqlens = [kv_len] * bs
+    else:
+        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
+        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
+    return q_seqlens, k_seqlens
+
+
+def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
+    align_to = 8
+    return (
+        torch.randn(
+            (
+                B,
+                H,
+                Mq,
+                align_to * ((Mkv + align_to - 1) // align_to),
+            ),
+            **kwargs,
+        )
+        * 3
+    )[:, :, :, :Mkv]
+
+
+def create_attn_bias(
+    bias_type,
+    batch_size: int,
+    num_heads: int,
+    q_len: int,
+    kv_len: int,
+    device,
+    dtype,
+    requires_grad: bool,
+    fmt: str,
+    op: Type[AttentionOpBase],
+):
+    if bias_type is None or isinstance(None, bias_type):
+        return None
+    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
+    if bias_type is torch.Tensor:
+        if fmt == "BMK":
+            batch_size *= num_heads
+            num_heads = 1
+        # `small_k` only supports an expanded 1d bias
+        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
+            attn_bias = (
+                torch.randn(
+                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
+                )
+                * 3
+            )
+            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
+        else:
+            attn_bias = _create_aligned_bias(
+                batch_size,
+                num_heads,
+                q_len,
+                kv_len,
+                device=device,
+                dtype=dtype,
+            )
+            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
+            #       with the data read by one-thread
+            # make sure it also works if the first columns are partially masked out
+            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        if fmt == "BMK":
+            attn_bias = attn_bias[:, 0]
+        return attn_bias
+    if bias_type is fmha.attn_bias.LowerTriangularMask:
+        return fmha.attn_bias.LowerTriangularMask()
+    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
+        attn_bias = _create_aligned_bias(
+            batch_size,
+            num_heads,
+            q_len,
+            kv_len,
+            device=device,
+            dtype=dtype,
+        )
+        if requires_grad:
+            attn_bias.requires_grad_(True)
+        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
+    if bias_type in [
+        fmha.attn_bias.BlockDiagonalMask,
+        fmha.attn_bias.BlockDiagonalCausalMask,
+        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+    ]:
+        # This bias is not supported in BMK format
+        assert fmt == "BMHK"
+        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
+            *_rand_seqlens(
+                r,
+                batch_size,
+                q_len,
+                kv_len,
+                more_keys_than_queries_per_block=bias_type
+                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            )
+        )
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
+            block_diag = block_diag.make_causal()
+        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
+            block_diag = block_diag.make_causal_from_bottomright()
+        return block_diag
+    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
+        assert fmt == "BMHK"
+        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
+        g_block_diag = (
+            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+                q_seqlen=q,
+                kv_padding=kv_len,
+                kv_seqlen=k,
+            )
+        )
+        return g_block_diag
+
+    assert False, f"Unsupported bias type: {bias_type}"
+
+
+def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
+    tensor_with_grad: Optional[torch.Tensor] = None
+    if isinstance(attn_bias, torch.Tensor):
+        tensor_with_grad = attn_bias
+    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+        tensor_with_grad = attn_bias._bias
+    if tensor_with_grad is not None:
+        grad = tensor_with_grad.grad
+        if clear:
+            tensor_with_grad.grad = None
+        return grad
+    return None
+
+
+def create_tensors(
+    op: Type[AttentionOpBase],
+    device,
+    dtype,
+    attn_bias_type,
+    B,
+    q_len,
+    kv_len,
+    h,
+    k,
+    kv,
+    *,
+    attn_bias_requires_grad: bool = False,
+    fmt: str = "BMK",
+):
+    torch.manual_seed(B * q_len + kv_len * k + kv)
+    scale = 3
+    if fmt == "BMK":
+        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
+    else:
+        assert fmt == "BMHK"
+        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
+        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
+        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
+
+    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
+        attn_bias_type = None
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=h,
+            q_len=q_len,
+            kv_len=kv_len,
+            dtype=dtype,
+            device=device,
+            requires_grad=attn_bias_requires_grad,
+            fmt=fmt,
+            op=op,
+        )
+        if isinstance(
+            attn_bias,
+            (
+                fmha.attn_bias.BlockDiagonalMask,
+                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            ),
+        ):
+            query, key, value = [
+                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
+            ]
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+        pytest.skip(err_msg)
+    return query, key, value, attn_bias
+
+
+def bmhk2bmk(tensor) -> torch.Tensor:
+    return (
+        tensor.permute((0, 2, 1, 3))
+        .contiguous()
+        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
+    )
+
+
+def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
+    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
+        (0, 2, 1, 3)
+    )
+
+@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
+@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
+@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
+@pytest.mark.parametrize("batches", [100, 64, 1])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize("op", [fmha.ck.FwOp])
+def test_mqa_forward(
+    op,
+    attn_bias_type,
+    dtype, 
+    batches: int, 
+    seqlen_kv: int, 
+    seqlen_q: int, 
+    nhead_kv: int, 
+    nhead_q: int, 
+    hdim_v: int, 
+    hdim_k: int, 
+):
+    B = batches
+    M = seqlen_q
+    N = seqlen_kv
+    Hq = nhead_q
+    Hkv = nhead_kv
+    K = hdim_k
+    Kv = hdim_v
+
+    print("Hq=", Hq, "Hkv=", Hkv)
+
+    device = torch.device("cuda")
+
+    if not (K == Kv and (Kv == 64 or Kv == 128)):
+        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
+
+    if Kv > 128:
+        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+
+    scale = 3
+    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
+    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
+    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
+
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=Hq,
+            q_len=M,
+            kv_len=N,
+            dtype=dtype,
+            device=device,
+            requires_grad=False,
+            fmt="BMHK",
+            op=op,
+        )
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 94b36c2350..856e64651c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -522,24 +522,21 @@ struct FmhaFwdKernel
                 {
                     if(kargs.mask_type == CausalMaskType::MaskDisabled)
                     {
-                        ck::index_t lr_size = kargs.window_size / 2;
+                        ck::index_t left_size  = kargs.window_size / 2;
+                        ck::index_t right_size = kargs.window_size - 1 - left_size;
 
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            lr_size, lr_size, kargs.seqlen_q, kargs.seqlen_k);
+                            left_size, right_size, kargs.seqlen_q, kargs.seqlen_k);
                     }
                     else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft)
                     {
-                        ck::index_t lr_size = kargs.window_size / 2;
-
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            lr_size, 0, kargs.seqlen_q, kargs.seqlen_k, true);
+                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, true);
                     }
                     else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromBottomRight)
                     {
-                        ck::index_t lr_size = kargs.window_size / 2;
-
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            lr_size, 0, kargs.seqlen_q, kargs.seqlen_k, false);
+                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, false);
                     }
                 }
                 else
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 3cb4ed014a..67e71ccd63 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -4,8 +4,10 @@
 # LICENSE file in the root directory of this source tree.
 
 
+from dataclasses import replace
 from enum import Enum
-from typing import Any, List, Mapping, Optional, Set, Tuple, Union
+from functools import partial
+from typing import Any, List, Optional, Set, Tuple, Union, Mapping
 
 import torch
 
@@ -13,9 +15,13 @@
 from . import attn_bias
 from .attn_bias import (
     AttentionBias,
+    BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+    BlockDiagonalCausalLocalAttentionMask,
     BlockDiagonalCausalMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
     BlockDiagonalMask,
+    LowerTriangularFromBottomRightLocalAttentionMask,
+    LowerTriangularFromBottomRightMask,
     LowerTriangularMask,
     LowerTriangularMaskWithTensorBias,
 )
@@ -25,29 +31,34 @@
     Context,
     Gradients,
     Inputs,
+    _attn_bias_apply,
     check_lastdim_alignment_stride1,
 )
 
 def _minimum_gemm_alignment(inp: Inputs) -> int:
     return 1
 
-
 def _get_seqlen_info(
     inp: Inputs,
-) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor]]:
+) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], int, int]:
     attn_bias = inp.attn_bias
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
+        ##attn_bias.k_seqinfo.to(inp.query.device)
+        ##attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
+        ##max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
     else:
         seqstart_k = None
         seqstart_q = None
         max_seqlen_q = -1
+        ##max_seqlen_k = -1
+
+    return seqstart_k, seqstart_q, max_seqlen_q,
 
-    return seqstart_k, seqstart_q, max_seqlen_q
 
 def _get_tensor_bias(
     attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
@@ -100,7 +111,6 @@ def _check_large_shapes(reasons: List[str], inp: Inputs) -> None:
             "Input is too large: product of first two dimensions of q/k/v must be < 2**20"
         )
 
-
 class _CustomMaskType(int, Enum):
     """
     (Matches CustomMaskType in C++.)
@@ -117,14 +127,18 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
         (
             LowerTriangularMask,
             BlockDiagonalCausalMask,
+            BlockDiagonalCausalLocalAttentionMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromTopLeft)
     if isinstance(
         bias,
         (
+            LowerTriangularFromBottomRightMask,
+            LowerTriangularFromBottomRightLocalAttentionMask,
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
             BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromBottomRight)
@@ -134,26 +148,48 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
 @register_operator
 class FwOp(AttentionFwOpBase):
     """xFormers' MHA kernel based on Composable Kernel.
-    Supports AMD MI 200 and MI 300 GPUs
     """
 
+    ### ck_check_op is temporarily used to check ck-tiled availability
+    ck_check_op = get_xformers_operator("is_ck_tiled_used")
+    use_ck_tiled = ck_check_op()
+ 
     OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
     SUPPORTED_MAX_K = 65536
-    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-        type(None),
-        torch.Tensor,
-        LowerTriangularMask,
-        LowerTriangularMaskWithTensorBias,
-        BlockDiagonalMask,
-        BlockDiagonalCausalMask,
-        BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    }
+    
+    if use_ck_tiled: 
+        SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+            type(None),
+            torch.Tensor,
+            LowerTriangularMask,
+            LowerTriangularFromBottomRightMask,
+            LowerTriangularFromBottomRightLocalAttentionMask,
+            LowerTriangularMaskWithTensorBias,
+            BlockDiagonalMask,
+            BlockDiagonalCausalMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            attn_bias.BlockDiagonalCausalFromBottomRightMask,
+            attn_bias.BlockDiagonalCausalLocalAttentionMask,
+            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+        }
+    else:
+        SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+            type(None),
+            torch.Tensor,
+            LowerTriangularMask,
+            LowerTriangularMaskWithTensorBias,
+            BlockDiagonalMask,
+            BlockDiagonalCausalMask,
+            BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            attn_bias.BlockDiagonalCausalFromBottomRightMask,
+         }
+
     SUPPORTS_DROPOUT = True
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
+    SUPPORTS_BMGHK = True
     NAME = "ckF"
 
     ERROR_ATOL: Mapping[torch.dtype, float] = {
@@ -176,6 +212,70 @@ class FwOp(AttentionFwOpBase):
     @classmethod
     def apply(
         cls, inp: Inputs, needs_gradient: bool
+    ) -> Tuple[torch.Tensor, Optional[Context]]:
+        if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
+            raise NotImplementedError("Unsupported attn_bias type")
+        if inp.query.ndim in [3, 4]:
+            return cls.apply_bmhk(inp, needs_gradient=needs_gradient)
+        assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
+        ctx: Optional[Context] = None
+        # XXX: Hackfix for BMGHK with H=1
+        # In that case we don't want to run G different streams because it adds
+        # some overhead
+        if inp.query.ndim == 5 and inp.query.shape[3] == 1:
+            slice_op = partial(torch.squeeze, dim=3)
+            inp = replace(
+                inp,
+                query=slice_op(inp.query),
+                key=slice_op(inp.key),
+                value=slice_op(inp.value),
+                attn_bias=_attn_bias_apply(
+                    inp.attn_bias, partial(torch.squeeze, dim=2)
+                ),
+            )
+            out, ctx = cls.apply_bmhk(inp, needs_gradient=needs_gradient)
+            out = out.unsqueeze(3)
+            if ctx is not None:
+                ctx = replace(ctx, lse=ctx.lse.unsqueeze(1), out=out)
+            return out, ctx
+
+        # Workaround until this is properly implemented in C++
+        # run each head group in a different stream
+        n_groups = inp.key.shape[2]
+        main_stream = torch.cuda.current_stream()
+        streams = [main_stream] + [
+            torch.cuda.Stream(device=inp.query.device) for _ in range(n_groups - 1)
+        ]
+        outs = []
+        for group, stream in enumerate(streams):
+            stream.wait_stream(main_stream)
+            with torch.cuda.stream(stream):
+                query = inp.query[:, :, group]
+                key = inp.key[:, :, group]
+                value = inp.value[:, :, group]
+                bias = _attn_bias_apply(
+                    inp.attn_bias, partial(torch.select, dim=1, index=group)
+                )
+                outs.append(
+                    cls.apply_bmhk(
+                        replace(inp, query=query, key=key, value=value, attn_bias=bias),
+                        needs_gradient=needs_gradient,
+                    )
+                )
+        for s in streams[1:]:
+            main_stream.wait_stream(s)
+        out = torch.stack([o[0] for o in outs], dim=2)
+        if needs_gradient:
+            ctx = Context(
+                out=out,
+                lse=torch.stack([o[1].lse for o in outs], dim=1),  # type: ignore
+                op_bw=outs[0][1].op_bw,  # type: ignore
+            )
+        return out, ctx
+
+    @classmethod
+    def apply_bmhk(
+        cls, inp: Inputs, needs_gradient: bool
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
@@ -195,8 +295,18 @@ def apply(
             seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
-            window_size=0,
+            window_size=inp.attn_bias._window_size
+            if isinstance(
+                inp.attn_bias,
+                (
+                    BlockDiagonalCausalLocalAttentionMask,
+                    BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                    LowerTriangularFromBottomRightLocalAttentionMask,
+                ),
+            )
+            else None,
         )
+
         ctx: Optional[Context] = None
         if needs_gradient:
             ctx = Context(
@@ -233,6 +343,7 @@ def operator_flop(
         b,
         seqstart_q,
         seqstart_k,
+        max_seqlen_q_,
         compute_lse,
         custom_mask_type,
         *a,
@@ -259,11 +370,16 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
+        LowerTriangularFromBottomRightMask,
+        # TODO: Still some infs/nans in the BW pass for
+        # local + causal
+        # LowerTriangularFromBottomRightLocalAttentionMask,
         # TODO: Fix handling of gradient through the fMHA autograd function
         # LowerTriangularMaskWithTensorBias,
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        attn_bias.BlockDiagonalCausalLocalAttentionMask,
     }
     SUPPORTS_ATTN_BIAS_GRAD = True
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
@@ -271,14 +387,6 @@ class BwOp(AttentionBwOpBase):
     SUPPORTS_DIFFERENT_VALUE_EMBED = FwOp.SUPPORTS_DIFFERENT_VALUE_EMBED
     NAME = "ckB"
 
-    ERROR_ATOL: Mapping[torch.dtype, float] = {
-        torch.float: 5e-4,
-        # increased from 9e-2, more opportunities for numerical errors when bias is
-        # used, noticed in gK on SM80
-        torch.half: 1e-1,
-        torch.bfloat16: 7e-1,
-    }
-
     _TEST_K: List[int] = [
         32,  # 64x64 kernel
         128,  # 64x128/128x128 kernel
@@ -323,7 +431,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
 
-        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q, max_seqlen_k = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
         rng_seed = rng_offset = 0
@@ -361,6 +469,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
         )
+        
 
         # c++/CUDA implementation returns an uninitialized tensor if bias doesn't
         # require grad
@@ -382,6 +491,8 @@ def operator_flop(
         b,
         cu_seqlens_q,
         cu_seqlens_k,
+        max_seqlen_q,
+        max_seqlen_k,
         logsumexp,
         output,
         dropout_p,

From a27403c4d3f4ed74a8bd7e3dc2c0cd89bc79cc68 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 17:59:14 +0000
Subject: [PATCH 340/837] Synchronize submodule composable_kernel to the latest
 commits

---
 third_party/composable_kernel | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
index 5f4e6ec00d..719219b9f1 160000
--- a/third_party/composable_kernel
+++ b/third_party/composable_kernel
@@ -1 +1 @@
-Subproject commit 5f4e6ec00d12654e3897f53b48307434cd25a02f
+Subproject commit 719219b9f1f4143e5fdd657dd16b704a22821766

From dfc2618a710f4ffaf7d72f4b790e24b536a3be8f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 18:02:28 +0000
Subject: [PATCH 341/837] Make the efficient_attention_forward_ck() C++
 interface consistent with the updating of xformers/ops/fmha API

---
 xformers/csrc/attention/attention.cpp                     | 8 --------
 .../csrc/attention/hip_fmha/attention_forward_generic.cpp | 6 +++++-
 2 files changed, 5 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 3989ebd29c..73ee37ea6f 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -25,19 +25,11 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
 #if defined(USE_ROCM)
-#if defined(USE_CK_TILED_KERNEL)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, "
           "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
           "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
           "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
-#else
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
-          "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
-          "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
-#endif
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
           "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 244e134a41..c4bbc72ebe 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -6,6 +6,7 @@
  */
 #include <cmath>
 #include <mutex>
+#include <tuple>
 
 #include <ATen/Context.h>
 #include <ATen/ScalarOps.h>
@@ -57,8 +58,11 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
     bool compute_logsumexp,
     int64_t custom_mask_type,
     c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k)
+    const c10::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> window_size)
 {
+    std::ignore = window_size;
+
     TORCH_CHECK(query.dim() == 4);
     TORCH_CHECK(key.dim() == 4);
     TORCH_CHECK(value.dim() == 4);

From 5421612bfaf382f1c30ce8cd6c2b7af00a948f1a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 18:03:24 +0000
Subject: [PATCH 342/837] Tiny fix in ck.py to make test_backward pass

---
 xformers/ops/fmha/ck.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 67e71ccd63..200f6a41ba 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -370,7 +370,7 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
-        LowerTriangularFromBottomRightMask,
+        ##LowerTriangularFromBottomRightMask,
         # TODO: Still some infs/nans in the BW pass for
         # local + causal
         # LowerTriangularFromBottomRightLocalAttentionMask,
@@ -379,7 +379,7 @@ class BwOp(AttentionBwOpBase):
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        ##attn_bias.BlockDiagonalCausalLocalAttentionMask,
     }
     SUPPORTS_ATTN_BIAS_GRAD = True
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
@@ -431,7 +431,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
 
-        seqstart_k, seqstart_q, max_seqlen_q, max_seqlen_k = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
         rng_seed = rng_offset = 0

From 7948fe6674af2cf3c9a44bd01cc404b0afe7fc96 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 11 Jan 2024 00:09:09 +0000
Subject: [PATCH 343/837] some refactorings for standalone tests

---
 .../hip_fmha/attention_forward_splitk.cpp     | 56 +++++++++----------
 1 file changed, 27 insertions(+), 29 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 61dac9a8b0..aa60950de9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -685,10 +685,12 @@ struct FMHADecoderReduceDeviceOp : public BaseOperator
 } // namespace tensor_operation
 } // namespace ck
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(const at::Tensor& XQ,
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const at::Tensor& XQ,
                                                                            const at::Tensor& K,
                                                                            const at::Tensor& V,
-                                                                           const at::Tensor& seqlen)
+                                                                           const at::Tensor& seqlen,
+                                                                           const int32_t split_k,
+                                                                           const int32_t wavefronts_per_block)
 {
 
     at::OptionalDeviceGuard guard(XQ.device());
@@ -700,17 +702,15 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(const
     auto D = XQ.size(4);
 
     double qk_scale        = 1. / sqrt(D);
-    constexpr auto split_k = 1;
 
     auto O                    = at::empty_like(XQ);
-    constexpr auto splitk_dim = 0;
     constexpr auto rank       = 5;
-    auto split_O              = at::stack(O, splitk_dim);
-    auto split_max            = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-    auto split_sumexp         = at::empty_like(split_max);
+    auto split_O              = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+    auto split_max            = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat)).fill_(ck::NumericLimits<float>::Lowest());
+    auto split_sumexp         = at::zeros_like(split_max);
 
     dim3 blocks(B * H * M * G, split_k);
-    dim3 threads(kThreadsPerWavefront, kWavefrontsPerBlock);
+    dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
 
     constexpr int32_t KV_M_MAX = 8192;
     constexpr int32_t K_MAX    = 4 * kThreadsPerWavefront;
@@ -775,7 +775,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_hip(const
             auto invoker = device_op_t::Invoker{};
             (void)invoker.Run(arg, {stream});
         });
-    return std::make_tuple(split_O[splitk_dim], split_max, split_sumexp);
+    return std::make_tuple(split_O, split_max, split_sumexp);
 }
 
 std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
@@ -799,33 +799,31 @@ generate_inputs(const int32_t padding,
     auto K           = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
                       : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
     auto V = at::randn_like(K);
-    // auto seqlen = at::randint(1, padding + 1, {B}, int_options);
-    // auto seqlen = at::tensor({1062}, int_options);
-    auto seqlen = at::tensor({6, 12, 13, 9, 32, 10, 12, 6}, int_options);
+    auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
 
     return std::make_tuple(XQ, K, V, seqlen);
 }
 
 static void test_split1_attention()
 {
-    auto [XQ, K, V, seqlen] = generate_inputs(4096, 1, 16, 16);
+    auto [XQ, K, V, seqlen] = generate_inputs(4096, 8, 16, 16);
 
-    auto reference_result = split1_attention_torch(XQ, K, V, seqlen);
+    auto [O_ref, m_ref, l_ref] = split1_attention_torch(XQ, K, V, seqlen);
 
-    auto hip_result = split1_attention_hip(XQ, K, V, seqlen);
+    auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, /* split_k */ 1, /* wavefronts_per_block */ 1);
 
-    auto O_match_mask = at::isclose(std::get<0>(reference_result),
-                                    std::get<0>(hip_result),
+    auto O_match_mask = at::isclose(O_ref,
+                                    O_hip,
                                     /*atol*/ 1e-3,
                                     /*rtol*/ 1e-5,
                                     /*equal_nan*/ false);
-    auto m_match_mask = at::isclose(std::get<1>(reference_result),
-                                    std::get<1>(hip_result),
+    auto m_match_mask = at::isclose(m_ref,
+                                    m_hip,
                                     /*atol*/ 1e-3,
                                     /*rtol*/ 1e-5,
                                     /*equal_nan*/ false);
-    auto l_match_mask = at::isclose(std::get<2>(reference_result),
-                                    std::get<2>(hip_result),
+    auto l_match_mask = at::isclose(l_ref,
+                                    l_hip,
                                     /*atol*/ 1e-3,
                                     /*rtol*/ 1e-5,
                                     /*equal_nan*/ false);
@@ -839,28 +837,28 @@ static void test_split1_attention()
     printf("Mismatched split_max elements percentage: %.2f\n", 1. - m_percent_match.item<float>());
 
     printf("Mismatched split_sumexp elements percentage: %.2f\n",
-           1. - m_percent_match.item<float>());
+           1. - l_percent_match.item<float>());
 }
 
 static void do_correctness_check()
 {
-    auto [XQ, K, V, seqlen] = generate_inputs(32, 8, 16, 16);
+    auto [XQ, K, V, seqlen] = generate_inputs(4096, 8, 16, 16);
 
     double qk_scale        = 1. / sqrt(XQ.size(-1));
     constexpr auto split_k = 2;
 
-    auto result = efficient_attention_forward_decoder_splitk_ck_impl<64, 1>(
+    auto result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
         XQ, K, V, seqlen, qk_scale, split_k);
     auto gold_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
     auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
     auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    auto nan_count     = at::sum(at::isnan(result));
-    auto numel         = result.numel();
-    auto inf_count     = at::sum(at::isinf(result));
+    // auto nan_count     = at::sum(at::isnan(result));
+    // auto numel         = result.numel();
+    // auto inf_count     = at::sum(at::isinf(result));
     printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
     // printf("k_seqlen: %d\n", seqlen.item<int32_t>());
-    std::cout << "numel: " << numel << " nan count: " << nan_count << " inf count: " << inf_count
-              << std::endl;
+    // std::cout << "numel: " << numel << " nan count: " << nan_count << " inf count: " << inf_count
+    //           << std::endl;
     std::cout << "k_seqlen: " << seqlen << std::endl;
 }
 

From e7ffe6897e6ce224abc4a7d2318ef4dbb84926e9 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 11 Jan 2024 20:27:04 +0000
Subject: [PATCH 344/837] cleanup testing

---
 .../hip_fmha/attention_forward_splitk.cpp     | 30 +++++++++++--------
 1 file changed, 17 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index aa60950de9..df9ffdbe42 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -25,7 +25,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
     // }
 
     // causal mask
-    auto neg_inf = at::tensor(-99.).item();
+    auto neg_inf = at::tensor(-1001.).item();
     for(size_t b = 0; b < k_seqlens.numel(); ++b)
     {
         auto seqlen = k_seqlens[b].item<int64_t>();
@@ -789,6 +789,8 @@ generate_inputs(const int32_t padding,
     const int32_t G           = Hq / Hkv;
     const int32_t num_queries = 1;
 
+    at::manual_seed(1);
+
     auto options = torch::TensorOptions()
                        .dtype(dtype)
                        .layout(torch::kStrided)
@@ -840,33 +842,35 @@ static void test_split1_attention()
            1. - l_percent_match.item<float>());
 }
 
-static void do_correctness_check()
+static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
 {
-    auto [XQ, K, V, seqlen] = generate_inputs(4096, 8, 16, 16);
+    auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
     double qk_scale        = 1. / sqrt(XQ.size(-1));
-    constexpr auto split_k = 2;
 
     auto result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
         XQ, K, V, seqlen, qk_scale, split_k);
     auto gold_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
     auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
     auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    // auto nan_count     = at::sum(at::isnan(result));
-    // auto numel         = result.numel();
-    // auto inf_count     = at::sum(at::isinf(result));
-    printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
-    // printf("k_seqlen: %d\n", seqlen.item<int32_t>());
-    // std::cout << "numel: " << numel << " nan count: " << nan_count << " inf count: " << inf_count
-    //           << std::endl;
-    std::cout << "k_seqlen: " << seqlen << std::endl;
+    printf("Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, 1. - percent_match.item<float>());
 }
 
 int main(int argc, char** argv)
 {
     if(argc == 1)
     {
-        do_correctness_check();
+        for (auto padding : {32, 4096}) {
+            for (auto batch_size : {1, 8}) {
+                for (auto Hq : { 16 }) {
+                    for (auto Hkv : { 16 }) {
+                        for (auto split_k : {1, 2, 4}) {
+                            test_splitk_decoder_e2e_correctness(padding, batch_size, Hq, Hkv, split_k);
+                        }
+                    }
+                }
+            }
+        }
 
         // test_split1_attention();
     }

From 495310180fbde6acf7cedbc6df249dda7801b091 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 18:02:28 +0000
Subject: [PATCH 345/837] Make the efficient_attention_forward_ck() C++
 interface consistent with the updating of xformers/ops/fmha API

---
 xformers/csrc/attention/attention.cpp                     | 8 --------
 .../csrc/attention/hip_fmha/attention_forward_generic.cpp | 6 +++++-
 2 files changed, 5 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 3989ebd29c..73ee37ea6f 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -25,19 +25,11 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
 #if defined(USE_ROCM)
-#if defined(USE_CK_TILED_KERNEL)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, "
           "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
           "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
           "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
-#else
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
-          "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
-          "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k) -> (Tensor, Tensor, int, int)"));
-#endif
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
           "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index 244e134a41..c4bbc72ebe 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -6,6 +6,7 @@
  */
 #include <cmath>
 #include <mutex>
+#include <tuple>
 
 #include <ATen/Context.h>
 #include <ATen/ScalarOps.h>
@@ -57,8 +58,11 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
     bool compute_logsumexp,
     int64_t custom_mask_type,
     c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k)
+    const c10::optional<at::Tensor>& seqlen_k,
+    const c10::optional<int64_t> window_size)
 {
+    std::ignore = window_size;
+
     TORCH_CHECK(query.dim() == 4);
     TORCH_CHECK(key.dim() == 4);
     TORCH_CHECK(value.dim() == 4);

From e99fc1ac42d5ade8e989b2ebf530c59c062bdf45 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Jan 2024 18:03:24 +0000
Subject: [PATCH 346/837] Tiny fix in ck.py to make test_backward pass

---
 xformers/ops/fmha/ck.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 67e71ccd63..200f6a41ba 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -370,7 +370,7 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
-        LowerTriangularFromBottomRightMask,
+        ##LowerTriangularFromBottomRightMask,
         # TODO: Still some infs/nans in the BW pass for
         # local + causal
         # LowerTriangularFromBottomRightLocalAttentionMask,
@@ -379,7 +379,7 @@ class BwOp(AttentionBwOpBase):
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        ##attn_bias.BlockDiagonalCausalLocalAttentionMask,
     }
     SUPPORTS_ATTN_BIAS_GRAD = True
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
@@ -431,7 +431,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
 
-        seqstart_k, seqstart_q, max_seqlen_q, max_seqlen_k = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
         rng_seed = rng_offset = 0

From d7721d233e87496c39d66f78d4cdc36ba22d3262 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 11 Jan 2024 22:06:13 +0000
Subject: [PATCH 347/837] fix split1 attention csrc test

---
 .../hip_fmha/attention_forward_splitk.cpp     | 77 ++++++++++---------
 1 file changed, 39 insertions(+), 38 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index df9ffdbe42..cb0101d6ee 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -16,42 +16,32 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
     const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens)
 {
     auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-    auto S        = at::einsum("mghk, nghk -> mghn",
-                        {Q_scaled.flatten(0, 1), K.flatten(0, 1)},
-                        /* einsum eval path */ at::nullopt);
 
-    // for (size_t i = 0; i < S.dim(); ++i) {
-    //   std::cout << "S.dim" << i << "=" << S.size(i) << std::endl;
-    // }
+    std::vector<at::Tensor> O_batch;
+    std::vector<at::Tensor> m_batch;
+    std::vector<at::Tensor> l_batch;
 
-    // causal mask
-    auto neg_inf = at::tensor(-1001.).item();
-    for(size_t b = 0; b < k_seqlens.numel(); ++b)
-    {
+    for(size_t b = 0; b < k_seqlens.numel(); ++b) {
         auto seqlen = k_seqlens[b].item<int64_t>();
-        at::slice(S[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).fill_(neg_inf);
-        at::slice(S[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ S.size(-1))
-            .fill_(neg_inf);
-        // std::cout << "batch" << b << " ; masked QK^T dim " << S[b].dim() << " values at h0 " <<
-        // S[b].slice(1, 0, 1) << std::endl;
-    }
 
-    auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-    auto s = at::exp(at::sub(S, m));
-
-    // causal mask
-    for(size_t b = 0; b < k_seqlens.numel(); ++b)
-    {
-        auto seqlen = k_seqlens[b].item<int64_t>();
-        at::slice(s[b], /* dim */ -1, /* start */ 0, /* end */ b * K.size(1)).zero_();
-        at::slice(s[b], /* dim */ -1, /* start */ b * K.size(1) + seqlen, /* end */ s.size(-1))
-            .zero_();
+        auto S        = at::einsum("mghk, nghk -> mghn",
+                        {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ 0, /*end*/ seqlen)},
+                        /* einsum eval path */ at::nullopt);
+        auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+        auto s = at::exp(at::sub(S, m));
+        auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+        auto O =
+        at::einsum("mghn, nghk -> mghk", {s, at::slice(V[b], /*dim*/ 0, /*start*/ 0, /*end*/ seqlen)}, /* einsum eval path */ at::nullopt);
+        O_batch.push_back(O);
+        m_batch.push_back(m);
+        l_batch.push_back(l);
     }
 
-    auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-    auto O =
-        at::einsum("mghn, nghk -> mghk", {s, V.flatten(0, 1)}, /* einsum eval path */ at::nullopt);
-    return std::make_tuple(O, m, l);
+    auto O_cat = at::stack(O_batch);
+    auto m_cat = at::stack(m_batch);
+    auto l_cat = at::stack(l_batch);
+
+    return std::make_tuple(O_cat, m_cat, l_cat);
 }
 
 static at::Tensor
@@ -806,9 +796,9 @@ generate_inputs(const int32_t padding,
     return std::make_tuple(XQ, K, V, seqlen);
 }
 
-static void test_split1_attention()
+static void test_split1_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv)
 {
-    auto [XQ, K, V, seqlen] = generate_inputs(4096, 8, 16, 16);
+    auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
     auto [O_ref, m_ref, l_ref] = split1_attention_torch(XQ, K, V, seqlen);
 
@@ -834,12 +824,15 @@ static void test_split1_attention()
     auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
     auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
 
-    printf("Mismatched split_O elements percentage: %.2f\n", 1. - O_percent_match.item<float>());
+    printf("Padding=%d BS=%d Hq=%d Hkv=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
+            padding,
+            batch_size,
+            Hq,
+            Hkv,
+            1. - O_percent_match.item<float>(),
+            1. - m_percent_match.item<float>(),
+            1. - l_percent_match.item<float>());
 
-    printf("Mismatched split_max elements percentage: %.2f\n", 1. - m_percent_match.item<float>());
-
-    printf("Mismatched split_sumexp elements percentage: %.2f\n",
-           1. - l_percent_match.item<float>());
 }
 
 static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
@@ -872,7 +865,15 @@ int main(int argc, char** argv)
             }
         }
 
-        // test_split1_attention();
+        for (auto padding : {32, 4096}) {
+            for (auto batch_size : {1, 8}) {
+                for (auto Hq : { 16 }) {
+                    for (auto Hkv : { 16 }) {
+                        test_split1_attention(padding, batch_size, Hq, Hkv);
+                    }
+                }
+            }
+        }
     }
     else
     {

From 902910a1bf85e3bf26f8735d59c3ba75e0d16c79 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 12 Jan 2024 16:02:57 +0000
Subject: [PATCH 348/837] Enable support of flexible head-dim size (but <= 128)
 for ck-tiled fmha forward

---
 tests/test_forward_ck_tiled.py                |   7 +-
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 191 +++++++-----------
 .../hip_fmha/ck_tiled_fmha_definitions.h      |  87 ++++++--
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |  89 +++++---
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |   2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 143 ++++++-------
 7 files changed, 286 insertions(+), 235 deletions(-)

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index a0685d88e4..e76f52e099 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -437,11 +437,8 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if not (k == kv and (kv == 64 or kv == 128)):
-        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
-
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+    if k > 128 or kv > 128:
+        pytest.skip("k or kv bigger than 128 is not supported by CK-FlashAttention")
 
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 539f9677e0..cd4c0600f3 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 539f9677e047da576f67810f7833dd983df3c1f8
+Subproject commit cd4c0600f37288f09736d910378efeb18a8c4142
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 2ea3d4f506..61786c50d7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -38,73 +38,51 @@
 template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
 struct batched_infer_causalmask_attnbias_dispatched
 {
-    using QDataType           = scalar_t;
-    using KDataType           = scalar_t;
-    using VDataType           = scalar_t;
-    using BiasDataType        = scalar_t;
-    using SaccDataType        = float;    // data type for first gemm accumulation
-    using SMPLComputeDataType = float;    // data type for reduction, softmax
-    using PDataType           = scalar_t; // data type for A matrix of second gemm
-    using OaccDataType        = float;    // data type for second gemm accumulation
-    using ODataType           = scalar_t;
-
-    using VLayout = ck::tensor_layout::gemm::RowMajor;
-
-    using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
-    using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
-    using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
-    using FmhaWarpTile         = ck::Sequence<32, 32, 16>;
-    using FmhaShapeHDim64      = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim64,
-                                                            FmhaBlockWarps,
-                                                            FmhaWarpTile,
-                                                            FmhaBlockWarps,
-                                                            FmhaWarpTile,
-                                                            VLayout>;
-    using FmhaShapeHDim128     = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim128,
-                                                             FmhaBlockWarps,
-                                                             FmhaWarpTile,
-                                                             FmhaBlockWarps,
-                                                             FmhaWarpTile,
-                                                             VLayout>;
-
-    using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
+    using FmhaEpilogue =
+        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
 #ifndef BATCHED_INFER_HEADDIM_SWITCH
-#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)        \
-    [&] {                                                              \
-        if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64)                  \
-        {                                                              \
-            using FmhaShape = FmhaShapeHDim64;                         \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128)            \
-        {                                                              \
-            using FmhaShape = FmhaShapeHDim128;                        \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else                                                           \
-        {                                                              \
-            throw std::runtime_error("Head-dim sizes not supported!"); \
-        }                                                              \
+#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+    [&] {                                                                   \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                              \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 32;                          \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                         \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 64;                          \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
+        else if(HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128)                       \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 128;                         \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
+        else                                                                \
+        {                                                                   \
+            throw std::runtime_error("Head-dim sizes not supported!");      \
+        }                                                                   \
     }()
 #endif
 
-    template <typename FmhaTraits, typename FmhaShape, typename FmhaMask>
-    using FmhaPipelineProblemTemp =
-        ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                          KDataType,
-                                                          VDataType,
-                                                          SaccDataType,
-                                                          SMPLComputeDataType,
-                                                          BiasDataType,
-                                                          PDataType,
-                                                          OaccDataType,
-                                                          ODataType,
-                                                          256, // BlockSize
-                                                          FmhaShape,
-                                                          false, // kIsGroupMode
-                                                          FmhaMask,
-                                                          FmhaTraits>;
+    template <typename FmhaTraits, ck::index_t HDim, typename FmhaMask>
+    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
+        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+        HDim == 32 ? 128 : 256, // BlockSize
+        FmhaFwdShape<HDim>,
+        false, // kIsGroupMode
+        FmhaMask,
+        FmhaTraits>;
 
     static void Run(BatchedForwardParams& param, hipStream_t stream)
     {
@@ -116,59 +94,42 @@ struct batched_infer_causalmask_attnbias_dispatched
             using FmhaMask =
                 ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-            BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-                using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-
-                if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 == 0)
-                {
-                    using FmhaTraits =
-                        ck::tile_program::TileFmhaTraits<false, false, has_attn_bias>;
-
-                    using FmhaPipelineProblem =
-                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                }
-                else if(param.M % FmhaShape::kM0 == 0 && param.N % FmhaShape::kN0 != 0)
-                {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<false, true, has_attn_bias>;
-                    using FmhaPipelineProblem =
-                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                }
-                else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 == 0)
-                {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<true, false, has_attn_bias>;
-                    using FmhaPipelineProblem =
-                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                }
-                else if(param.M % FmhaShape::kM0 != 0 && param.N % FmhaShape::kN0 != 0)
-                {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
-                    using FmhaPipelineProblem =
-                        FmhaPipelineProblemTemp<FmhaTraits, FmhaShape, FmhaMask>;
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                };
+            BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+                using FmhaShape                 = FmhaFwdShape<HDim>;
+                using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
+                constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+
+                bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
+                bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
+
+                // ToDO: current pipelines all assume kQLoadOnce, which read whole k0
+                // (kK0BlockLength)
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH_3(
+                    m0_need_padding,
+                    kM0NeedPadding,
+                    n0k1_need_padding,
+                    kN0K1NeedPadding,
+                    k0n1_need_padding,
+                    kK0N1NeedPadding,
+                    [&] {
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                            kN0K1NeedPadding,
+                                                                            kK0N1NeedPadding,
+                                                                            has_attn_bias,
+                                                                            occupancy>;
+
+                        using FmhaPipelineProblem =
+                            FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
+                        using FmhaPipeline =
+                            ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                        using FmhaKernel =
+                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                        RunWithKernel<FmhaKernel>(param, stream);
+                    });
             });
         });
     };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index edaf8a308b..0129ac0824 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -6,8 +6,6 @@
  */
 #pragma once
 
-//#include <ck/tile_program/block_tile/block_masking_specialization.hpp>
-
 enum struct CausalMaskType
 {
     MaskDisabled,
@@ -15,25 +13,90 @@ enum struct CausalMaskType
     MaskUpperTriangleFromBottomRight
 };
 
-/*
-template <CausalMaskType type>
-struct CausalMaskPredicate;
+template <typename DataType>
+struct FmhaFwdTypeConfig;
+
+template <>
+struct FmhaFwdTypeConfig<ck::half_t>
+{
+    using QDataType           = ck::half_t;
+    using KDataType           = ck::half_t;
+    using VDataType           = ck::half_t;
+    using BiasDataType        = ck::half_t;
+    using SaccDataType        = float;      // data type for first gemm accumulation
+    using SMPLComputeDataType = float;      // data type for reduction, softmax
+    using PDataType           = ck::half_t; // data type for A matrix of second gemm
+    using OaccDataType        = float;      // data type for second gemm accumulation
+    using ODataType           = ck::half_t;
+};
+
+template <>
+struct FmhaFwdTypeConfig<ck::bhalf_t>
+{
+    using QDataType           = ck::bhalf_t;
+    using KDataType           = ck::bhalf_t;
+    using VDataType           = ck::bhalf_t;
+    using BiasDataType        = ck::bhalf_t;
+    using SaccDataType        = float;       // data type for first gemm accumulation
+    using SMPLComputeDataType = float;       // data type for reduction, softmax
+    using PDataType           = ck::bhalf_t; // data type for A matrix of second gemm
+    using OaccDataType        = float;       // data type for second gemm accumulation
+    using ODataType           = ck::bhalf_t;
+};
+
+using FmhaFwdVLayout = ck::tensor_layout::gemm::RowMajor;
+
+template <ck::index_t HDim>
+struct FmhaFwdBlockTile;
+
+template <>
+struct FmhaFwdBlockTile<32>
+{
+    using type = ck::Sequence<128, 64, 16, 32, 32, 32>;
+};
+template <>
+struct FmhaFwdBlockTile<64>
+{
+    using type = ck::Sequence<128, 64, 32, 64, 32, 64>;
+};
+template <>
+struct FmhaFwdBlockTile<128>
+{
+    using type = ck::Sequence<128, 128, 32, 128, 32, 128>;
+};
+
+using FmhaFwdBlockWarps = ck::Sequence<4, 1, 1>;
+using FmhaFwdWarpTile   = ck::Sequence<32, 32, 16>;
+
+template <ck::index_t HDim>
+struct FmhaFwdShape;
 
 template <>
-struct CausalMaskPredicate<CausalMaskType::MaskDisabled>
+struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<32>::type,
+                                                          ck::Sequence<2, 1, 1>,
+                                                          FmhaFwdWarpTile,
+                                                          ck::Sequence<2, 1, 1>,
+                                                          FmhaFwdWarpTile,
+                                                          FmhaFwdVLayout>
 {
-    using predicate = ck::tile_program::block::MaskDisabledPredicate;
 };
 
 template <>
-struct CausalMaskPredicate<CausalMaskType::MaskUpperTriangleFromTopLeft>
+struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<64>::type,
+                                                          FmhaFwdBlockWarps,
+                                                          FmhaFwdWarpTile,
+                                                          FmhaFwdBlockWarps,
+                                                          FmhaFwdWarpTile,
+                                                          FmhaFwdVLayout>
 {
-    using predicate = ck::tile_program::block::MaskUpperTriangleFromTopLeftPredicate;
 };
 
 template <>
-struct CausalMaskPredicate<CausalMaskType::MaskUpperTriangleFromBottomRight>
+struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<128>::type,
+                                                           FmhaFwdBlockWarps,
+                                                           FmhaFwdWarpTile,
+                                                           FmhaFwdBlockWarps,
+                                                           FmhaFwdWarpTile,
+                                                           FmhaFwdVLayout>
 {
-    using predicate = ck::tile_program::block::MaskUpperTriangleFromBottomRightPredicate;
 };
-*/
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 856e64651c..a248f35252 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -41,6 +41,7 @@ struct FmhaFwdKernel
     static constexpr bool kIsGroupMode     = FmhaPipeline::kIsGroupMode;
     static constexpr bool kM0NeedPadding   = FmhaPipeline::kM0NeedPadding;
     static constexpr bool kN0K1NeedPadding = FmhaPipeline::kN0K1NeedPadding;
+    static constexpr bool kK0N1NeedPadding = FmhaPipeline::kK0N1NeedPadding;
     static constexpr bool kHasBias         = FmhaPipeline::kHasBias;
     using FmhaMask                         = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
     static constexpr bool kHasMask         = FmhaMask::IsMasking;
@@ -389,10 +390,20 @@ struct FmhaFwdKernel
                 make_tuple(kargs.stride_q, 1),
                 Number<32>{},
                 Number<1>{});
-
-            return pad_tensor_view(q_dram_naive,
-                                   make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
-                                   Sequence<kM0NeedPadding, false>{});
+            if constexpr(FmhaPipeline::kQLoadOnce)
+            {
+                return pad_tensor_view(
+                    q_dram_naive,
+                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0BlockLength>{}),
+                    Sequence<kM0NeedPadding, kK0N1NeedPadding>{});
+            }
+            else
+            {
+                return pad_tensor_view(
+                    q_dram_naive,
+                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{}),
+                    Sequence<kM0NeedPadding, kK0N1NeedPadding>{});
+            }
         }();
         const auto k_dram = [&]() {
             const auto k_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
@@ -402,9 +413,10 @@ struct FmhaFwdKernel
                 Number<32>{},
                 Number<1>{});
 
-            return pad_tensor_view(k_dram_naive,
-                                   make_tuple(Number<FmhaPipeline::kN0>{}, Number<1>{}),
-                                   Sequence<kN0K1NeedPadding, false>{});
+            return pad_tensor_view(
+                k_dram_naive,
+                make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
+                Sequence<kN0K1NeedPadding, kK0N1NeedPadding>{});
         }();
         const auto v_dram = [&]() {
             if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
@@ -427,19 +439,44 @@ struct FmhaFwdKernel
                 /// same as
                 ///   v_dram_transposed.GetTensorDescriptor().GetLength(). Replace following
                 ///   if-clause by pad_tensor_view() call after fixing this issue.
-                if constexpr(kN0K1NeedPadding)
+                if constexpr(kK0N1NeedPadding || kN0K1NeedPadding)
                 {
-                    const index_t pad_length =
-                        FmhaPipeline::kK1 *
-                            ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kK1) -
-                        kargs.seqlen_k;
-
-                    return transform_tensor_view(
-                        v_dram_transposed,
-                        make_tuple(make_pass_through_transform(kargs.hdim_v),
-                                   make_right_pad_transform(kargs.seqlen_k, pad_length)),
-                        make_tuple(Sequence<0>{}, Sequence<1>{}),
-                        make_tuple(Sequence<0>{}, Sequence<1>{}));
+                    const auto transform_n1 = [&] {
+                        if constexpr(kK0N1NeedPadding)
+                        {
+                            const index_t n1_pad_length =
+                                FmhaPipeline::kN1 *
+                                    ck::math::integer_divide_ceil(kargs.hdim_v, FmhaPipeline::kN1) -
+                                kargs.hdim_v;
+
+                            return make_right_pad_transform(kargs.hdim_v, n1_pad_length);
+                        }
+                        else
+                        {
+                            return make_pass_through_transform(kargs.hdim_v);
+                        }
+                    }();
+
+                    const auto transform_k1 = [&] {
+                        if constexpr(kN0K1NeedPadding)
+                        {
+                            const index_t k1_pad_length =
+                                FmhaPipeline::kK1 * ck::math::integer_divide_ceil(
+                                                        kargs.seqlen_k, FmhaPipeline::kK1) -
+                                kargs.seqlen_k;
+
+                            return make_right_pad_transform(kargs.seqlen_k, k1_pad_length);
+                        }
+                        else
+                        {
+                            return make_pass_through_transform(kargs.seqlen_k);
+                        }
+                    }();
+
+                    return transform_tensor_view(v_dram_transposed,
+                                                 make_tuple(transform_n1, transform_k1),
+                                                 make_tuple(Sequence<0>{}, Sequence<1>{}),
+                                                 make_tuple(Sequence<0>{}, Sequence<1>{}));
                 }
                 else
                 {
@@ -455,9 +492,10 @@ struct FmhaFwdKernel
                     Number<32>{},
                     Number<1>{});
 
-                return pad_tensor_view(v_dram_naive,
-                                       make_tuple(Number<1>{}, Number<FmhaPipeline::kK1>{}),
-                                       Sequence<false, kN0K1NeedPadding>{});
+                return pad_tensor_view(
+                    v_dram_naive,
+                    make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+                    Sequence<kK0N1NeedPadding, kN0K1NeedPadding>{});
             }
         }();
 
@@ -587,9 +625,10 @@ struct FmhaFwdKernel
                 Number<32>{},
                 Number<1>{});
 
-            return pad_tensor_view(o_dram_naive,
-                                   make_tuple(Number<FmhaPipeline::kM0>{}, Number<1>{}),
-                                   Sequence<kM0NeedPadding, false>{});
+            return pad_tensor_view(
+                o_dram_naive,
+                make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
+                Sequence<kM0NeedPadding, kK0N1NeedPadding>{});
         }();
 
         auto o_dram_window =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
index ee385408cd..1067eaf7b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
@@ -38,7 +38,7 @@ struct FmhaFwdTilePartitioner
         using namespace ck;
 
         // const index_t num_tile_m0 = seqlen_q / kM0;
-        const index_t num_tile_n1 = hdim_v / kN1;
+        const index_t num_tile_n1 = ck::math::integer_divide_ceil(hdim_v, kN1);
 
         const index_t i_block = blockIdx.x;
         const index_t i_nhead = blockIdx.y;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 5a026dbc9e..bc907c8a79 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -38,62 +38,52 @@
 template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
 struct grouped_infer_causalmask_attnbias_dispatched
 {
-    using QDataType           = scalar_t;
-    using KDataType           = scalar_t;
-    using VDataType           = scalar_t;
-    using BiasDataType        = scalar_t;
-    using SaccDataType        = float;    // data type for first gemm accumulation
-    using SMPLComputeDataType = float;    // data type for reduction, softmax
-    using PDataType           = scalar_t; // data type for A matrix of second gemm
-    using OaccDataType        = float;    // data type for second gemm accumulation
-    using ODataType           = scalar_t;
-
-    using VLayout = ck::tensor_layout::gemm::RowMajor;
-
-    using FmhaBlockTileHdim64  = ck::Sequence<128, 64, 32, 64, 32, 64>;
-    using FmhaBlockTileHdim128 = ck::Sequence<128, 128, 32, 128, 32, 128>;
-    using FmhaBlockWarps       = ck::Sequence<4, 1, 1>;
-    using FmhaWarpTile         = ck::Sequence<32, 32, 16>;
-    using FmhaShapeHDim64      = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim64,
-                                                            FmhaBlockWarps,
-                                                            FmhaWarpTile,
-                                                            FmhaBlockWarps,
-                                                            FmhaWarpTile,
-                                                            VLayout>;
-    using FmhaShapeHDim128     = ck::tile_program::TileFmhaShape<FmhaBlockTileHdim128,
-                                                             FmhaBlockWarps,
-                                                             FmhaWarpTile,
-                                                             FmhaBlockWarps,
-                                                             FmhaWarpTile,
-                                                             VLayout>;
-
-    using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<OaccDataType, ODataType>>;
-
-    // This is the default setting, the effective setting should be done according to M/N size of
-    // each batch
-    static constexpr bool MNeedPadding = true;
-    static constexpr bool NNeedPadding = true;
+    using FmhaEpilogue =
+        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
 #ifndef GROUPED_INFER_HEADDIM_SWITCH
-#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)        \
-    [&] {                                                              \
-        if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 64)                  \
-        {                                                              \
-            using FmhaShape = FmhaShapeHDim64;                         \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else if(HEAD_DIM1 == HEAD_DIM2 && HEAD_DIM2 == 128)            \
-        {                                                              \
-            using FmhaShape = FmhaShapeHDim128;                        \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else                                                           \
-        {                                                              \
-            throw std::runtime_error("Head-dim sizes not supported!"); \
-        }                                                              \
+#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+    [&] {                                                                   \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                              \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 32;                          \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                         \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 64;                          \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
+        else if(HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128)                       \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 128;                         \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
+        else                                                                \
+        {                                                                   \
+            throw std::runtime_error("Head-dim sizes not supported!");      \
+        }                                                                   \
     }()
 #endif
 
+    template <typename FmhaTraits, ck::index_t HDim, typename FmhaMask>
+    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
+        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+        HDim == 32 ? 128 : 256, // BlockSize
+        FmhaFwdShape<HDim>,
+        true, // kIsGroupMode
+        FmhaMask,
+        FmhaTraits>;
+
     static void Run(GroupedForwardParams& param, hipStream_t stream)
     {
         const bool has_local_attention = (param.window_size > 0) ? true : false;
@@ -104,31 +94,32 @@ struct grouped_infer_causalmask_attnbias_dispatched
             using FmhaMask =
                 ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-            GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-                using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<true, true, has_attn_bias>;
-                using FmhaPipelineProblem =
-                    ck::tile_program::block::BlockFmhaPipelineProblem<QDataType,
-                                                                      KDataType,
-                                                                      VDataType,
-                                                                      SaccDataType,
-                                                                      SMPLComputeDataType,
-                                                                      BiasDataType,
-                                                                      PDataType,
-                                                                      OaccDataType,
-                                                                      ODataType,
-                                                                      256, // BlockSize
-                                                                      FmhaShape,
-                                                                      true, // IsGroupMode
-                                                                      FmhaMask,
-                                                                      FmhaTraits>;
-
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-                using FmhaKernel = FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
+            GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+                using FmhaShape                 = FmhaFwdShape<HDim>;
+                using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
+                constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                constexpr bool kM0NeedPadding   = true;
+                constexpr bool kN0K1NeedPadding = true;
+
+                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                        kN0K1NeedPadding,
+                                                                        kK0N1NeedPadding,
+                                                                        has_attn_bias,
+                                                                        occupancy>;
+
+                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                });
             });
         });
     };

From d1ef4bc8867168f2d60b868ea50b2400a351ae89 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 12 Jan 2024 17:33:08 +0000
Subject: [PATCH 349/837] Use Async pipeline when no any padding used

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 27 +++++++++++++++----
 1 file changed, 22 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 61786c50d7..8131ae37f4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -123,12 +123,29 @@ struct batched_infer_causalmask_attnbias_dispatched
 
                         using FmhaPipelineProblem =
                             FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
-                        using FmhaPipeline =
-                            ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                        using FmhaKernel =
-                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
-                        RunWithKernel<FmhaKernel>(param, stream);
+                        constexpr bool no_any_padding =
+                            !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
+
+                        if constexpr(no_any_padding)
+                        {
+                            using FmhaPipeline =
+                                ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                                    FmhaPipelineProblem>;
+                            using FmhaKernel =
+                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                            RunWithKernel<FmhaKernel>(param, stream);
+                        }
+                        else
+                        {
+                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                                FmhaPipelineProblem>;
+                            using FmhaKernel =
+                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                            RunWithKernel<FmhaKernel>(param, stream);
+                        };
                     });
             });
         });

From 6cb0f605cf6ac698d8b31ef0b2c89dabc8fddb66 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 12 Jan 2024 20:54:56 +0000
Subject: [PATCH 350/837] implement general split-k split-attention in
 libtorch, use for testing

---
 .../hip_fmha/attention_forward_splitk.cpp     | 84 +++++++++++--------
 1 file changed, 51 insertions(+), 33 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index cb0101d6ee..cdd46b0007 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -12,34 +12,53 @@ constexpr int32_t kWavefrontsPerBlock  = 1;
 constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
 } // namespace
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split1_attention_torch(
-    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens)
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens, const int32_t split_k)
 {
     auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
 
-    std::vector<at::Tensor> O_batch;
-    std::vector<at::Tensor> m_batch;
-    std::vector<at::Tensor> l_batch;
-
-    for(size_t b = 0; b < k_seqlens.numel(); ++b) {
-        auto seqlen = k_seqlens[b].item<int64_t>();
-
-        auto S        = at::einsum("mghk, nghk -> mghn",
-                        {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ 0, /*end*/ seqlen)},
-                        /* einsum eval path */ at::nullopt);
-        auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-        auto s = at::exp(at::sub(S, m));
-        auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-        auto O =
-        at::einsum("mghn, nghk -> mghk", {s, at::slice(V[b], /*dim*/ 0, /*start*/ 0, /*end*/ seqlen)}, /* einsum eval path */ at::nullopt);
-        O_batch.push_back(O);
-        m_batch.push_back(m);
-        l_batch.push_back(l);
+    std::vector<at::Tensor> O_splits;
+    std::vector<at::Tensor> m_splits;
+    std::vector<at::Tensor> l_splits;
+
+    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+        std::vector<at::Tensor> O_batch;
+        std::vector<at::Tensor> m_batch;
+        std::vector<at::Tensor> l_batch;
+
+        for(size_t b = 0; b < k_seqlens.numel(); ++b) {
+            auto seqlen = k_seqlens[b].item<int64_t>();
+            const int64_t t_low = split_idx * (seqlen / split_k);
+            const int64_t t_high = (split_idx + 1 < split_k) 
+                                 ? (1 + split_idx) * (seqlen / split_k)
+                                 : seqlen;
+
+            auto S        = at::einsum("mghk, nghk -> mghn",
+                            {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+                            /* einsum eval path */ at::nullopt);
+            auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+            auto s = at::exp(at::sub(S, m));
+            auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+            auto O        = at::einsum("mghn, nghk -> mghk", 
+                            {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)}, 
+                            /* einsum eval path */ at::nullopt);
+            O_batch.push_back(O);
+            m_batch.push_back(m);
+            l_batch.push_back(l);
+        }
+
+        auto O_cat = at::stack(O_batch);
+        auto m_cat = at::stack(m_batch);
+        auto l_cat = at::stack(l_batch);
+
+        O_splits.push_back(O_cat);
+        m_splits.push_back(m_cat);
+        l_splits.push_back(l_cat);
     }
 
-    auto O_cat = at::stack(O_batch);
-    auto m_cat = at::stack(m_batch);
-    auto l_cat = at::stack(l_batch);
+    auto O_cat = at::stack(O_splits);
+    auto m_cat = at::stack(m_splits);
+    auto l_cat = at::stack(l_splits);
 
     return std::make_tuple(O_cat, m_cat, l_cat);
 }
@@ -235,7 +254,7 @@ at::Tensor efficient_attention_forward_decoder_split1_torch(
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale)
 {
-    auto [O_split, m, l] = split1_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens);
+    auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, /*split_k*/ 1);
     auto O               = split1_reduce_torch(O_split, m, l);
     return O.reshape_as(XQ);
 }
@@ -248,10 +267,6 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
     double qk_scale,
     int64_t split_k)
 {
-
-    // return efficient_attention_forward_decoder_split1_torch(XQ, cache_K, cache_V, seq_kv_lens,
-    // qk_scale);
-
     return efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront,
                                                               kWavefrontsPerBlock>(
         XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
@@ -796,13 +811,13 @@ generate_inputs(const int32_t padding,
     return std::make_tuple(XQ, K, V, seqlen);
 }
 
-static void test_split1_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv)
+static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split1_attention_torch(XQ, K, V, seqlen);
+    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k);
 
-    auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, /* split_k */ 1, /* wavefronts_per_block */ 1);
+    auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, split_k, /* wavefronts_per_block */ 1);
 
     auto O_match_mask = at::isclose(O_ref,
                                     O_hip,
@@ -824,11 +839,12 @@ static void test_split1_attention(int32_t padding, int32_t batch_size, int32_t H
     auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
     auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
 
-    printf("Padding=%d BS=%d Hq=%d Hkv=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
+    printf("Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
             padding,
             batch_size,
             Hq,
             Hkv,
+            split_k,
             1. - O_percent_match.item<float>(),
             1. - m_percent_match.item<float>(),
             1. - l_percent_match.item<float>());
@@ -869,7 +885,9 @@ int main(int argc, char** argv)
             for (auto batch_size : {1, 8}) {
                 for (auto Hq : { 16 }) {
                     for (auto Hkv : { 16 }) {
-                        test_split1_attention(padding, batch_size, Hq, Hkv);
+                        for (auto split_k : {1, 2}) {
+                            test_split_attention(padding, batch_size, Hq, Hkv, split_k);
+                        }
                     }
                 }
             }

From 0e04b174d70e6d3738a62904110367d9eef78f1e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 12 Jan 2024 23:37:44 +0000
Subject: [PATCH 351/837] fix split-max and split-sumexp shapes for split
 attention in libtorch

---
 .../csrc/attention/hip_fmha/attention_forward_splitk.cpp    | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index cdd46b0007..2859787b2b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -57,8 +57,8 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
     }
 
     auto O_cat = at::stack(O_splits);
-    auto m_cat = at::stack(m_splits);
-    auto l_cat = at::stack(l_splits);
+    auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+    auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
 
     return std::make_tuple(O_cat, m_cat, l_cat);
 }
@@ -66,7 +66,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
 static at::Tensor
 split1_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m, const at::Tensor& l)
 {
-    return at::div(O_splits, l);
+    return at::div(O_splits, at::transpose(l, 0, -1));
 }
 
 namespace {

From e4d6b886fc30bdbe96bf67d5b1a2dde4f4b0bde7 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 13 Jan 2024 00:22:40 +0000
Subject: [PATCH 352/837] implement generic reduce split attention with
 libtorch

---
 .../hip_fmha/attention_forward_splitk.cpp     | 29 ++++++++++++++++---
 1 file changed, 25 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 2859787b2b..3a08f145dc 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -64,9 +64,30 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
 }
 
 static at::Tensor
-split1_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m, const at::Tensor& l)
-{
-    return at::div(O_splits, at::transpose(l, 0, -1));
+split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const at::Tensor& l_splits, int32_t split_k)
+{   
+    auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+    auto m_current_max = at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+    auto l_current_sum = at::zeros_like(m_current_max);
+
+    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+        auto O_slice = at::slice(O_splits, 0, split_idx, split_idx + 1);
+        auto m_slice = at::slice(m_splits, -1, split_idx, split_idx + 1);
+        auto l_slice = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+        auto m_new = at::max(m_slice, m_current_max);
+
+        auto pick_new = at::less(m_slice, m_current_max);
+        auto pick_our = at::logical_not(pick_new);
+
+        auto log_alpha = at::neg(at::abs(at::sub(m_slice, m_current_max)));
+        auto alpha = at::exp(log_alpha);
+
+        O = at::add(O, at::add(O_slice, at::mul(at::add(at::mul(pick_our, O), at::mul(pick_new, O_slice)), at::sub(alpha, 1))));
+        l_current_sum = at::add(l_current_sum, at::add(l_slice, at::mul(at::add(at::mul(pick_our, l_current_sum), at::mul(pick_new, l_slice)), at::sub(alpha, 1))));
+    }
+    
+    return at::div(O, l_current_sum);
 }
 
 namespace {
@@ -255,7 +276,7 @@ at::Tensor efficient_attention_forward_decoder_split1_torch(
     double qk_scale)
 {
     auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, /*split_k*/ 1);
-    auto O               = split1_reduce_torch(O_split, m, l);
+    auto O               = split_reduce_torch(O_split, m, l, /*split_k*/ 1);
     return O.reshape_as(XQ);
 }
 

From 17ec43051cf4504150ea1e864a26b4e466d3c078 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 13 Jan 2024 02:14:08 +0000
Subject: [PATCH 353/837] implement testing split reduce hip vs libtorch; tbd
 debug split-k=2 numerical mismatch in this test

---
 .../hip_fmha/attention_forward_splitk.cpp     | 242 +++++++++++-------
 1 file changed, 154 insertions(+), 88 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 3a08f145dc..3d106027e8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -338,9 +338,9 @@ namespace tensor_operation {
 namespace device {
 
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplit1DeviceOp : public BaseOperator
+struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator
 {
-    using DeviceOp = FMHADecoderSplit1DeviceOp;
+    using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
     struct Argument : public BaseArgument
     {
         const scalar_t* __restrict__ XQ;
@@ -548,94 +548,65 @@ struct FMHADecoderSplit1DeviceOp : public BaseOperator
 };
 
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderReduceDeviceOp : public BaseOperator
+struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
 {
-    using DeviceOp = FMHADecoderReduceDeviceOp;
+    using DeviceOp = FMHADecoderSplitReduceDeviceOp;
     struct Argument : public BaseArgument
     {
-        const scalar_t* __restrict__ XQ;
-        const scalar_t* __restrict__ cache_K;
-        const scalar_t* __restrict__ cache_V;
+        const scalar_t* __restrict__ split_O;
+        const compute_t* __restrict__ split_max;
+        const compute_t* __restrict__ split_sumexp;
         scalar_t* __restrict__ O;
-        scalar_t* __restrict__ split_O;
-        compute_t* __restrict__ split_max;
-        compute_t* __restrict__ split_sumexp;
-        const int32_t* __restrict__ seq_kv_lens;
-        const ptrdiff_t XQ_stride_b;
-        const ptrdiff_t XQ_stride_m;
-        const ptrdiff_t XQ_stride_g;
-        const ptrdiff_t XQ_stride_h;
-        const ptrdiff_t K_stride_b;
-        const ptrdiff_t K_stride_m;
-        const ptrdiff_t K_stride_g;
-        const ptrdiff_t K_stride_h;
+
+        const int32_t O_size_m;
+        const int32_t O_size_g;
+        const int32_t O_size_h;
+        const int32_t O_size_k;
+
         const ptrdiff_t O_stride_split;
-        const int32_t Q_size_m;
-        const int32_t Q_size_g;
-        const int32_t Q_size_h;
-        const int32_t Q_size_k;
-        const int32_t K_size_m;
-        const bool multiquery;
-        const float qk_scale;
+        const ptrdiff_t O_stride_b;
+        const ptrdiff_t O_stride_m;
+        const ptrdiff_t O_stride_g;
+        const ptrdiff_t O_stride_h;
+
         const int32_t split_k;
 
         const dim3 grid_dim;
         const dim3 block_dim;
         const size_t lds_bytes;
 
-        Argument(const scalar_t* __restrict__ XQ,
-                 const scalar_t* __restrict__ cache_K,
-                 const scalar_t* __restrict__ cache_V,
+        Argument(const scalar_t* __restrict__ split_O,
+                 const compute_t* __restrict__ split_max,
+                 const compute_t* __restrict__ split_sumexp,
                  scalar_t* __restrict__ O,
-                 scalar_t* __restrict__ split_O,
-                 compute_t* __restrict__ split_max,
-                 compute_t* __restrict__ split_sumexp,
-                 const int32_t* __restrict__ seq_kv_lens,
-                 const ptrdiff_t XQ_stride_b,
-                 const ptrdiff_t XQ_stride_m,
-                 const ptrdiff_t XQ_stride_g,
-                 const ptrdiff_t XQ_stride_h,
-                 const ptrdiff_t K_stride_b,
-                 const ptrdiff_t K_stride_m,
-                 const ptrdiff_t K_stride_g,
-                 const ptrdiff_t K_stride_h,
+                 const int32_t O_size_m,
+                 const int32_t O_size_g,
+                 const int32_t O_size_h,
+                 const int32_t O_size_k,
                  const ptrdiff_t O_stride_split,
-                 const int32_t Q_size_m,
-                 const int32_t Q_size_g,
-                 const int32_t Q_size_h,
-                 const int32_t Q_size_k,
-                 const int32_t K_size_m,
-                 const bool multiquery,
-                 const float qk_scale,
+                 const ptrdiff_t O_stride_b,
+                 const ptrdiff_t O_stride_m,
+                 const ptrdiff_t O_stride_g,
+                 const ptrdiff_t O_stride_h,
                  const int32_t split_k,
                  // launch params
                  const dim3 grid_dim,
                  const dim3 block_dim,
                  const size_t lds_bytes)
-            : XQ(XQ),
-              cache_K(cache_K),
-              cache_V(cache_V),
-              O(O),
+            : 
               split_O(split_O),
               split_max(split_max),
               split_sumexp(split_sumexp),
-              seq_kv_lens(seq_kv_lens),
-              XQ_stride_b(XQ_stride_b),
-              XQ_stride_m(XQ_stride_m),
-              XQ_stride_g(XQ_stride_g),
-              XQ_stride_h(XQ_stride_h),
-              K_stride_b(K_stride_b),
-              K_stride_m(K_stride_m),
-              K_stride_g(K_stride_g),
-              K_stride_h(K_stride_h),
+              O(O),              
+              O_size_m(O_size_m),
+              O_size_g(O_size_g),
+              O_size_h(O_size_h),
+              O_size_k(O_size_k),
               O_stride_split(O_stride_split),
-              Q_size_m(Q_size_m),
-              Q_size_g(Q_size_g),
-              Q_size_h(Q_size_h),
-              Q_size_k(Q_size_k),
-              K_size_m(K_size_m),
-              multiquery(multiquery),
-              qk_scale(qk_scale),
+              O_stride_b(O_stride_b),
+              O_stride_m(O_stride_m),
+              O_stride_g(O_stride_g),
+              O_stride_h(O_stride_h),
               split_k(split_k),
               // launch params
               grid_dim(grid_dim),
@@ -652,22 +623,22 @@ struct FMHADecoderReduceDeviceOp : public BaseOperator
         {
             auto threads_per_wavefront = arg.block_dim.x;
 
-            auto Q_size_k_alignment_necessary = 0;
+            auto O_size_k_alignment_necessary = 0;
 
             for(auto vec_size : {4, 2, 1})
             {
-                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
+                if(arg.O_size_k <= vec_size * threads_per_wavefront)
                 {
-                    Q_size_k_alignment_necessary = vec_size;
+                    O_size_k_alignment_necessary = vec_size;
                 }
             }
 
-            if(!Q_size_k_alignment_necessary)
+            if(!O_size_k_alignment_necessary)
             {
                 throw std::runtime_error("Unsupported Q_size_k");
             }
 
-            if(arg.Q_size_k % Q_size_k_alignment_necessary)
+            if(arg.O_size_k % O_size_k_alignment_necessary)
             {
                 throw std::runtime_error("Unsupported alignment for Q_size_k");
             }
@@ -677,11 +648,11 @@ struct FMHADecoderReduceDeviceOp : public BaseOperator
             constexpr int32_t reduce_lds_bytes = 0;
             float reduce_result                = launch_and_time_kernel(
                 stream_config,
-                Q_size_k_alignment_necessary == 4
+                O_size_k_alignment_necessary == 4
                     ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
-                    : Q_size_k_alignment_necessary == 2
+                    : O_size_k_alignment_necessary == 2
                           ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
-                          : Q_size_k_alignment_necessary == 1
+                          : O_size_k_alignment_necessary == 1
                                 ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
                                       scalar_t,
                                       1>
@@ -693,15 +664,15 @@ struct FMHADecoderReduceDeviceOp : public BaseOperator
                 arg.split_max,
                 arg.split_sumexp,
                 arg.O,
-                arg.Q_size_m,
-                arg.Q_size_g,
-                arg.Q_size_h,
-                arg.Q_size_k,
+                arg.O_size_m,
+                arg.O_size_g,
+                arg.O_size_h,
+                arg.O_size_k,
                 arg.O_stride_split,
-                arg.XQ_stride_b,
-                arg.XQ_stride_m,
-                arg.XQ_stride_g,
-                arg.XQ_stride_h,
+                arg.O_stride_b,
+                arg.O_stride_m,
+                arg.O_stride_g,
+                arg.O_stride_h,
                 arg.split_k);
             return reduce_result;
         }
@@ -752,10 +723,10 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
         at::ScalarType::BFloat16,
         at::ScalarType::Float,
         XQ.scalar_type(),
-        "efficient_attention_forward_decoder_split1_ck_test",
+        "efficient_attention_forward_decoder_split_attention_ck_test",
         [&] {
             using ck_data_t   = c10_to_data_t<scalar_t>::type;
-            using device_op_t = ck::tensor_operation::device::FMHADecoderSplit1DeviceOp<ck_data_t>;
+            using device_op_t = ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<ck_data_t>;
             auto op           = device_op_t{};
 
             auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
@@ -804,6 +775,76 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
     return std::make_tuple(split_O, split_max, split_sumexp);
 }
 
+static
+at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_max, const at::Tensor& split_sumexp, const int32_t split_k) {
+    at::OptionalDeviceGuard guard(split_O.device());
+
+    auto B = split_O.size(1);
+    auto M = split_O.size(2);
+    auto G = split_O.size(3);
+    auto H = split_O.size(4);
+    auto D = split_O.size(5);
+
+    TORCH_CHECK_EQ(split_k, split_O.size(0));
+    TORCH_CHECK_EQ(split_k, split_max.size(-1));
+    TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
+
+    constexpr auto rank       = 5;
+
+    TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
+    TORCH_CHECK_EQ(split_max.dim(), rank);
+    TORCH_CHECK_EQ(split_sumexp.dim(), rank);
+
+    auto O = at::empty({B, M, G, H, D}, split_O.options());
+
+    auto stream            = at::cuda::getCurrentHIPStream().stream();
+    auto lds_bytes = 0;
+
+    dim3 blocks(B * H * M * G);
+    dim3 threads(kThreadsPerWavefront);
+
+    AT_DISPATCH_SWITCH_3(
+        at::ScalarType::Half,
+        at::ScalarType::BFloat16,
+        at::ScalarType::Float,
+        O.scalar_type(),
+        "efficient_attention_forward_decoder_split_reduce_ck_test",
+        [&] {
+            using ck_data_t   = c10_to_data_t<scalar_t>::type;
+            using device_op_t = ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<ck_data_t>;
+            auto op           = device_op_t{};
+
+            auto split_O_acc =
+                split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+            auto O_acc   = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+            auto split_sumexp_acc =
+                split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+            auto arg = device_op_t::Argument(
+                reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
+                split_max_acc.data(),
+                split_sumexp_acc.data(),
+                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+                O_acc.size(1),
+                O_acc.size(2),
+                O_acc.size(3),
+                O_acc.size(4),
+                split_O_acc.stride(0),
+                split_O_acc.stride(1),
+                split_O_acc.stride(2),
+                split_O_acc.stride(3),
+                split_O_acc.stride(4),
+                split_k,
+                blocks,
+                threads,
+                lds_bytes);
+
+            auto invoker = device_op_t::Invoker{};
+            (void)invoker.Run(arg, {stream});
+        });
+    return O;
+}
+
 std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
 generate_inputs(const int32_t padding,
                 const int32_t B,
@@ -860,7 +901,7 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
     auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
     auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
 
-    printf("Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
+    printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
             padding,
             batch_size,
             Hq,
@@ -872,6 +913,19 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
 
 }
 
+static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k) {
+    auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k);
+
+    auto O_torch = split_reduce_torch(O_ref, m_ref, l_ref, split_k);
+    auto O_hip = split_reduce_hip(O_ref, m_ref.squeeze(0), l_ref.squeeze(0), split_k);
+
+    auto mask = at::isclose(O_torch, O_hip, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, 1. - percent_match.item<float>());
+}
+
 static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
@@ -883,7 +937,7 @@ static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_s
     auto gold_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
     auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
     auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    printf("Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, 1. - percent_match.item<float>());
+    printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, 1. - percent_match.item<float>());
 }
 
 int main(int argc, char** argv)
@@ -913,6 +967,18 @@ int main(int argc, char** argv)
                 }
             }
         }
+
+        for (auto padding : {32, 4096}) {
+            for (auto batch_size : {1, 8}) {
+                for (auto Hq : { 16 }) {
+                    for (auto Hkv : { 16 }) {
+                        for (auto split_k : {1, 2}) {
+                            test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
+                        }
+                    }
+                }
+            }
+        }
     }
     else
     {

From 69f2f0a901bbd60a0bc039f071e30ff993d130ca Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 15 Jan 2024 18:49:50 +0000
Subject: [PATCH 354/837] refactor repetitive testing code

---
 .../hip_fmha/attention_forward_splitk.cpp     | 55 +++++++++----------
 1 file changed, 25 insertions(+), 30 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 3d106027e8..cd399d0ec9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -82,6 +82,7 @@ split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const
 
         auto log_alpha = at::neg(at::abs(at::sub(m_slice, m_current_max)));
         auto alpha = at::exp(log_alpha);
+        alpha.nan_to_num_(1.);
 
         O = at::add(O, at::add(O_slice, at::mul(at::add(at::mul(pick_our, O), at::mul(pick_new, O_slice)), at::sub(alpha, 1))));
         l_current_sum = at::add(l_current_sum, at::add(l_slice, at::mul(at::add(at::mul(pick_our, l_current_sum), at::mul(pick_new, l_slice)), at::sub(alpha, 1))));
@@ -795,7 +796,7 @@ at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_m
     TORCH_CHECK_EQ(split_max.dim(), rank);
     TORCH_CHECK_EQ(split_sumexp.dim(), rank);
 
-    auto O = at::empty({B, M, G, H, D}, split_O.options());
+    auto O = at::zeros({B, M, G, H, D}, split_O.options());
 
     auto stream            = at::cuda::getCurrentHIPStream().stream();
     auto lds_bytes = 0;
@@ -873,6 +874,12 @@ generate_inputs(const int32_t padding,
     return std::make_tuple(XQ, K, V, seqlen);
 }
 
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
+    auto mask = at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+    return 1. - percent_match.item<float>();
+}
+
 static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
@@ -881,25 +888,9 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
 
     auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, split_k, /* wavefronts_per_block */ 1);
 
-    auto O_match_mask = at::isclose(O_ref,
-                                    O_hip,
-                                    /*atol*/ 1e-3,
-                                    /*rtol*/ 1e-5,
-                                    /*equal_nan*/ false);
-    auto m_match_mask = at::isclose(m_ref,
-                                    m_hip,
-                                    /*atol*/ 1e-3,
-                                    /*rtol*/ 1e-5,
-                                    /*equal_nan*/ false);
-    auto l_match_mask = at::isclose(l_ref,
-                                    l_hip,
-                                    /*atol*/ 1e-3,
-                                    /*rtol*/ 1e-5,
-                                    /*equal_nan*/ false);
-
-    auto O_percent_match = at::sum(O_match_mask.to(torch::kFloat32)) / O_match_mask.numel();
-    auto m_percent_match = at::sum(m_match_mask.to(torch::kFloat32)) / m_match_mask.numel();
-    auto l_percent_match = at::sum(l_match_mask.to(torch::kFloat32)) / l_match_mask.numel();
+    auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
+    auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
+    auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
 
     printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
             padding,
@@ -907,10 +898,9 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
             Hq,
             Hkv,
             split_k,
-            1. - O_percent_match.item<float>(),
-            1. - m_percent_match.item<float>(),
-            1. - l_percent_match.item<float>());
-
+            O_percent_mismatch,
+            m_percent_mismatch,
+            l_percent_mismatch);
 }
 
 static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k) {
@@ -921,9 +911,15 @@ static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, i
     auto O_torch = split_reduce_torch(O_ref, m_ref, l_ref, split_k);
     auto O_hip = split_reduce_hip(O_ref, m_ref.squeeze(0), l_ref.squeeze(0), split_k);
 
-    auto mask = at::isclose(O_torch, O_hip, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, 1. - percent_match.item<float>());
+    double qk_scale = 1. / sqrt(XQ.size(-1));
+    auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
+        XQ, K, V, seqlen, qk_scale, split_k);
+
+    auto hip_gold_mismatch = percent_mismatch(O_hip, gold_result);
+    auto torch_gold_mismatch = percent_mismatch(O_torch, gold_result);
+    auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
+    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f hip_gold: %.2f torch_gold: %.2f \n", 
+        padding, batch_size, Hq, Hkv, split_k, hip_torch_mismatch, hip_gold_mismatch, torch_gold_mismatch);
 }
 
 static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
@@ -935,9 +931,8 @@ static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_s
     auto result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
         XQ, K, V, seqlen, qk_scale, split_k);
     auto gold_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
-    auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, 1. - percent_match.item<float>());
+    auto e2e_mismatch = percent_mismatch(result, gold_result);
+    printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, e2e_mismatch);
 }
 
 int main(int argc, char** argv)

From 2d54085f3499a306a6b0dc4ae79c9d888b8f50c2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 15 Jan 2024 20:00:00 +0000
Subject: [PATCH 355/837] address code review: rearrange loops

---
 .../ck_attention_forward_decoder_splitk.h     | 19 +++++++------------
 1 file changed, 7 insertions(+), 12 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index d2086405b9..c2cd9345d1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -293,24 +293,19 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                 load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
             }
         }
-        compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
         for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
         {
+            compute_t qk_acc = 0;
             ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                q_thread, k_loads[ttt], qk_accs[ttt]);
-            qk_accs[ttt] *= qk_scale;
+                q_thread, k_loads[ttt], qk_acc);
+            qk_acc  *= qk_scale;
 
-            qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-            max_qk_acc   = ck::math::max(qk_accs[ttt], max_qk_acc);
-        }
-        if(lane_idx == 0)
-        {
-            auto* __restrict__ smem_base = smem + tt;
-#pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
+            qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+            max_qk_acc   = ck::math::max(qk_acc, max_qk_acc);
+            if(lane_idx == 0)
             {
-                smem_base[ttt] = qk_accs[ttt];
+                smem[tt + ttt] = qk_acc;
             }
         }
     }

From f937f064562d5c63bf94ea11411f687e8b813fa0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 15 Jan 2024 20:03:38 +0000
Subject: [PATCH 356/837] address code review: add comment about number of
 iterations per split

---
 .../attention/hip_fmha/ck_attention_forward_decoder_splitk.h    | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index c2cd9345d1..9f3c9c7123 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -272,6 +272,8 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     data_vec_t k_loads[n_loop_unroll] = {};
 
     const auto dtt              = wavefronts_per_block * n_loop_unroll;
+    // only last split gets the tail.
+    // the first (split_k - 1) splits have a number of iterations divisible by `dtt`
     const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
     const int32_t tt_low = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
     const int32_t tt_high =

From 7f6b01f7462bd5c587274c6d028050ac852bbadd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 15 Jan 2024 22:29:51 +0000
Subject: [PATCH 357/837] address code review: remove comments

---
 .../attention/hip_fmha/ck_attention_forward_decoder_splitk.h   | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 9f3c9c7123..f58fd27326 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -312,7 +312,6 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
         }
     }
 
-    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
     for(auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail)
     {
         if(lane_active_for_io)
@@ -465,8 +464,6 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
             }
         }
     }
-    // now, each thread has partial sums. Write to smem and get accumulated
-    // results back.
     __syncthreads();
 
     // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock

From 187a4bc089a450eda1ea32f3f515781439651776 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 15 Jan 2024 22:39:15 +0000
Subject: [PATCH 358/837] address code review: possibly eliminate a bug by
 using correct timestep range for scaling sumexp in smem

---
 .../hip_fmha/ck_attention_forward_decoder_splitk.h         | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index f58fd27326..e08fe6c088 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -405,8 +405,11 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     // now, compute the normalization across all threads.
     for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
     {
-        // softmax scale by sumexp will happen in the reduction kernel
-        smem[t] = ck::math::exp(smem[t] - max_qk_acc);
+        if (t >= tt_low && t < tt_tail_high)
+        {
+            // softmax scale by sumexp will happen in the reduction kernel
+            smem[t] = ck::math::exp(smem[t] - max_qk_acc);
+        }
     }
     __syncthreads();
 

From b157cbae0cba3973cffeac73de474f085713bc9e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 15 Jan 2024 22:48:53 +0000
Subject: [PATCH 359/837] address code review: add todo

---
 .../attention/hip_fmha/ck_attention_forward_decoder_splitk.h    | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index e08fe6c088..419a363940 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -227,6 +227,8 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
 
     const int32_t lane_idx              = threadIdx.x;
     const int32_t wavefront_idx         = threadIdx.y;
+    // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile time constants;
+    // investigate when optimizing
     const int32_t threads_per_wavefront = blockDim.x;
     const int32_t wavefronts_per_block  = blockDim.y;
     const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;

From 8581811e97f54c712c27ffa2849e54e4d0a9282b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 16 Jan 2024 19:12:10 +0000
Subject: [PATCH 360/837] address code review: shift LDS access by tt_low to
 avoid smem overbooking

---
 .../hip_fmha/attention_forward_splitk.cpp     | 45 ++++++++++++++++---
 .../ck_attention_forward_decoder_splitk.h     | 15 ++++---
 2 files changed, 47 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index cd399d0ec9..3fad4afddf 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -615,6 +615,34 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
               lds_bytes(lds_bytes)
         {
         }
+
+        std::string str() const
+        {
+            std::ostringstream oss;
+            oss << "Argument { " << std::endl
+                << "    O: " << O << std::endl
+                << "    split_O: " << split_O << std::endl
+                << "    split_max: " << split_max << std::endl
+                << "    split_sumexp: " << split_sumexp << std::endl
+                << "    O_stride_b: " << O_stride_b << std::endl
+                << "    O_stride_m: " << O_stride_m << std::endl
+                << "    O_stride_g: " << O_stride_g << std::endl
+                << "    O_stride_h: " << O_stride_h << std::endl
+                << "    O_stride_split: " << O_stride_split << std::endl
+                << "    O_size_m: " << O_size_m << std::endl
+                << "    O_size_g: " << O_size_g << std::endl
+                << "    O_size_h: " << O_size_h << std::endl
+                << "    O_size_k: " << O_size_k << std::endl
+                << "    split_k: " << split_k << std::endl
+                << std::endl
+                << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z
+                << std::endl
+                << "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z
+                << std::endl
+                << "    lds_bytes: " << lds_bytes << std::endl
+                << "}";
+            return oss.str();
+        }
     };
 
     struct Invoker : public BaseInvoker
@@ -624,6 +652,9 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
         {
             auto threads_per_wavefront = arg.block_dim.x;
 
+            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ <<
+            // std::endl;
+
             auto O_size_k_alignment_necessary = 0;
 
             for(auto vec_size : {4, 2, 1})
@@ -831,10 +862,10 @@ at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_m
                 O_acc.size(3),
                 O_acc.size(4),
                 split_O_acc.stride(0),
-                split_O_acc.stride(1),
-                split_O_acc.stride(2),
-                split_O_acc.stride(3),
-                split_O_acc.stride(4),
+                O_acc.stride(0),
+                O_acc.stride(1),
+                O_acc.stride(2),
+                O_acc.stride(3),
                 split_k,
                 blocks,
                 threads,
@@ -914,12 +945,14 @@ static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, i
     double qk_scale = 1. / sqrt(XQ.size(-1));
     auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
         XQ, K, V, seqlen, qk_scale, split_k);
+    auto torch1_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
 
     auto hip_gold_mismatch = percent_mismatch(O_hip, gold_result);
     auto torch_gold_mismatch = percent_mismatch(O_torch, gold_result);
     auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f hip_gold: %.2f torch_gold: %.2f \n", 
-        padding, batch_size, Hq, Hkv, split_k, hip_torch_mismatch, hip_gold_mismatch, torch_gold_mismatch);
+    auto gold_torch1_mismatch = percent_mismatch(gold_result, torch1_result);
+    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f hip_gold: %.2f torch_gold: %.2f torch1_gold: %.2f \n", 
+        padding, batch_size, Hq, Hkv, split_k, hip_torch_mismatch, hip_gold_mismatch, torch_gold_mismatch, gold_torch1_mismatch);
 }
 
 static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 419a363940..942d70e4a4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -309,7 +309,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
             max_qk_acc   = ck::math::max(qk_acc, max_qk_acc);
             if(lane_idx == 0)
             {
-                smem[tt + ttt] = qk_acc;
+                smem[tt + ttt - tt_low] = qk_acc;
             }
         }
     }
@@ -347,7 +347,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                 // write accumulated sums to smem.
                 if(lane_idx == 0)
                 {
-                    smem[t] = qk_acc;
+                    smem[t - tt_low] = qk_acc;
                 }
             }
         }
@@ -378,7 +378,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     {
         if(t >= tt_low && t < tt_tail_high)
         {
-            softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+            softmax_denominator += ck::math::exp(smem[t - tt_low] - max_qk_acc);
         }
     }
     softmax_denominator =
@@ -410,7 +410,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
         if (t >= tt_low && t < tt_tail_high)
         {
             // softmax scale by sumexp will happen in the reduction kernel
-            smem[t] = ck::math::exp(smem[t] - max_qk_acc);
+            smem[t - tt_low] = ck::math::exp(smem[t - tt_low] - max_qk_acc);
         }
     }
     __syncthreads();
@@ -432,7 +432,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                 // load the V[b][t][g][h|0][:] row into registers, reusing K register
                 // storage
                 load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                ps[ttt] = smem[t];
+                ps[ttt] = smem[t - tt_low];
             }
 
 #pragma unroll n_loop_unroll
@@ -454,7 +454,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                     // storage
                     load_v<data_t, data_vec_t>(
                         cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                    ps[ttt] = smem[t];
+                    ps[ttt] = smem[t - tt_low];
                 }
             }
 
@@ -657,7 +657,8 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator
         using Argument = DeviceOp::Argument;
         float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
         {
-
+            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ << std::endl;
+            
             auto threads_per_wavefront = arg.block_dim.x;
 
             auto Q_size_k_alignment_necessary = 0;

From b1638ad988a1af1b8a33684929ee76bb39c94bbb Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 16 Jan 2024 20:58:45 +0000
Subject: [PATCH 361/837] address code review: simplify reduction loops in
 split attention

---
 .../ck_attention_forward_decoder_splitk.h        | 16 +++++-----------
 1 file changed, 5 insertions(+), 11 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 942d70e4a4..e655cdfe57 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -374,12 +374,9 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
 
     // each wavefront computes partial sum of exp.
     compute_t softmax_denominator = 0.0f;
-    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    for(int32_t t = tt_low + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
     {
-        if(t >= tt_low && t < tt_tail_high)
-        {
-            softmax_denominator += ck::math::exp(smem[t - tt_low] - max_qk_acc);
-        }
+        softmax_denominator += ck::math::exp(smem[t - tt_low] - max_qk_acc);
     }
     softmax_denominator =
         wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
@@ -405,13 +402,10 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     }
 
     // now, compute the normalization across all threads.
-    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
+    for(int32_t t = tt_low + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
     {
-        if (t >= tt_low && t < tt_tail_high)
-        {
-            // softmax scale by sumexp will happen in the reduction kernel
-            smem[t - tt_low] = ck::math::exp(smem[t - tt_low] - max_qk_acc);
-        }
+        // softmax scale by sumexp will happen in the reduction kernel
+        smem[t - tt_low] = ck::math::exp(smem[t - tt_low] - max_qk_acc);
     }
     __syncthreads();
 

From 10e76ab56c8f78b88206691b596f902624b88347 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 17 Jan 2024 15:39:48 +0000
Subject: [PATCH 362/837] Tiny update in ck-tiled forward kernel

---
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 24 ++++++++-----------
 1 file changed, 10 insertions(+), 14 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index a248f35252..034c0178eb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -566,15 +566,13 @@ struct FmhaFwdKernel
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
                             left_size, right_size, kargs.seqlen_q, kargs.seqlen_k);
                     }
-                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft)
-                    {
-                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, true);
-                    }
-                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromBottomRight)
+                    else
                     {
+                        bool is_topleft =
+                            (kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft);
+
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, false);
+                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, is_topleft);
                     }
                 }
                 else
@@ -584,15 +582,13 @@ struct FmhaFwdKernel
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
                             -1, -1, kargs.seqlen_q, kargs.seqlen_k);
                     }
-                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft)
-                    {
-                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            -1, 0, kargs.seqlen_q, kargs.seqlen_k, true);
-                    }
-                    else if(kargs.mask_type == CausalMaskType::MaskUpperTriangleFromBottomRight)
+                    else
                     {
+                        bool is_topleft =
+                            (kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft);
+
                         res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            -1, 0, kargs.seqlen_q, kargs.seqlen_k, false);
+                            -1, 0, kargs.seqlen_q, kargs.seqlen_k, is_topleft);
                     }
                 }
 

From 67009e0acee5b3f3dbabff7b087a2282aeb1ca16 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jan 2024 18:29:25 +0000
Subject: [PATCH 363/837] address code review: merge for loops

---
 .../hip_fmha/ck_attention_forward_decoder_splitk.h       | 9 ---------
 1 file changed, 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index e655cdfe57..5fffd02baf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -449,15 +449,6 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                     load_v<data_t, data_vec_t>(
                         cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
                     ps[ttt] = smem[t - tt_low];
-                }
-            }
-
-#pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
                     o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
                 }
             }

From 8673fa9752a071d7ebe64fe43c003bfc37eaaa99 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jan 2024 19:13:16 +0000
Subject: [PATCH 364/837] address code review: simplify coefficient pick

---
 .../csrc/attention/hip_fmha/attention_forward_splitk.cpp | 9 +++++----
 .../hip_fmha/ck_attention_forward_decoder_splitk.h       | 9 ++++-----
 2 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 3fad4afddf..6abb09c8e4 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -78,14 +78,15 @@ split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const
         auto m_new = at::max(m_slice, m_current_max);
 
         auto pick_new = at::less(m_slice, m_current_max);
-        auto pick_our = at::logical_not(pick_new);
 
         auto log_alpha = at::neg(at::abs(at::sub(m_slice, m_current_max)));
         auto alpha = at::exp(log_alpha);
         alpha.nan_to_num_(1.);
-
-        O = at::add(O, at::add(O_slice, at::mul(at::add(at::mul(pick_our, O), at::mul(pick_new, O_slice)), at::sub(alpha, 1))));
-        l_current_sum = at::add(l_current_sum, at::add(l_slice, at::mul(at::add(at::mul(pick_our, l_current_sum), at::mul(pick_new, l_slice)), at::sub(alpha, 1))));
+        auto pick_current_coef = at::where(pick_new, 1., alpha);
+        auto pick_new_coef = at::where(pick_new, alpha, 1.);
+        O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, O_slice));
+        l_current_sum = at::add(at::mul(pick_current_coef, l_current_sum), at::mul(pick_new_coef, l_slice));
+        m_current_max = m_new;
     }
     
     return at::div(O, l_current_sum);
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 5fffd02baf..9f1d03b5ed 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -138,7 +138,6 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
     //       l_current_sum.isnan().any(), "l acc is nan" m_current_max = m_new
     //   out /= l_current_sum
 
-    compute_t new_max       = 0;
     compute_t global_sumexp = 0;
     compute_t global_max    = ck::NumericLimits<compute_t>::Lowest();
 
@@ -155,12 +154,12 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
         }
         compute_t local_max         = *(split_max + blockIdx.x * split_k + split_idx);
         compute_t local_sumexp      = *(split_sumexp + blockIdx.x * split_k + split_idx);
-        new_max                     = ck::math::max(local_max, global_max);
+        compute_t new_max           = ck::math::max(local_max, global_max);
         bool pick_new               = local_max < global_max;
         compute_t log_alpha         = -std::abs(local_max - global_max);
-        compute_t alpha             = isnan(log_alpha) ? compute_t{1} : ck::math::exp(log_alpha);
-        compute_t pick_current_coef = (1 + (1 - pick_new) * (alpha - 1));
-        compute_t pick_new_coef     = (1 + pick_new * (alpha - 1));
+        compute_t alpha             = isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+        compute_t pick_current_coef = pick_new ? 1. : alpha;
+        compute_t pick_new_coef     = pick_new ? alpha : 1.;
         global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
         global_O_compute.vec =
             pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;

From 3427dccea12674da1ff7f8a8b3a973aef7785544 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jan 2024 19:24:12 +0000
Subject: [PATCH 365/837] fix runtime error message in testing code

---
 xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 6abb09c8e4..23ec3cf6c8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -668,12 +668,12 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
 
             if(!O_size_k_alignment_necessary)
             {
-                throw std::runtime_error("Unsupported Q_size_k");
+                throw std::runtime_error("Unsupported O_size_k");
             }
 
             if(arg.O_size_k % O_size_k_alignment_necessary)
             {
-                throw std::runtime_error("Unsupported alignment for Q_size_k");
+                throw std::runtime_error("Unsupported alignment for O_size_k");
             }
 
             const dim3 reduce_gridsize         = {arg.grid_dim.x};

From 2e11d329fc27398ff202c6f8457093b03642fc82 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jan 2024 19:32:29 +0000
Subject: [PATCH 366/837] fix split reduce test

---
 .../hip_fmha/attention_forward_splitk.cpp      | 18 +++++-------------
 1 file changed, 5 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 23ec3cf6c8..dd305866fb 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -938,22 +938,14 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
 static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k) {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k);
-
-    auto O_torch = split_reduce_torch(O_ref, m_ref, l_ref, split_k);
-    auto O_hip = split_reduce_hip(O_ref, m_ref.squeeze(0), l_ref.squeeze(0), split_k);
+    auto [O_ref, m_ref, l_ref] = split_attention_hip(XQ, K, V, seqlen, split_k, /* wavefronts_per_block */ 1);
 
-    double qk_scale = 1. / sqrt(XQ.size(-1));
-    auto gold_result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
-        XQ, K, V, seqlen, qk_scale, split_k);
-    auto torch1_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
+    auto O_torch = split_reduce_torch(O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
+    auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
 
-    auto hip_gold_mismatch = percent_mismatch(O_hip, gold_result);
-    auto torch_gold_mismatch = percent_mismatch(O_torch, gold_result);
     auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-    auto gold_torch1_mismatch = percent_mismatch(gold_result, torch1_result);
-    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f hip_gold: %.2f torch_gold: %.2f torch1_gold: %.2f \n", 
-        padding, batch_size, Hq, Hkv, split_k, hip_torch_mismatch, hip_gold_mismatch, torch_gold_mismatch, gold_torch1_mismatch);
+    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f \n", 
+        padding, batch_size, Hq, Hkv, split_k, hip_torch_mismatch);
 }
 
 static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)

From dabc771db9f03a6afc5a4280ecbbda95ecfc071f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jan 2024 19:43:34 +0000
Subject: [PATCH 367/837] address code review: fix smem offsets

---
 .../hip_fmha/ck_attention_forward_decoder_splitk.h   | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 9f1d03b5ed..bbb0da232a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -308,7 +308,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
             max_qk_acc   = ck::math::max(qk_acc, max_qk_acc);
             if(lane_idx == 0)
             {
-                smem[tt + ttt - tt_low] = qk_acc;
+                smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
             }
         }
     }
@@ -346,7 +346,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                 // write accumulated sums to smem.
                 if(lane_idx == 0)
                 {
-                    smem[t - tt_low] = qk_acc;
+                    smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
                 }
             }
         }
@@ -375,7 +375,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     compute_t softmax_denominator = 0.0f;
     for(int32_t t = tt_low + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
     {
-        softmax_denominator += ck::math::exp(smem[t - tt_low] - max_qk_acc);
+        softmax_denominator += ck::math::exp(smem[t - n_unrolled_loops * dtt * split_idx] - max_qk_acc);
     }
     softmax_denominator =
         wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
@@ -404,7 +404,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     for(int32_t t = tt_low + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
     {
         // softmax scale by sumexp will happen in the reduction kernel
-        smem[t - tt_low] = ck::math::exp(smem[t - tt_low] - max_qk_acc);
+        smem[t - n_unrolled_loops * dtt * split_idx] = ck::math::exp(smem[t - n_unrolled_loops * dtt * split_idx] - max_qk_acc);
     }
     __syncthreads();
 
@@ -425,7 +425,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                 // load the V[b][t][g][h|0][:] row into registers, reusing K register
                 // storage
                 load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                ps[ttt] = smem[t - tt_low];
+                ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
             }
 
 #pragma unroll n_loop_unroll
@@ -447,7 +447,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                     // storage
                     load_v<data_t, data_vec_t>(
                         cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                    ps[ttt] = smem[t - tt_low];
+                    ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
                     o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
                 }
             }

From 6f1d5df0bd0ea7f6fa0c5378570d221fca477c3b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jan 2024 19:47:03 +0000
Subject: [PATCH 368/837] remove redundant comment

---
 .../ck_attention_forward_decoder_splitk.h     | 19 -------------------
 1 file changed, 19 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index bbb0da232a..87865db981 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -119,25 +119,6 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
         return;
     }
 
-    // for s in slices:
-    //       attn_slice = s["attn_slice"]
-    //       m = s["row_max"]
-    //       l = s["row_lse"]
-    //       m_new = torch.max(m, m_current_max)
-    //       assert not m_new.isnan().any(), "m_new is nan"
-    //       pick_new = m < m_current_max
-    //       pick_our = torch.logical_not(pick_new)
-
-    //       log_alpha = -torch.abs(m - m_current_max)
-    //       log_alpha[log_alpha.isnan()] = 0
-    //       alpha = torch.exp(log_alpha)
-    //       assert not alpha.isnan().any(), "alpha is nan"
-    //       out = out + attn_slice + (pick_our * out + pick_new * attn_slice) * (torch.sub(alpha,
-    //       1)) assert not out.isnan().any(), "out acc is nan" l_current_sum = l_current_sum + l +
-    //       (pick_our * l_current_sum + pick_new * l) * (torch.sub(alpha, 1)) assert not
-    //       l_current_sum.isnan().any(), "l acc is nan" m_current_max = m_new
-    //   out /= l_current_sum
-
     compute_t global_sumexp = 0;
     compute_t global_max    = ck::NumericLimits<compute_t>::Lowest();
 

From 8ee60d7f9470c4f469641385e73804743b08aff0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 18:36:13 +0000
Subject: [PATCH 369/837] address code review: initialize split attention
 workspace as empty

---
 .../csrc/attention/hip_fmha/attention_forward_splitk.cpp  | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index dd305866fb..02f40bd8a5 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -258,11 +258,9 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     auto H = XQ.size(3);
     auto K = XQ.size(4);
 
-    auto O_splits = at::zeros({split_k, B, M, G, H, K}, XQ.options());
-
-    auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-                         .fill_(ck::NumericLimits<float>::Lowest());
-    auto split_sumexp = at::zeros_like(split_max);
+    auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+    auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
 
     efficient_attention_forward_decoder_splitk_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
         XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);

From ff985d23aeea78d42c6c96c3a9d48c509eeaf80e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 18:49:04 +0000
Subject: [PATCH 370/837] address code review: rename local vars

---
 .../hip_fmha/attention_forward_splitk.cpp     | 188 +++++++++---------
 1 file changed, 95 insertions(+), 93 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 02f40bd8a5..b57110bfce 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -12,86 +12,6 @@ constexpr int32_t kWavefrontsPerBlock  = 1;
 constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
 } // namespace
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens, const int32_t split_k)
-{
-    auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-    std::vector<at::Tensor> O_splits;
-    std::vector<at::Tensor> m_splits;
-    std::vector<at::Tensor> l_splits;
-
-    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-        std::vector<at::Tensor> O_batch;
-        std::vector<at::Tensor> m_batch;
-        std::vector<at::Tensor> l_batch;
-
-        for(size_t b = 0; b < k_seqlens.numel(); ++b) {
-            auto seqlen = k_seqlens[b].item<int64_t>();
-            const int64_t t_low = split_idx * (seqlen / split_k);
-            const int64_t t_high = (split_idx + 1 < split_k) 
-                                 ? (1 + split_idx) * (seqlen / split_k)
-                                 : seqlen;
-
-            auto S        = at::einsum("mghk, nghk -> mghn",
-                            {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-                            /* einsum eval path */ at::nullopt);
-            auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-            auto s = at::exp(at::sub(S, m));
-            auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-            auto O        = at::einsum("mghn, nghk -> mghk", 
-                            {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)}, 
-                            /* einsum eval path */ at::nullopt);
-            O_batch.push_back(O);
-            m_batch.push_back(m);
-            l_batch.push_back(l);
-        }
-
-        auto O_cat = at::stack(O_batch);
-        auto m_cat = at::stack(m_batch);
-        auto l_cat = at::stack(l_batch);
-
-        O_splits.push_back(O_cat);
-        m_splits.push_back(m_cat);
-        l_splits.push_back(l_cat);
-    }
-
-    auto O_cat = at::stack(O_splits);
-    auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-    auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
-
-    return std::make_tuple(O_cat, m_cat, l_cat);
-}
-
-static at::Tensor
-split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const at::Tensor& l_splits, int32_t split_k)
-{   
-    auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-    auto m_current_max = at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-    auto l_current_sum = at::zeros_like(m_current_max);
-
-    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-        auto O_slice = at::slice(O_splits, 0, split_idx, split_idx + 1);
-        auto m_slice = at::slice(m_splits, -1, split_idx, split_idx + 1);
-        auto l_slice = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-        auto m_new = at::max(m_slice, m_current_max);
-
-        auto pick_new = at::less(m_slice, m_current_max);
-
-        auto log_alpha = at::neg(at::abs(at::sub(m_slice, m_current_max)));
-        auto alpha = at::exp(log_alpha);
-        alpha.nan_to_num_(1.);
-        auto pick_current_coef = at::where(pick_new, 1., alpha);
-        auto pick_new_coef = at::where(pick_new, alpha, 1.);
-        O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, O_slice));
-        l_current_sum = at::add(at::mul(pick_current_coef, l_current_sum), at::mul(pick_new_coef, l_slice));
-        m_current_max = m_new;
-    }
-    
-    return at::div(O, l_current_sum);
-}
-
 namespace {
 
 template <typename c10_t>
@@ -268,18 +188,6 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     return O;
 }
 
-at::Tensor efficient_attention_forward_decoder_split1_torch(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale)
-{
-    auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, /*split_k*/ 1);
-    auto O               = split_reduce_torch(O_split, m, l, /*split_k*/ 1);
-    return O.reshape_as(XQ);
-}
-
 at::Tensor efficient_attention_forward_decoder_splitk_ck(
     const at::Tensor& XQ,                 // [B, 1, G, H, D]
     const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
@@ -333,6 +241,100 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m)
 
 // clang-format on
 
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens, const int32_t split_k)
+{
+    auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+
+    std::vector<at::Tensor> O_splits;
+    std::vector<at::Tensor> m_splits;
+    std::vector<at::Tensor> l_splits;
+
+    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+        std::vector<at::Tensor> O_batch;
+        std::vector<at::Tensor> m_batch;
+        std::vector<at::Tensor> l_batch;
+
+        for(size_t b = 0; b < k_seqlens.numel(); ++b) {
+            auto seqlen = k_seqlens[b].item<int64_t>();
+            const int64_t t_low = split_idx * (seqlen / split_k);
+            const int64_t t_high = (split_idx + 1 < split_k) 
+                                 ? (1 + split_idx) * (seqlen / split_k)
+                                 : seqlen;
+
+            auto S        = at::einsum("mghk, nghk -> mghn",
+                            {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+                            /* einsum eval path */ at::nullopt);
+            auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+            auto s = at::exp(at::sub(S, m));
+            auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+            auto O        = at::einsum("mghn, nghk -> mghk", 
+                            {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)}, 
+                            /* einsum eval path */ at::nullopt);
+            O_batch.push_back(O);
+            m_batch.push_back(m);
+            l_batch.push_back(l);
+        }
+
+        auto O_cat = at::stack(O_batch);
+        auto m_cat = at::stack(m_batch);
+        auto l_cat = at::stack(l_batch);
+
+        O_splits.push_back(O_cat);
+        m_splits.push_back(m_cat);
+        l_splits.push_back(l_cat);
+    }
+
+    auto O_cat = at::stack(O_splits);
+    auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+    auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
+
+    return std::make_tuple(O_cat, m_cat, l_cat);
+}
+
+static at::Tensor
+split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const at::Tensor& l_splits, int32_t split_k)
+{   
+    auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+    auto global_max = at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+    auto global_sumexp = at::zeros_like(global_max);
+
+    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+        auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
+        auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+        auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+        auto new_max = at::max(local_max, global_max);
+
+        auto pick_new = at::less(local_max, global_max);
+
+        auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
+        auto alpha = at::exp(log_alpha);
+        alpha.nan_to_num_(1.);
+        auto pick_current_coef = at::where(pick_new, 1., alpha);
+        auto pick_new_coef = at::where(pick_new, alpha, 1.);
+        O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+        global_sumexp = at::add(at::mul(pick_current_coef, global_sumexp), at::mul(pick_new_coef, local_sumexp));
+        global_max = new_max;
+    }
+    
+    return at::div(O, global_sumexp);
+}
+
+static at::Tensor 
+efficient_attention_forward_decoder_splitk_torch(
+    const at::Tensor& XQ,                 // [B, 1, G, H, D]
+    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int32_t split_k)
+{
+    auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, split_k);
+    auto O               = split_reduce_torch(O_split, m, l, split_k);
+    return O.reshape_as(XQ);
+}
+
 namespace ck {
 namespace tensor_operation {
 namespace device {
@@ -954,7 +956,7 @@ static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_s
 
     auto result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
         XQ, K, V, seqlen, qk_scale, split_k);
-    auto gold_result = efficient_attention_forward_decoder_split1_torch(XQ, K, V, seqlen, qk_scale);
+    auto gold_result = efficient_attention_forward_decoder_splitk_torch(XQ, K, V, seqlen, qk_scale, /* split_k */ 1);
     auto e2e_mismatch = percent_mismatch(result, gold_result);
     printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, e2e_mismatch);
 }

From d7132b9425b4c81b2cadbd7cafaa1d0cda6e2fa0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 19:23:13 +0000
Subject: [PATCH 371/837] address code review: remove unused _rand_seqlens

---
 tests/test_mem_eff_attention.py    | 39 ------------------------------
 tests/test_mem_eff_attention_ck.py | 38 -----------------------------
 2 files changed, 77 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 773d8a5c88..2f48575355 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -379,45 +379,6 @@ def compute_attention_split(q, k_slice, v_slice, attn_bias_slice):
     return out
 
 
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
     idx = {0, total}
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 5ee0ab2dfc..56311a395b 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -426,44 +426,6 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     assert not out.isnan().any(), "final out is nan"
     return out
 
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
 
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total

From f4d5263af126dfb6cece1f105a6ac63937c16bb0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 19:43:54 +0000
Subject: [PATCH 372/837] address code review: cleanup python tests

---
 tests/test_mem_eff_attention.py    | 69 ------------------------------
 tests/test_mem_eff_attention_ck.py | 49 ++++++++-------------
 2 files changed, 18 insertions(+), 100 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 2f48575355..a1ca3b089f 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -310,75 +310,6 @@ def T(t):
     return out.permute((0, 2, 1, 3))
 
 
-def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2) -> torch.Tensor:
-    assert q.ndim == 3
-
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    if scale is None:
-        scale = torch.rsqrt(q.shape[-1])
-    q = q * scale
-
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-
-    split_config = { "dim": -1, "split_size_or_sections": k.size(-1) // split_k}
-    k_split = torch.split(k, **split_config)
-    v_split = torch.split(v, **split_config)
-    attn_bias_split = torch.split(attn_bias_tensor, **split_config)
-
-    def compute_attention_split(q, k_slice, v_slice, attn_bias_slice):
-        p_slice = q @ k_slice.transpose(-2, -1)
-        p_slice += attn_bias_slice
-        m = p_slice.max(dim = -1)
-        s = torch.exp(p_slice - m[:, :, None])
-        l = torch.sum(s, dim = -1)
-        attn_slice = s @ v_slice
-        return {
-            "attn_slice": attn_slice,
-            "row_max": m,
-            "row_lse": l, 
-        }
-    
-    slices = map(lambda k, v, b: compute_attention_split(q, k, v, b), 
-        zip(k_split, v_split, attn_bias_split))
-    slices = list(slices)
-    out = torch.zero_like(q)
-
-    m_current_max = slices[0]["row_max"]
-    l_current_sum = torch.zero_like(slices[0]["row_lse"])
-
-    for s in slices:
-        (attn_slice, m, l) = s.values()
-        m_new = torch.max(m, m_current_max)
-        pick_new = m < m_current_max
-        pick_our = torch.logical_not(pick_new)
-
-        alpha = torch.exp(-torch.abs(m - m_current_max))
-
-        out = (pick_our * out + pick_new * attn_slice) * alpha
-        l_current_sum = (pick_our * l_current_sum + pick_new * l) * alpha
-        m_current_max = m_new
-    
-    out /= l_current_sum
-    return out
-
-
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
     idx = {0, total}
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 56311a395b..e43221dd25 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -368,25 +368,14 @@ def attn_bias_group(group: int):
     attn_bias_split = torch.split(attn_bias_tensor, dim=-1, split_size_or_sections=split_size)
     
     def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
-        assert not q_whole.isnan().any(), "q_whole is nan"
-        assert not k_slice.isnan().any(), "k_slice is nan"
         p_slice = q_whole @ k_slice.transpose(-2, -1)
-        assert not p_slice.isnan().any(), "p_slice is nan"
-        assert not p_slice.isinf().any(), "p_slice is inf"
         p_slice += attn_bias_slice
-        assert not p_slice.isnan().any(), "p_slice is nan after bias add"
         m = torch.max(p_slice, dim = -1, keepdim=True).values
-        assert not m.isnan().any(), "m is nan"
         p_slice_scaled = p_slice - m
         p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
-        assert not p_slice_scaled.isnan().any(), f"p_slice_scaled is nan: {p_slice_scaled.isnan().sum()} of {p_slice_scaled.numel()} values"
         s = torch.exp(p_slice_scaled)
-        assert s.shape == p_slice.shape
-        assert not s.isnan().any(), f"s is nan: {s.isnan().sum()} of {s.numel()} values"
         l = torch.sum(s, dim=-1, keepdim=True)
-        assert not l.isnan().any(), "l is nan"
         attn_slice = s @ v_slice
-        assert not attn_slice.isnan().any(), "attn_slice is nan"
         return {
             "attn_slice": attn_slice,
             "row_max": m,
@@ -401,29 +390,27 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
     # reduce out over split-k slices
 
-    m_current_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
-    l_current_sum = torch.zeros_like(slices[0]["row_lse"])
+    global_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
+    global_sumexp = torch.zeros_like(slices[0]["row_lse"])
 
     for s in slices:
-        attn_slice = s["attn_slice"]
-        m = s["row_max"]
-        l = s["row_lse"]
-        m_new = torch.max(m, m_current_max)
-        assert not m_new.isnan().any(), "m_new is nan"
-        pick_new = m < m_current_max
-        pick_our = torch.logical_not(pick_new)
-
-        log_alpha = -torch.abs(m - m_current_max)
-        log_alpha[log_alpha.isnan()] = 0
+        local_out = s["attn_slice"]
+        local_max = s["row_max"]
+        local_sumexp = s["row_lse"]
+        new_max = torch.max(local_max, global_max)
+
+        log_alpha = -torch.abs(local_max - global_max)
         alpha = torch.exp(log_alpha)
-        assert not alpha.isnan().any(), "alpha is nan"
-        out = out + attn_slice + (pick_our * out + pick_new * attn_slice) * (torch.sub(alpha, 1))
-        assert not out.isnan().any(), "out acc is nan"
-        l_current_sum = l_current_sum + l + (pick_our * l_current_sum + pick_new * l) * (torch.sub(alpha, 1))
-        assert not l_current_sum.isnan().any(), "l acc is nan"
-        m_current_max = m_new
-    out /= l_current_sum
-    assert not out.isnan().any(), "final out is nan"
+        alpha.nan_to_num_(1.)
+
+        pick_new = local_max < global_max
+        new_coef = torch.where(pick_new, alpha, 1.)
+        curr_coef = torch.where(pick_new, 1., alpha)
+
+        out = out * curr_coef + local_out * new_coef
+        global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
+        global_max = new_max
+    out /= global_sumexp
     return out
 
 
From d81285a78e94be28e52eb6e8695372db6b23642d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 19:51:21 +0000
Subject: [PATCH 373/837] remove redundant new_max local var

---
 tests/test_mem_eff_attention_ck.py                       | 3 +--
 .../csrc/attention/hip_fmha/attention_forward_splitk.cpp | 9 ++++-----
 .../hip_fmha/ck_attention_forward_decoder_splitk.h       | 8 +++++---
 3 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index e43221dd25..8c0d07f41d 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -397,7 +397,6 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         local_out = s["attn_slice"]
         local_max = s["row_max"]
         local_sumexp = s["row_lse"]
-        new_max = torch.max(local_max, global_max)
 
         log_alpha = -torch.abs(local_max - global_max)
         alpha = torch.exp(log_alpha)
@@ -409,7 +408,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
         out = out * curr_coef + local_out * new_coef
         global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
-        global_max = new_max
+        global_max = torch.max(local_max, global_max)
     out /= global_sumexp
     return out
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index b57110bfce..5f1d5cde2d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -304,18 +304,17 @@ split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const
         auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
         auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
 
-        auto new_max = at::max(local_max, global_max);
-
-        auto pick_new = at::less(local_max, global_max);
-
         auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
         auto alpha = at::exp(log_alpha);
         alpha.nan_to_num_(1.);
+
+        auto pick_new = at::less(local_max, global_max);
         auto pick_current_coef = at::where(pick_new, 1., alpha);
         auto pick_new_coef = at::where(pick_new, alpha, 1.);
+        
         O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
         global_sumexp = at::add(at::mul(pick_current_coef, global_sumexp), at::mul(pick_new_coef, local_sumexp));
-        global_max = new_max;
+        global_max = at::max(local_max, global_max);
     }
     
     return at::div(O, global_sumexp);
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 87865db981..20d9ede816 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -135,16 +135,18 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
         }
         compute_t local_max         = *(split_max + blockIdx.x * split_k + split_idx);
         compute_t local_sumexp      = *(split_sumexp + blockIdx.x * split_k + split_idx);
-        compute_t new_max           = ck::math::max(local_max, global_max);
-        bool pick_new               = local_max < global_max;
+        
         compute_t log_alpha         = -std::abs(local_max - global_max);
         compute_t alpha             = isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+        
+        bool pick_new               = local_max < global_max;
         compute_t pick_current_coef = pick_new ? 1. : alpha;
         compute_t pick_new_coef     = pick_new ? alpha : 1.;
+        
         global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
         global_O_compute.vec =
             pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
-        global_max = new_max;
+        global_max = ck::math::max(local_max, global_max);
     }
     global_O_compute.vec /= global_sumexp;
 #pragma unroll

From eba46f112083d3679ce40a00fa542be0bdf58f47 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 19:59:01 +0000
Subject: [PATCH 374/837] address code review: rename seq_acc

---
 .../attention/hip_fmha/attention_forward_splitk.cpp    | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 5f1d5cde2d..6d557fb172 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -112,7 +112,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
             auto split_O_acc =
                 split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
             auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto seq_acc =
+            auto seq_acc_ptr =
                 seq_kv_lens
                     ? seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data()
                     : nullptr;
@@ -127,7 +127,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
                 reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
                 split_max_acc.data(),
                 split_sumexp_acc.data(),
-                seq_acc,
+                seq_acc_ptr,
                 XQ_acc.stride(0),
                 XQ_acc.stride(1),
                 XQ_acc.stride(2),
@@ -311,7 +311,7 @@ split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const
         auto pick_new = at::less(local_max, global_max);
         auto pick_current_coef = at::where(pick_new, 1., alpha);
         auto pick_new_coef = at::where(pick_new, alpha, 1.);
-        
+
         O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
         global_sumexp = at::add(at::mul(pick_current_coef, global_sumexp), at::mul(pick_new_coef, local_sumexp));
         global_max = at::max(local_max, global_max);
@@ -767,7 +767,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
             auto split_O_acc =
                 split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
             auto O_acc   = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto seq_acc = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data();
+            auto seq_acc = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
             auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
             auto split_sumexp_acc =
                 split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
@@ -779,7 +779,7 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
                 reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
                 split_max_acc.data(),
                 split_sumexp_acc.data(),
-                seq_acc,
+                seq_acc.data(),
                 XQ_acc.stride(0),
                 XQ_acc.stride(1),
                 XQ_acc.stride(2),

From 7f9ce55c3590ec1463d64598fe45ee2793417556 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 21:24:18 +0000
Subject: [PATCH 375/837] re-enable loop unroll; adjust tests to handle splits
 with size divisible by block size; handle empty splits correctly

---
 .../hip_fmha/attention_forward_splitk.cpp     | 23 ++++++++++---------
 .../ck_attention_forward_decoder_splitk.h     |  4 ++--
 2 files changed, 14 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 6d557fb172..d095a51ba0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -242,7 +242,7 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m)
 // clang-format on
 
 static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens, const int32_t split_k)
+    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens, const int32_t split_k, const int32_t block_size)
 {
     auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
 
@@ -257,17 +257,17 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
 
         for(size_t b = 0; b < k_seqlens.numel(); ++b) {
             auto seqlen = k_seqlens[b].item<int64_t>();
-            const int64_t t_low = split_idx * (seqlen / split_k);
+            const int64_t t_low = split_idx * (seqlen / split_k / block_size) * block_size;
             const int64_t t_high = (split_idx + 1 < split_k) 
-                                 ? (1 + split_idx) * (seqlen / split_k)
+                                 ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
                                  : seqlen;
 
             auto S        = at::einsum("mghk, nghk -> mghn",
                             {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
                             /* einsum eval path */ at::nullopt);
-            auto m = std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+            auto m = S.numel() > 0 ? std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true)) : at::empty_like(at::slice(S, -1, 0, 1)).fill_(ck::NumericLimits<float>::Lowest());
             auto s = at::exp(at::sub(S, m));
-            auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+            auto l = s.numel() > 0 ? at::sum(s, /* dim */ -1, /* keepdim */ true) : at::zeros_like(m);
             auto O        = at::einsum("mghn, nghk -> mghk", 
                             {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)}, 
                             /* einsum eval path */ at::nullopt);
@@ -281,8 +281,8 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
         auto l_cat = at::stack(l_batch);
 
         O_splits.push_back(O_cat);
-        m_splits.push_back(m_cat);
-        l_splits.push_back(l_cat);
+        m_splits.push_back(m_cat.numel() > 0 ? m_cat : at::empty_like(at::slice(O_cat, -1, 0, 1)).fill_(ck::NumericLimits<float>::Lowest()));
+        l_splits.push_back(l_cat.numel() > 0 ? l_cat : at::zeros_like(at::slice(O_cat, -1, 0, 1)));
     }
 
     auto O_cat = at::stack(O_splits);
@@ -327,9 +327,10 @@ efficient_attention_forward_decoder_splitk_torch(
     const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
-    int32_t split_k)
+    int32_t split_k,
+    int32_t block_size)
 {
-    auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, split_k);
+    auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
     auto O               = split_reduce_torch(O_split, m, l, split_k);
     return O.reshape_as(XQ);
 }
@@ -915,7 +916,7 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k);
+    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k, /* block_size */ 16);
 
     auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, split_k, /* wavefronts_per_block */ 1);
 
@@ -955,7 +956,7 @@ static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_s
 
     auto result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
         XQ, K, V, seqlen, qk_scale, split_k);
-    auto gold_result = efficient_attention_forward_decoder_splitk_torch(XQ, K, V, seqlen, qk_scale, /* split_k */ 1);
+    auto gold_result = efficient_attention_forward_decoder_splitk_torch(XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
     auto e2e_mismatch = percent_mismatch(result, gold_result);
     printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, e2e_mismatch);
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 20d9ede816..a4c61f127b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -162,8 +162,8 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
 
 template <typename scalar_t,
           int32_t vec_size           = 4,
-          int32_t n_loop_unroll      = 1,
-          int32_t n_loop_unroll_tail = 1,
+          int32_t n_loop_unroll      = 16,
+          int32_t n_loop_unroll_tail = 2,
           int32_t KV_M_MAX           = 8192,
           typename compute_t         = float>
 __global__ void

From f888b88f8fe80e7fcd32c7729b543ea5a98a7205 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 18 Jan 2024 23:38:39 +0000
Subject: [PATCH 376/837] test a wider range of split-k in cpp tests; fix torch
 implementation one more time to handle empty splits

---
 .../hip_fmha/attention_forward_splitk.cpp     | 23 ++++++++++++++-----
 1 file changed, 17 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index d095a51ba0..8ac38a4403 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -262,15 +262,22 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
                                  ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
                                  : seqlen;
 
+            const bool empty = t_low == t_high;
+
             auto S        = at::einsum("mghk, nghk -> mghn",
                             {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
                             /* einsum eval path */ at::nullopt);
-            auto m = S.numel() > 0 ? std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true)) : at::empty_like(at::slice(S, -1, 0, 1)).fill_(ck::NumericLimits<float>::Lowest());
+            auto m = empty ? at::empty_like(S) : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
             auto s = at::exp(at::sub(S, m));
-            auto l = s.numel() > 0 ? at::sum(s, /* dim */ -1, /* keepdim */ true) : at::zeros_like(m);
+            auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
             auto O        = at::einsum("mghn, nghk -> mghk", 
                             {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)}, 
                             /* einsum eval path */ at::nullopt);
+            if (empty) {
+                m = at::empty_like(at::slice(O, -1, 0, 1));
+                l = at::zeros_like(m);
+                m.fill_(ck::NumericLimits<float>::Lowest());
+            }
             O_batch.push_back(O);
             m_batch.push_back(m);
             l_batch.push_back(l);
@@ -281,8 +288,8 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
         auto l_cat = at::stack(l_batch);
 
         O_splits.push_back(O_cat);
-        m_splits.push_back(m_cat.numel() > 0 ? m_cat : at::empty_like(at::slice(O_cat, -1, 0, 1)).fill_(ck::NumericLimits<float>::Lowest()));
-        l_splits.push_back(l_cat.numel() > 0 ? l_cat : at::zeros_like(at::slice(O_cat, -1, 0, 1)));
+        m_splits.push_back(m_cat);
+        l_splits.push_back(l_cat);
     }
 
     auto O_cat = at::stack(O_splits);
@@ -924,6 +931,10 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
     auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
     auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
 
+    // if (m_percent_mismatch > 0) {
+    //     std::cout << "ref: " << m_ref << std::endl << "hip: " << m_hip << std::endl;
+    // }
+
     printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
             padding,
             batch_size,
@@ -969,7 +980,7 @@ int main(int argc, char** argv)
             for (auto batch_size : {1, 8}) {
                 for (auto Hq : { 16 }) {
                     for (auto Hkv : { 16 }) {
-                        for (auto split_k : {1, 2, 4}) {
+                        for (auto split_k : {1, 2, 4, 8, 16}) {
                             test_splitk_decoder_e2e_correctness(padding, batch_size, Hq, Hkv, split_k);
                         }
                     }
@@ -981,7 +992,7 @@ int main(int argc, char** argv)
             for (auto batch_size : {1, 8}) {
                 for (auto Hq : { 16 }) {
                     for (auto Hkv : { 16 }) {
-                        for (auto split_k : {1, 2}) {
+                        for (auto split_k : {1, 2, 4, 8, 16}) {
                             test_split_attention(padding, batch_size, Hq, Hkv, split_k);
                         }
                     }

From bad053fc1cb36204bd287bb21d6b371fc0e2e16d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 19 Jan 2024 19:45:44 +0000
Subject: [PATCH 377/837] Synchronize with ck-tiled update to support
 head-dim-256 and LSE storing

---
 tests/test_forward_ck_tiled.py                |   4 +-
 tests/test_mem_eff_attention_ck.py            |   4 +-
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  57 ++++---
 .../hip_fmha/ck_tiled_fmha_definitions.h      |  22 +++
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 145 +++++++++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  38 +++--
 7 files changed, 203 insertions(+), 69 deletions(-)

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
index e76f52e099..1484deaae8 100644
--- a/tests/test_forward_ck_tiled.py
+++ b/tests/test_forward_ck_tiled.py
@@ -437,8 +437,8 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if k > 128 or kv > 128:
-        pytest.skip("k or kv bigger than 128 is not supported by CK-FlashAttention")
+    if k > 256 or kv > 256:
+        pytest.skip("head-dim size bigger than 256 is not supported by CK-FlashAttention")
 
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index ee9c557ab5..2caf187be0 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -437,8 +437,8 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+    if k > 256 or kv > 256:
+        pytest.skip("head-dim size bigger than 256 is not supported by CK-FlashAttention")
 
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index cd4c0600f3..73166db692 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit cd4c0600f37288f09736d910378efeb18a8c4142
+Subproject commit 73166db6920afac53189098acf4774f9fa929143
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 8131ae37f4..122e415ee0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -18,11 +18,9 @@
 #include <ck/tensor/tensor_view.hpp>
 
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs_default_policy.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 #include <ck/tile_program/block_tile/block_masking.hpp>
@@ -60,6 +58,11 @@ struct batched_infer_causalmask_attnbias_dispatched
             constexpr ck::index_t CONST_NAME = 128;                         \
             __VA_ARGS__();                                                  \
         }                                                                   \
+        else if(HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256)                       \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 256;                         \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
         else                                                                \
         {                                                                   \
             throw std::runtime_error("Head-dim sizes not supported!");      \
@@ -75,6 +78,7 @@ struct batched_infer_causalmask_attnbias_dispatched
         typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
         typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
         typename FmhaFwdTypeConfig<scalar_t>::PDataType,
         typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::ODataType,
@@ -119,19 +123,16 @@ struct batched_infer_causalmask_attnbias_dispatched
                                                                             kN0K1NeedPadding,
                                                                             kK0N1NeedPadding,
                                                                             has_attn_bias,
+                                                                            false, // kStoreLSE
                                                                             occupancy>;
 
                         using FmhaPipelineProblem =
                             FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
 
-                        constexpr bool no_any_padding =
-                            !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
-
-                        if constexpr(no_any_padding)
+                        if constexpr(HDim == 256)
                         {
-                            using FmhaPipeline =
-                                ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                                    FmhaPipelineProblem>;
+                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                                FmhaPipelineProblem>;
                             using FmhaKernel =
                                 FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
@@ -139,12 +140,29 @@ struct batched_infer_causalmask_attnbias_dispatched
                         }
                         else
                         {
-                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                                FmhaPipelineProblem>;
-                            using FmhaKernel =
-                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                            RunWithKernel<FmhaKernel>(param, stream);
+                            constexpr bool no_any_padding =
+                                !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
+
+                            if constexpr(no_any_padding)
+                            {
+                                using FmhaPipeline =
+                                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                                        FmhaPipelineProblem>;
+                                using FmhaKernel =
+                                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                                RunWithKernel<FmhaKernel>(param, stream);
+                            }
+                            else
+                            {
+                                using FmhaPipeline =
+                                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                                        FmhaPipelineProblem>;
+                                using FmhaKernel =
+                                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                                RunWithKernel<FmhaKernel>(param, stream);
+                            };
                         };
                     });
             });
@@ -160,6 +178,7 @@ struct batched_infer_causalmask_attnbias_dispatched
                 param.k_ptr,
                 param.v_ptr,
                 param.attn_bias_ptr,
+                nullptr, // lse_ptr
                 param.out_ptr,
                 param.M,              // seqlen_q
                 param.N,              // seqlen_k
@@ -172,15 +191,17 @@ struct batched_infer_causalmask_attnbias_dispatched
                 param.v_strides[1],
                 param.attn_bias_strides[2],
                 param.out_strides[1],
-                param.q_strides[2], // q, k, v, bias, out tensor head-dim stride
+                param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
                 param.k_strides[2],
                 param.v_strides[2],
                 param.attn_bias_strides[1],
+                0, // nhead_stride_lse
                 param.out_strides[2],
-                param.q_strides[0], // q, k, v, bias, out tensor batch-dim stride
+                param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
                 param.k_strides[0],
                 param.v_strides[0],
                 param.attn_bias_strides[0],
+                0, // batch_stride_lse
                 param.out_strides[0],
                 static_cast<CausalMaskType>(param.custom_mask_type),
                 param.window_size);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index 0129ac0824..624efa70d3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -6,6 +6,8 @@
  */
 #pragma once
 
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+
 enum struct CausalMaskType
 {
     MaskDisabled,
@@ -23,6 +25,7 @@ struct FmhaFwdTypeConfig<ck::half_t>
     using KDataType           = ck::half_t;
     using VDataType           = ck::half_t;
     using BiasDataType        = ck::half_t;
+    using LSEDataType         = float;      // data type for lse(logsumexp L_j = max_j + log(l_j))
     using SaccDataType        = float;      // data type for first gemm accumulation
     using SMPLComputeDataType = float;      // data type for reduction, softmax
     using PDataType           = ck::half_t; // data type for A matrix of second gemm
@@ -37,6 +40,7 @@ struct FmhaFwdTypeConfig<ck::bhalf_t>
     using KDataType           = ck::bhalf_t;
     using VDataType           = ck::bhalf_t;
     using BiasDataType        = ck::bhalf_t;
+    using LSEDataType         = float;       // data type for lse(logsumexp L_j = max_j + log(l_j))
     using SaccDataType        = float;       // data type for first gemm accumulation
     using SMPLComputeDataType = float;       // data type for reduction, softmax
     using PDataType           = ck::bhalf_t; // data type for A matrix of second gemm
@@ -54,17 +58,25 @@ struct FmhaFwdBlockTile<32>
 {
     using type = ck::Sequence<128, 64, 16, 32, 32, 32>;
 };
+
 template <>
 struct FmhaFwdBlockTile<64>
 {
     using type = ck::Sequence<128, 64, 32, 64, 32, 64>;
 };
+
 template <>
 struct FmhaFwdBlockTile<128>
 {
     using type = ck::Sequence<128, 128, 32, 128, 32, 128>;
 };
 
+template <>
+struct FmhaFwdBlockTile<256>
+{
+    using type = ck::Sequence<128, 128, 32, 256, 32, 256>;
+};
+
 using FmhaFwdBlockWarps = ck::Sequence<4, 1, 1>;
 using FmhaFwdWarpTile   = ck::Sequence<32, 32, 16>;
 
@@ -100,3 +112,13 @@ struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlock
                                                            FmhaFwdVLayout>
 {
 };
+
+template <>
+struct FmhaFwdShape<256> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<256>::type,
+                                                           FmhaFwdBlockWarps,
+                                                           FmhaFwdWarpTile,
+                                                           FmhaFwdBlockWarps,
+                                                           FmhaFwdWarpTile,
+                                                           FmhaFwdVLayout>
+{
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 034c0178eb..acabd1e7af 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -34,6 +34,7 @@ struct FmhaFwdKernel
     using KDataType    = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
     using VDataType    = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
     using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
+    using LSEDataType  = ck::remove_cvref_t<typename FmhaPipeline::LSEDataType>;
     using ODataType    = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
 
     using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
@@ -43,27 +44,24 @@ struct FmhaFwdKernel
     static constexpr bool kN0K1NeedPadding = FmhaPipeline::kN0K1NeedPadding;
     static constexpr bool kK0N1NeedPadding = FmhaPipeline::kK0N1NeedPadding;
     static constexpr bool kHasBias         = FmhaPipeline::kHasBias;
+    static constexpr bool kStoreLSE        = FmhaPipeline::kStoreLSE;
     using FmhaMask                         = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
     static constexpr bool kHasMask         = FmhaMask::IsMasking;
 
-    // using C0MatrixMask = ck::tile_program::block::C0MatrixMask_impl<
-    //     ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>>;
-
-    private:
     template <ck::index_t I> // to avoid duplicated base class prblem, introduce an template arg
-    struct EmptyKargs
+    struct FmhaFwdEmptyKargs
     {
     };
 
     // kargs use aggregate initializer, so no constructor will provided
     // use inheritance to minimize karg size
     // user need to use MakeKargs() function to create kargs.
-    struct CommonKargs
+    struct FmhaFwdCommonKargs
     {
-        const QDataType* q_ptr;
-        const KDataType* k_ptr;
-        const VDataType* v_ptr;
-        ODataType* o_ptr;
+        const void* q_ptr;
+        const void* k_ptr;
+        const void* v_ptr;
+        void* o_ptr;
 
         ck::index_t seqlen_q;
         ck::index_t seqlen_k;
@@ -86,27 +84,40 @@ struct FmhaFwdKernel
         ck::index_t nhead_stride_o;
     };
 
-    struct CommonBiasKargs
+    struct FmhaFwdCommonBiasKargs
     {
-        const BiasDataType* bias_ptr  = nullptr;
+        const void* bias_ptr          = nullptr;
         ck::index_t stride_bias       = 0;
         ck::index_t nhead_stride_bias = 0;
     };
 
-    struct BatchModeBiasKargs : CommonBiasKargs
+    struct FmhaFwdBatchModeBiasKargs : FmhaFwdCommonBiasKargs
     {
         ck::index_t batch_stride_bias = 0;
     };
 
-    struct MaskKargs
+    struct FmhaFwdMaskKargs
     {
         CausalMaskType mask_type;
         ck::index_t window_size;
     };
 
-    struct BatchModeKargs : CommonKargs,
-                            std::conditional_t<kHasBias, BatchModeBiasKargs, EmptyKargs<0>>,
-                            std::conditional_t<kHasMask, MaskKargs, EmptyKargs<1>>
+    struct FmhaFwdCommonLSEKargs
+    {
+        void* lse_ptr                = nullptr;
+        ck::index_t nhead_stride_lse = 0;
+    };
+
+    struct FmhaFwdBatchModeLSEKargs : FmhaFwdCommonLSEKargs
+    {
+        ck::index_t batch_stride_lse = 0;
+    };
+
+    struct FmhaFwdBatchModeKargs
+        : FmhaFwdCommonKargs,
+          std::conditional_t<kHasBias, FmhaFwdBatchModeBiasKargs, FmhaFwdEmptyKargs<0>>,
+          std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
+          std::conditional_t<kStoreLSE, FmhaFwdBatchModeLSEKargs, FmhaFwdEmptyKargs<2>>
     {
         ck::index_t batch_stride_q;
         ck::index_t batch_stride_k;
@@ -114,23 +125,25 @@ struct FmhaFwdKernel
         ck::index_t batch_stride_o;
     };
 
-    struct GroupModeKargs : CommonKargs,
-                            std::conditional_t<kHasBias, CommonBiasKargs, EmptyKargs<0>>,
-                            std::conditional_t<kHasMask, MaskKargs, EmptyKargs<1>>
+    struct FmhaFwdGroupModeKargs
+        : FmhaFwdCommonKargs,
+          std::conditional_t<kHasBias, FmhaFwdCommonBiasKargs, FmhaFwdEmptyKargs<0>>,
+          std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
+          std::conditional_t<kStoreLSE, FmhaFwdCommonLSEKargs, FmhaFwdEmptyKargs<2>>
     {
         const int32_t* seqstart_q_ptr;
         const int32_t* seqstart_k_ptr;
         const int32_t* seqlen_k_ptr;
     };
 
-    public:
-    using Kargs = std::conditional_t<kIsGroupMode, GroupModeKargs, BatchModeKargs>;
+    using Kargs = std::conditional_t<kIsGroupMode, FmhaFwdGroupModeKargs, FmhaFwdBatchModeKargs>;
 
     template <bool Cond = !kIsGroupMode>
     __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
                                                                       const void* k_ptr,
                                                                       const void* v_ptr,
                                                                       const void* bias_ptr,
+                                                                      void* lse_ptr,
                                                                       void* o_ptr,
                                                                       ck::index_t seqlen_q,
                                                                       ck::index_t seqlen_k,
@@ -147,19 +160,21 @@ struct FmhaFwdKernel
                                                                       ck::index_t nhead_stride_k,
                                                                       ck::index_t nhead_stride_v,
                                                                       ck::index_t nhead_stride_bias,
+                                                                      ck::index_t nhead_stride_lse,
                                                                       ck::index_t nhead_stride_o,
                                                                       ck::index_t batch_stride_q,
                                                                       ck::index_t batch_stride_k,
                                                                       ck::index_t batch_stride_v,
                                                                       ck::index_t batch_stride_bias,
+                                                                      ck::index_t batch_stride_lse,
                                                                       ck::index_t batch_stride_o,
                                                                       CausalMaskType mask_type,
                                                                       ck::index_t window_size)
     {
-        Kargs kargs{{reinterpret_cast<const QDataType*>(q_ptr),
-                     reinterpret_cast<const KDataType*>(k_ptr),
-                     reinterpret_cast<const VDataType*>(v_ptr),
-                     reinterpret_cast<ODataType*>(o_ptr),
+        Kargs kargs{{q_ptr,
+                     k_ptr,
+                     v_ptr,
+                     o_ptr,
                      seqlen_q,
                      seqlen_k,
                      hdim_q,
@@ -180,6 +195,7 @@ struct FmhaFwdKernel
                      nhead_stride_o}, // args for common karg
                     {},               // placeholder for bias
                     {},               // placeholder for mask
+                    {},               // placeholder for lse
                     batch_stride_q,
                     batch_stride_k,
                     batch_stride_v,
@@ -187,7 +203,7 @@ struct FmhaFwdKernel
 
         if constexpr(kHasBias)
         {
-            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(bias_ptr);
+            kargs.bias_ptr          = bias_ptr;
             kargs.stride_bias       = stride_bias;
             kargs.nhead_stride_bias = nhead_stride_bias;
             kargs.batch_stride_bias = batch_stride_bias;
@@ -198,6 +214,12 @@ struct FmhaFwdKernel
             kargs.mask_type   = mask_type;
             kargs.window_size = window_size;
         }
+        if constexpr(kStoreLSE)
+        {
+            kargs.lse_ptr          = lse_ptr;
+            kargs.nhead_stride_lse = nhead_stride_lse;
+            kargs.batch_stride_lse = batch_stride_lse;
+        }
 
         return kargs;
     }
@@ -207,6 +229,7 @@ struct FmhaFwdKernel
                                                                       const void* k_ptr,
                                                                       const void* v_ptr,
                                                                       const void* bias_ptr,
+                                                                      void* lse_ptr,
                                                                       void* o_ptr,
                                                                       const void* seqstart_q_ptr,
                                                                       const void* seqstart_k_ptr,
@@ -224,14 +247,15 @@ struct FmhaFwdKernel
                                                                       ck::index_t nhead_stride_k,
                                                                       ck::index_t nhead_stride_v,
                                                                       ck::index_t nhead_stride_bias,
+                                                                      ck::index_t nhead_stride_lse,
                                                                       ck::index_t nhead_stride_o,
                                                                       CausalMaskType mask_type,
                                                                       ck::index_t window_size)
     {
-        Kargs kargs{{reinterpret_cast<const QDataType*>(q_ptr),
-                     reinterpret_cast<const KDataType*>(k_ptr),
-                     reinterpret_cast<const VDataType*>(v_ptr),
-                     reinterpret_cast<ODataType*>(o_ptr),
+        Kargs kargs{{q_ptr,
+                     k_ptr,
+                     v_ptr,
+                     o_ptr,
                      -1, // seqlen will be updated by another pointer
                      -1, //
                      hdim_q,
@@ -252,13 +276,14 @@ struct FmhaFwdKernel
                      nhead_stride_o}, // args for common karg
                     {},               // placeholder for bias
                     {},               // placeholder for mask
+                    {},               // placeholder for lse
                     reinterpret_cast<const int32_t*>(seqstart_q_ptr),
                     reinterpret_cast<const int32_t*>(seqstart_k_ptr),
                     reinterpret_cast<const int32_t*>(seqlen_k_ptr)};
 
         if constexpr(kHasBias)
         {
-            kargs.bias_ptr          = reinterpret_cast<const BiasDataType*>(bias_ptr);
+            kargs.bias_ptr          = bias_ptr;
             kargs.stride_bias       = stride_bias;
             kargs.nhead_stride_bias = nhead_stride_bias;
         }
@@ -267,6 +292,11 @@ struct FmhaFwdKernel
             kargs.mask_type   = mask_type;
             kargs.window_size = window_size;
         }
+        if constexpr(kStoreLSE)
+        {
+            kargs.lse_ptr          = lse_ptr;
+            kargs.nhead_stride_lse = nhead_stride_lse;
+        }
 
         return kargs;
     }
@@ -306,6 +336,7 @@ struct FmhaFwdKernel
         long_index_t batch_offset_k    = 0;
         long_index_t batch_offset_v    = 0;
         long_index_t batch_offset_bias = 0;
+        long_index_t batch_offset_lse  = 0;
         long_index_t batch_offset_o    = 0;
 
         if constexpr(kIsGroupMode)
@@ -332,6 +363,10 @@ struct FmhaFwdKernel
             {
                 batch_offset_bias = key_start;
             }
+            if constexpr(kStoreLSE)
+            {
+                batch_offset_lse = query_start;
+            }
             batch_offset_o = query_start * kargs.stride_o;
 
             // get real # queries & # keys under group mode
@@ -364,22 +399,27 @@ struct FmhaFwdKernel
             {
                 batch_offset_bias = static_cast<long_index_t>(i_batch) * kargs.batch_stride_bias;
             }
+            if constexpr(kStoreLSE)
+            {
+                batch_offset_lse = static_cast<long_index_t>(i_batch) * kargs.batch_stride_lse;
+            }
             batch_offset_o = static_cast<long_index_t>(i_batch) * kargs.batch_stride_o;
         }
 
         // for simplicity, batch stride we just modify the pointer
-        const QDataType* q_ptr = kargs.q_ptr +
+        const QDataType* q_ptr = reinterpret_cast<const QDataType*>(kargs.q_ptr) +
                                  static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_q +
                                  batch_offset_q;
         const KDataType* k_ptr =
-            kargs.k_ptr +
+            reinterpret_cast<const KDataType*>(kargs.k_ptr) +
             static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) * kargs.nhead_stride_k +
             batch_offset_k;
         const VDataType* v_ptr =
-            kargs.v_ptr +
+            reinterpret_cast<const VDataType*>(kargs.v_ptr) +
             static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) * kargs.nhead_stride_v +
             batch_offset_v;
-        ODataType* o_ptr = kargs.o_ptr + static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
+        ODataType* o_ptr = reinterpret_cast<ODataType*>(kargs.o_ptr) +
+                           static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
                            batch_offset_o;
 
         // Q/K/V DRAM and DRAM window
@@ -526,7 +566,8 @@ struct FmhaFwdKernel
             if constexpr(kHasBias)
             {
                 const BiasDataType* bias_ptr =
-                    kargs.bias_ptr + static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_bias +
+                    reinterpret_cast<const BiasDataType*>(kargs.bias_ptr) +
+                    static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_bias +
                     batch_offset_bias;
 
                 const auto bias_dram = [&]() {
@@ -550,6 +591,35 @@ struct FmhaFwdKernel
             }
         }();
 
+        // lse
+        auto lse_dram_window = [&, i_nhead_ = i_nhead]() {
+            constexpr auto lse_dram_window_lengths = make_tuple(Number<FmhaPipeline::kM0>{});
+            if constexpr(kStoreLSE)
+            {
+                LSEDataType* lse_ptr =
+                    reinterpret_cast<LSEDataType*>(kargs.lse_ptr) +
+                    static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_lse + batch_offset_lse;
+
+                const auto lse_dram = [&]() {
+                    const auto lse_dram_naive =
+                        make_naive_tensor_view<AddressSpaceEnum::Global>(lse_ptr,
+                                                                         make_tuple(kargs.seqlen_q),
+                                                                         make_tuple(1),
+                                                                         Number<1>{},
+                                                                         Number<1>{});
+
+                    return pad_tensor_view(
+                        lse_dram_naive, lse_dram_window_lengths, Sequence<kM0NeedPadding>{});
+                }();
+
+                return make_tile_window(lse_dram, lse_dram_window_lengths, {i_m0});
+            }
+            else
+            {
+                return make_null_tile_window(lse_dram_window_lengths);
+            }
+        }();
+
         FmhaMask mask = [&]() {
             if constexpr(kHasMask)
             {
@@ -606,6 +676,7 @@ struct FmhaFwdKernel
                            k_dram_window,
                            v_dram_window,
                            bias_dram_window,
+                           lse_dram_window,
                            mask,
                            kargs.scale,
                            // ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index bc907c8a79..a52232cf05 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -19,10 +19,8 @@
 #include <ck/tensor/tensor_view.hpp>
 
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qkvs_default_policy.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_default_policy.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 #include <ck/tile_program/block_tile/block_masking.hpp>
@@ -60,6 +58,11 @@ struct grouped_infer_causalmask_attnbias_dispatched
             constexpr ck::index_t CONST_NAME = 128;                         \
             __VA_ARGS__();                                                  \
         }                                                                   \
+        else if(HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256)                       \
+        {                                                                   \
+            constexpr ck::index_t CONST_NAME = 256;                         \
+            __VA_ARGS__();                                                  \
+        }                                                                   \
         else                                                                \
         {                                                                   \
             throw std::runtime_error("Head-dim sizes not supported!");      \
@@ -75,6 +78,7 @@ struct grouped_infer_causalmask_attnbias_dispatched
         typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
         typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
         typename FmhaFwdTypeConfig<scalar_t>::PDataType,
         typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::ODataType,
@@ -110,15 +114,29 @@ struct grouped_infer_causalmask_attnbias_dispatched
                                                                         kN0K1NeedPadding,
                                                                         kK0N1NeedPadding,
                                                                         has_attn_bias,
+                                                                        false, // kStoreLSE
                                                                         occupancy>;
 
                     using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
-                    RunWithKernel<FmhaKernel>(param, stream);
+                    if constexpr(HDim == 256)
+                    {
+                        using FmhaPipeline =
+                            ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+                        using FmhaKernel =
+                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                        RunWithKernel<FmhaKernel>(param, stream);
+                    }
+                    else
+                    {
+                        using FmhaPipeline =
+                            ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                        using FmhaKernel =
+                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                        RunWithKernel<FmhaKernel>(param, stream);
+                    }
                 });
             });
         });
@@ -133,6 +151,7 @@ struct grouped_infer_causalmask_attnbias_dispatched
                 param.k_ptr,
                 param.v_ptr,
                 param.attn_bias_ptr,
+                nullptr, // lse_ptr
                 param.out_ptr,
                 param.seqstart_q_dev_ptr,
                 param.seqstart_k_dev_ptr,
@@ -146,10 +165,11 @@ struct grouped_infer_causalmask_attnbias_dispatched
                 param.v_strides[0],
                 param.attn_bias_strides[2],
                 param.out_strides[0],
-                param.q_strides[1], // q, k, v, bias, out tensor head-dim stride
+                param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
                 param.k_strides[1],
                 param.v_strides[1],
                 param.attn_bias_strides[1],
+                0, // nhead_stride_lse
                 param.out_strides[1],
                 static_cast<CausalMaskType>(param.custom_mask_type),
                 param.window_size);

From 391af2b4e411440d1a2d65ff22a7a6c21f6afc83 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 19 Jan 2024 22:13:18 +0000
Subject: [PATCH 378/837] Add definition of FMHA_FWD_HEADDIM_SWITCH

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 33 +----------------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 33 +----------------
 .../hip_fmha/ck_tiled_headdim_switch.h        | 37 +++++++++++++++++++
 3 files changed, 41 insertions(+), 62 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 122e415ee0..09c4ed668d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -32,6 +32,7 @@
 #include "ck_tiled_fmha_definitions.h"
 
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_headdim_switch.h"
 
 template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
 struct batched_infer_causalmask_attnbias_dispatched
@@ -40,36 +41,6 @@ struct batched_infer_causalmask_attnbias_dispatched
         FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
                                                typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
-#ifndef BATCHED_INFER_HEADDIM_SWITCH
-#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
-    [&] {                                                                   \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                              \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 32;                          \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                         \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 64;                          \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else if(HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128)                       \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 128;                         \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else if(HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256)                       \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 256;                         \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else                                                                \
-        {                                                                   \
-            throw std::runtime_error("Head-dim sizes not supported!");      \
-        }                                                                   \
-    }()
-#endif
-
     template <typename FmhaTraits, ck::index_t HDim, typename FmhaMask>
     using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
         typename FmhaFwdTypeConfig<scalar_t>::QDataType,
@@ -98,7 +69,7 @@ struct batched_infer_causalmask_attnbias_dispatched
             using FmhaMask =
                 ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-            BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
                 using FmhaShape                 = FmhaFwdShape<HDim>;
                 using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
                 constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index a52232cf05..a996a5eeab 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -32,6 +32,7 @@
 #include "ck_tiled_fmha_definitions.h"
 
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_headdim_switch.h"
 
 template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
 struct grouped_infer_causalmask_attnbias_dispatched
@@ -40,36 +41,6 @@ struct grouped_infer_causalmask_attnbias_dispatched
         FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
                                                typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
-#ifndef GROUPED_INFER_HEADDIM_SWITCH
-#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
-    [&] {                                                                   \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                              \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 32;                          \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                         \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 64;                          \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else if(HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128)                       \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 128;                         \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else if(HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256)                       \
-        {                                                                   \
-            constexpr ck::index_t CONST_NAME = 256;                         \
-            __VA_ARGS__();                                                  \
-        }                                                                   \
-        else                                                                \
-        {                                                                   \
-            throw std::runtime_error("Head-dim sizes not supported!");      \
-        }                                                                   \
-    }()
-#endif
-
     template <typename FmhaTraits, ck::index_t HDim, typename FmhaMask>
     using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
         typename FmhaFwdTypeConfig<scalar_t>::QDataType,
@@ -98,7 +69,7 @@ struct grouped_infer_causalmask_attnbias_dispatched
             using FmhaMask =
                 ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-            GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
                 using FmhaShape                 = FmhaFwdShape<HDim>;
                 using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
                 constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
new file mode 100644
index 0000000000..6043ebcd02
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -0,0 +1,37 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <stdexcept>
+
+#define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+    [&] {                                                              \
+        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                         \
+        {                                                              \
+            constexpr ck::index_t CONST_NAME = 32;                     \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                    \
+        {                                                              \
+            constexpr ck::index_t CONST_NAME = 64;                     \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else if(HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128)                  \
+        {                                                              \
+            constexpr ck::index_t CONST_NAME = 128;                    \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else if(HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256)                  \
+        {                                                              \
+            constexpr ck::index_t CONST_NAME = 256;                    \
+            __VA_ARGS__();                                             \
+        }                                                              \
+        else                                                           \
+        {                                                              \
+            throw std::runtime_error("Head-dim sizes not supported!"); \
+        }                                                              \
+    }()

From 53719f96015333e9364643b0aba5ba4374e4b276 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 19 Jan 2024 23:22:29 +0000
Subject: [PATCH 379/837] Split the ck-tiled inference instances based on
 head-dim sizes to improve compiling

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 124 +++++++++---------
 .../ck_tiled_fmha_batched_infer_bp16.cpp      |  59 ++++++---
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  59 ++++++---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  88 ++++++-------
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      |  59 ++++++---
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  59 ++++++---
 .../attention/hip_fmha/instances_tiled/\\"    |   2 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 ++
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_32.cpp} |   2 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |  12 ++
 ...d_infer_fp16_no_causalmask_no_attnbias.cpp |  12 --
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...infer_fp16_no_causalmask_with_attnbias.cpp |  12 --
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 ++
 ...infer_fp16_with_causalmask_no_attnbias.cpp |  12 --
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...fer_fp16_with_causalmask_with_attnbias.cpp |  12 --
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_32.cpp} |   2 +-
 ...h_causalmask_with_attnbias_headdim_64.cpp} |   2 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 ++
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_32.cpp} |   2 +-
 ...h_causalmask_with_attnbias_headdim_64.cpp} |   2 +-
 ...d_infer_fp16_no_causalmask_no_attnbias.cpp |  12 --
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...infer_fp16_no_causalmask_with_attnbias.cpp |  12 --
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 ++
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 ++
 ...infer_fp16_with_causalmask_no_attnbias.cpp |  12 --
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 ++
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 ++
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 ++
 ...fer_fp16_with_causalmask_with_attnbias.cpp |  12 --
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 ++
 ...h_causalmask_with_attnbias_headdim_32.cpp} |   2 +-
 ...h_causalmask_with_attnbias_headdim_64.cpp} |   2 +-
 79 files changed, 971 insertions(+), 273 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp => "xformers/csrc/attention/hip_fmha/instances_tiled/\\" (93%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp} (93%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp} (93%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp} (93%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp} (93%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp} (93%)
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp} (93%)
 rename xformers/csrc/attention/hip_fmha/instances_tiled/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp} (93%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 09c4ed668d..221dd467c3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -34,14 +34,14 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_headdim_switch.h"
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
 struct batched_infer_causalmask_attnbias_dispatched
 {
     using FmhaEpilogue =
         FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
                                                typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
-    template <typename FmhaTraits, ck::index_t HDim, typename FmhaMask>
+    template <typename FmhaTraits, typename FmhaMask>
     using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
         typename FmhaFwdTypeConfig<scalar_t>::QDataType,
         typename FmhaFwdTypeConfig<scalar_t>::KDataType,
@@ -69,41 +69,54 @@ struct batched_infer_causalmask_attnbias_dispatched
             using FmhaMask =
                 ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-            FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-                using FmhaShape                 = FmhaFwdShape<HDim>;
-                using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-                constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
-
-                bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
-                bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
-
-                // ToDO: current pipelines all assume kQLoadOnce, which read whole k0
-                // (kK0BlockLength)
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-                BOOL_SWITCH_3(
-                    m0_need_padding,
-                    kM0NeedPadding,
-                    n0k1_need_padding,
-                    kN0K1NeedPadding,
-                    k0n1_need_padding,
-                    kK0N1NeedPadding,
-                    [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                            kN0K1NeedPadding,
-                                                                            kK0N1NeedPadding,
-                                                                            has_attn_bias,
-                                                                            false, // kStoreLSE
-                                                                            occupancy>;
-
-                        using FmhaPipelineProblem =
-                            FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
-
-                        if constexpr(HDim == 256)
+            using FmhaShape                 = FmhaFwdShape<HDim>;
+            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+
+            bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
+            bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
+
+            // ToDO: current pipelines all assume kQLoadOnce, which read whole k0
+            // (kK0BlockLength)
+            bool k0n1_need_padding =
+                !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+            BOOL_SWITCH_3(
+                m0_need_padding,
+                kM0NeedPadding,
+                n0k1_need_padding,
+                kN0K1NeedPadding,
+                k0n1_need_padding,
+                kK0N1NeedPadding,
+                [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                        kN0K1NeedPadding,
+                                                                        kK0N1NeedPadding,
+                                                                        has_attn_bias,
+                                                                        false, // kStoreLSE
+                                                                        occupancy>;
+
+                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                    if constexpr(HDim == 256)
+                    {
+                        using FmhaPipeline =
+                            ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+                        using FmhaKernel =
+                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                        RunWithKernel<FmhaKernel>(param, stream);
+                    }
+                    else
+                    {
+                        constexpr bool no_any_padding =
+                            !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
+
+                        if constexpr(no_any_padding)
                         {
-                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQSKSVS<
-                                FmhaPipelineProblem>;
+                            using FmhaPipeline =
+                                ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                                    FmhaPipelineProblem>;
                             using FmhaKernel =
                                 FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
@@ -111,32 +124,15 @@ struct batched_infer_causalmask_attnbias_dispatched
                         }
                         else
                         {
-                            constexpr bool no_any_padding =
-                                !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
-
-                            if constexpr(no_any_padding)
-                            {
-                                using FmhaPipeline =
-                                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                                        FmhaPipelineProblem>;
-                                using FmhaKernel =
-                                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                                RunWithKernel<FmhaKernel>(param, stream);
-                            }
-                            else
-                            {
-                                using FmhaPipeline =
-                                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                                        FmhaPipelineProblem>;
-                                using FmhaKernel =
-                                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                                RunWithKernel<FmhaKernel>(param, stream);
-                            };
+                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                                FmhaPipelineProblem>;
+                            using FmhaKernel =
+                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                            RunWithKernel<FmhaKernel>(param, stream);
                         };
-                    });
-            });
+                    };
+                });
         });
     };
 
@@ -187,10 +183,10 @@ struct batched_infer_causalmask_attnbias_dispatched
     };
 };
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
 void run_batched_infer_causalmask_attnbias_dispatched(BatchedForwardParams& param,
                                                       hipStream_t stream)
 {
-    batched_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias>::Run(
-        param, stream);
+    batched_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
+        Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index 815fee8978..93b7be27a5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -11,31 +11,60 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+// clang-format off
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
+// clang-format on
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream)
 {
     BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 1)
-            run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 2)
-            run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                 false,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                 true,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
     });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 3f3a61fb06..170af665d1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -11,31 +11,60 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
+// clang-format off
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
+// clang-format on
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream)
 {
     BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 1)
-            run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 2)
-            run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_batched_infer_causalmask_attnbias_dispatched<ck::half_t,
+                                                                 false,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_batched_infer_causalmask_attnbias_dispatched<ck::half_t,
+                                                                 true,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
     });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index a996a5eeab..ce3585c09f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -34,14 +34,14 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_headdim_switch.h"
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
 struct grouped_infer_causalmask_attnbias_dispatched
 {
     using FmhaEpilogue =
         FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
                                                typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
-    template <typename FmhaTraits, ck::index_t HDim, typename FmhaMask>
+    template <typename FmhaTraits, typename FmhaMask>
     using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
         typename FmhaFwdTypeConfig<scalar_t>::QDataType,
         typename FmhaFwdTypeConfig<scalar_t>::KDataType,
@@ -69,46 +69,44 @@ struct grouped_infer_causalmask_attnbias_dispatched
             using FmhaMask =
                 ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-            FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-                using FmhaShape                 = FmhaFwdShape<HDim>;
-                using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-                constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
-
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-                constexpr bool kM0NeedPadding   = true;
-                constexpr bool kN0K1NeedPadding = true;
-
-                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                        kN0K1NeedPadding,
-                                                                        kK0N1NeedPadding,
-                                                                        has_attn_bias,
-                                                                        false, // kStoreLSE
-                                                                        occupancy>;
-
-                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, HDim, FmhaMask>;
-
-                    if constexpr(HDim == 256)
-                    {
-                        using FmhaPipeline =
-                            ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-                        using FmhaKernel =
-                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                        RunWithKernel<FmhaKernel>(param, stream);
-                    }
-                    else
-                    {
-                        using FmhaPipeline =
-                            ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                        using FmhaKernel =
-                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                        RunWithKernel<FmhaKernel>(param, stream);
-                    }
-                });
+            using FmhaShape                 = FmhaFwdShape<HDim>;
+            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+
+            bool k0n1_need_padding =
+                !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+            constexpr bool kM0NeedPadding   = true;
+            constexpr bool kN0K1NeedPadding = true;
+
+            BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                    kN0K1NeedPadding,
+                                                                    kK0N1NeedPadding,
+                                                                    has_attn_bias,
+                                                                    false, // kStoreLSE
+                                                                    occupancy>;
+
+                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                if constexpr(HDim == 256)
+                {
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                }
+                else
+                {
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                }
             });
         });
     };
@@ -156,10 +154,10 @@ struct grouped_infer_causalmask_attnbias_dispatched
     };
 };
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias>
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
 void run_grouped_infer_causalmask_attnbias_dispatched(GroupedForwardParams& param,
                                                       hipStream_t stream)
 {
-    grouped_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias>::Run(
-        param, stream);
+    grouped_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
+        Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index f942d1bbbc..5402ac3279 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -11,31 +11,60 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+// clang-format off
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
+// clang-format on
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream)
 {
     BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 1)
-            run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 2)
-            run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                 false,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                 true,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
     });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 288ad5f576..17623121b7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -11,31 +11,60 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
+// clang-format off
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
+// clang-format on
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream)
 {
     BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 1)
-            run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else if(param.custom_mask_type == 2)
-            run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, HAS_ATTN_BIAS>(
-                param, stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t,
+                                                                 false,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t,
+                                                                 true,
+                                                                 HAS_ATTN_BIAS,
+                                                                 HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
     });
 };
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp "b/xformers/csrc/attention/hip_fmha/instances_tiled/\\"
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp
rename to "xformers/csrc/attention/hip_fmha/instances_tiled/\\"
index 55100393d6..e7f76cd582 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias.cpp
+++ "b/xformers/csrc/attention/hip_fmha/instances_tiled/\\"
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..17c5ab8646
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..38b8aa3b79
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..f2d9768974
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..a8d2b933a0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..bcee717415
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..485ff4b64e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..496c34c61b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..f52e8fcd81
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..2b593af2b2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..54871d2ed1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..3f7d86019f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..400f0aaa43
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..f9063434cf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..31831836ff
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
index 36438844ee..4866c0148e 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..c87e7d2c29
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp
deleted file mode 100644
index 06957d596e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
-    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..d2b894e6b9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..a55ac98be3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..ab5c8bb2c4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..282750da49
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp
deleted file mode 100644
index cae5a03c17..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
-    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..17d3a203b0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..e4e7645e8c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..1b3a9a7c86
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..64c00b0963
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp
deleted file mode 100644
index f5a42d733b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
-    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..9d24c03b95
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..ab81e906d4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..5417efb52d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..3b55e45b84
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp
deleted file mode 100644
index 9f79c2ed5c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
-    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..e7f76cd582
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..2d5edfc0ff
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
index 4c06d77aa5..ff21e50518 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
index 407f20ab4b..316457d7b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..66d6ce7deb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..819794d6f7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..fa94726d71
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..d8f96bdb9a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..c42eade652
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..357eb57b13
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..6ad131cd68
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..f6131197af
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..15c6d599ac
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..7f7229c8b6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..bdc6996c2c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..15ac95e271
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..4bd616c5db
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..05e9357166
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
index 716a48b9c9..a72f0e8112 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false>(
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
index f79e7ee142..99e86651c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true>(
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp
deleted file mode 100644
index 8a68b03d6e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false>(
-    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..18e2f8bacc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..5bdf3d87e6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..584be86675
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..70b023ba05
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp
deleted file mode 100644
index 9fb627dc12..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true>(
-    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..082912ca6b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..15ccf9a44f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..dbfcfa438f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..c55043820e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp
deleted file mode 100644
index dff2636689..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false>(
-    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..616c49912c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..8957405858
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..558f63474d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..000c3f3ca1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp
deleted file mode 100644
index 86cc2f3eb6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias.cpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_grouped_infer.h"
-
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true>(
-    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..39f45768e0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..6028a16dfc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
index 9a16d81609..105ee9025f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false>(
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 93%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp
rename to xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
index 9d5260debd..f7f86a7730 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,5 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true>(
+template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);

From 92e088ef6f964bcd519c34185a4b615dc3f6b3b9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 20 Jan 2024 16:17:36 +0000
Subject: [PATCH 380/837] Setting k0n1_need_padding according to pipeline
 kQLoadOnce implementation

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 79 ++++++++++++-------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 52 +++++++-----
 2 files changed, 84 insertions(+), 47 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 221dd467c3..4ebe093043 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -76,39 +76,60 @@ struct batched_infer_causalmask_attnbias_dispatched
             bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
             bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
 
-            // ToDO: current pipelines all assume kQLoadOnce, which read whole k0
-            // (kK0BlockLength)
-            bool k0n1_need_padding =
-                !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-            BOOL_SWITCH_3(
-                m0_need_padding,
-                kM0NeedPadding,
-                n0k1_need_padding,
-                kN0K1NeedPadding,
-                k0n1_need_padding,
-                kK0N1NeedPadding,
-                [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                        kN0K1NeedPadding,
-                                                                        kK0N1NeedPadding,
-                                                                        has_attn_bias,
-                                                                        false, // kStoreLSE
-                                                                        occupancy>;
-
-                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                    if constexpr(HDim == 256)
-                    {
+            if constexpr(HDim == 256)
+            {
+                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH_3(
+                    m0_need_padding,
+                    kM0NeedPadding,
+                    n0k1_need_padding,
+                    kN0K1NeedPadding,
+                    k0n1_need_padding,
+                    kK0N1NeedPadding,
+                    [&] {
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                            kN0K1NeedPadding,
+                                                                            kK0N1NeedPadding,
+                                                                            has_attn_bias,
+                                                                            false, // kStoreLSE
+                                                                            occupancy>;
+
+                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
                         using FmhaPipeline =
                             ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
                         using FmhaKernel =
                             FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
                         RunWithKernel<FmhaKernel>(param, stream);
-                    }
-                    else
-                    {
+                    });
+            }
+            else
+            {
+                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH_3(
+                    m0_need_padding,
+                    kM0NeedPadding,
+                    n0k1_need_padding,
+                    kN0K1NeedPadding,
+                    k0n1_need_padding,
+                    kK0N1NeedPadding,
+                    [&] {
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                            kN0K1NeedPadding,
+                                                                            kK0N1NeedPadding,
+                                                                            has_attn_bias,
+                                                                            false, // kStoreLSE
+                                                                            occupancy>;
+
+                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
                         constexpr bool no_any_padding =
                             !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
 
@@ -131,8 +152,8 @@ struct batched_infer_causalmask_attnbias_dispatched
 
                             RunWithKernel<FmhaKernel>(param, stream);
                         };
-                    };
-                });
+                    });
+            };
         });
     };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index ce3585c09f..2909ee5fa9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -73,41 +73,57 @@ struct grouped_infer_causalmask_attnbias_dispatched
             using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
             constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
 
-            bool k0n1_need_padding =
-                !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
-
             constexpr bool kM0NeedPadding   = true;
             constexpr bool kN0K1NeedPadding = true;
 
-            BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                    kN0K1NeedPadding,
-                                                                    kK0N1NeedPadding,
-                                                                    has_attn_bias,
-                                                                    false, // kStoreLSE
-                                                                    occupancy>;
+            if constexpr(HDim == 256)
+            {
+                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                        kN0K1NeedPadding,
+                                                                        kK0N1NeedPadding,
+                                                                        has_attn_bias,
+                                                                        false, // kStoreLSE
+                                                                        occupancy>;
 
-                using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-                if constexpr(HDim == 256)
-                {
                     using FmhaPipeline =
                         ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
                     using FmhaKernel =
                         FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
                     RunWithKernel<FmhaKernel>(param, stream);
-                }
-                else
-                {
+                });
+            }
+            else
+            {
+                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                        kN0K1NeedPadding,
+                                                                        kK0N1NeedPadding,
+                                                                        has_attn_bias,
+                                                                        false, // kStoreLSE
+                                                                        occupancy>;
+
+                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
                     using FmhaPipeline =
                         ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
                     using FmhaKernel =
                         FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
                     RunWithKernel<FmhaKernel>(param, stream);
-                }
-            });
+                });
+            };
         });
     };
 

From 60a8e4a41e05acee630d90df848928447bca1032 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 21 Jan 2024 21:03:44 +0000
Subject: [PATCH 381/837] Add fmha forward c++ extension for ck-tiled

---
 setup.py                                      |   2 +
 .../attention_forward_generic_ck_tiled.cpp    |  80 +++----
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 213 ++++++++++++++++++
 .../ck_tiled_fmha_batched_forward_bp16.cpp    |  70 ++++++
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |  70 ++++++
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 179 +++++++++++++++
 .../ck_tiled_fmha_grouped_forward_bp16.cpp    |  70 ++++++
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |  70 ++++++
 .../attention/hip_fmha/ck_tiled_fmha_params.h |   2 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ..._no_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...o_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...no_causalmask_with_attnbias_headdim_64.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_128.cpp |  12 +
 ...ith_causalmask_no_attnbias_headdim_256.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_32.cpp |  12 +
 ...with_causalmask_no_attnbias_headdim_64.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_128.cpp |  12 +
 ...h_causalmask_with_attnbias_headdim_256.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_32.cpp |  12 +
 ...th_causalmask_with_attnbias_headdim_64.cpp |  12 +
 73 files changed, 1475 insertions(+), 49 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp

diff --git a/setup.py b/setup.py
index 84629d2294..bebc6c04f8 100644
--- a/setup.py
+++ b/setup.py
@@ -240,6 +240,8 @@ def get_extensions():
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_infer_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_forward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_forward_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
     else:
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index d63f0d6bf1..b27626706a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -21,20 +21,10 @@
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_params.h"
 
-/*
-extern void batched_forward_fp16(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-extern void batched_forward_bp16(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-extern void grouped_forward_fp16(
-    GroupedForwardParams& param,
-    hipStream_t stream);
-extern void grouped_forward_bp16(
-    GroupedForwardParams& param,
-    hipStream_t stream);
-*/
+extern void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream);
+extern void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream);
+extern void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream);
+extern void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream);
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
 extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
@@ -225,10 +215,8 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
 
         if(p.compute_logsumexp)
         {
-            /*
-            logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
+            logsumexp       = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
             p.logsumexp_ptr = logsumexp.data_ptr();
-            */
             throw std::runtime_error("compute logsumexp is currently not implemented by ck-tiled!");
         }
         else
@@ -348,21 +336,11 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
 
         if(p.compute_logsumexp)
         {
-            /*
-            logsumexp = at::empty(
-                {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
-            char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-            for (int i = 0; i < p.num_batches; i++) {
-              size_t tmp_logsumexp_offset = get_size_in_bytes(
-                  static_cast<size_t>(i) * Hq * p.max_seqlen_q,
-                  logsumexp.scalar_type());
-              p.logsumexp_ptrs.push_back(
-                  reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-            };
-            */
-            throw std::runtime_error("compute logsumexp is currently not implemented by ck-tiled!");
-        };
+            logsumexp = at::empty({p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+            p.logsumexp_ptr = logsumexp.data_ptr();
+        }
+        else
+            p.logsumexp_ptr = nullptr;
     };
 
     auto inDataType = query.scalar_type();
@@ -388,14 +366,17 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
         }
         else
         {
-            /*
-            if (inDataType == at::ScalarType::Half) {
-              batched_forward_fp16(batched_forward_params, stream);
-            } else if (inDataType == at::ScalarType::BFloat16) {
-              batched_forward_bp16(batched_forward_params, stream);
-            } else
-              throw std::runtime_error("input data-type is not supported!");
-            */
+            if(inDataType == at::ScalarType::Half)
+            {
+                batched_forward_fp16(batched_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                batched_forward_bp16(batched_forward_params, stream);
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+
             throw std::runtime_error(
                 "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
         };
@@ -421,14 +402,17 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
         }
         else
         {
-            /*
-            if (inDataType == at::ScalarType::Half) {
-              grouped_forward_fp16(grouped_forward_params, stream);
-            } else if (inDataType == at::ScalarType::BFloat16) {
-              grouped_forward_bp16(grouped_forward_params, stream);
-            } else
-              throw std::runtime_error("input data-type is not supported!");
-            */
+            if(inDataType == at::ScalarType::Half)
+            {
+                grouped_forward_fp16(grouped_forward_params, stream);
+            }
+            else if(inDataType == at::ScalarType::BFloat16)
+            {
+                grouped_forward_bp16(grouped_forward_params, stream);
+            }
+            else
+                throw std::runtime_error("input data-type is not supported!");
+
             throw std::runtime_error(
                 "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
         };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
new file mode 100644
index 0000000000..dd684d9f28
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -0,0 +1,213 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <optional>
+#include <sstream>
+#include <stdexcept>
+
+#include <ck/utility/common_header.hpp>
+#include <ck/host_utility/device_prop.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor_description/cluster_descriptor.hpp>
+#include <ck/tensor_description/tensor_descriptor_helper.hpp>
+#include <ck/tensor/tensor_view.hpp>
+
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck/tile_program/block_tile/block_masking.hpp>
+
+#include "ck_tiled_fmha_forward_kernel.h"
+#include "ck_tiled_fmha_fwd_epilogue.h"
+#include "ck_tiled_fmha_fwd_tile_partitioner.h"
+#include "ck_tiled_fmha_params.h"
+#include "ck_tiled_fmha_definitions.h"
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_headdim_switch.h"
+
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
+struct batched_forward_causalmask_attnbias_dispatched
+{
+    using FmhaEpilogue =
+        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
+
+    template <typename FmhaTraits, typename FmhaMask>
+    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
+        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+        HDim == 32 ? 128 : 256, // BlockSize
+        FmhaFwdShape<HDim>,
+        false, // kIsGroupMode
+        FmhaMask,
+        FmhaTraits>;
+
+    static void Run(BatchedForwardParams& param, hipStream_t stream)
+    {
+        const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+            using FmhaMask =
+                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+            using FmhaShape                 = FmhaFwdShape<HDim>;
+            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+
+            bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
+            bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
+
+            if constexpr(HDim == 256)
+            {
+                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH_3(
+                    m0_need_padding,
+                    kM0NeedPadding,
+                    n0k1_need_padding,
+                    kN0K1NeedPadding,
+                    k0n1_need_padding,
+                    kK0N1NeedPadding,
+                    [&] {
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                            kN0K1NeedPadding,
+                                                                            kK0N1NeedPadding,
+                                                                            has_attn_bias,
+                                                                            true, // kStoreLSE
+                                                                            occupancy>;
+
+                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                        using FmhaPipeline =
+                            ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+                        using FmhaKernel =
+                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                        RunWithKernel<FmhaKernel>(param, stream);
+                    });
+            }
+            else
+            {
+                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH_3(
+                    m0_need_padding,
+                    kM0NeedPadding,
+                    n0k1_need_padding,
+                    kN0K1NeedPadding,
+                    k0n1_need_padding,
+                    kK0N1NeedPadding,
+                    [&] {
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                            kN0K1NeedPadding,
+                                                                            kK0N1NeedPadding,
+                                                                            has_attn_bias,
+                                                                            true, // kStoreLSE
+                                                                            occupancy>;
+
+                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                        constexpr bool no_any_padding =
+                            !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
+
+                        if constexpr(no_any_padding)
+                        {
+                            using FmhaPipeline =
+                                ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                                    FmhaPipelineProblem>;
+                            using FmhaKernel =
+                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                            RunWithKernel<FmhaKernel>(param, stream);
+                        }
+                        else
+                        {
+                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                                FmhaPipelineProblem>;
+                            using FmhaKernel =
+                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                            RunWithKernel<FmhaKernel>(param, stream);
+                        };
+                    });
+            };
+        });
+    };
+
+    template <typename FmhaKernel>
+    static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream)
+    {
+        const auto kargs = [&] {
+            return FmhaKernel::MakeKargs(
+                param.q_ptr,
+                param.k_ptr,
+                param.v_ptr,
+                param.attn_bias_ptr,
+                param.logsumexp_ptr,
+                param.out_ptr,
+                param.M,              // seqlen_q
+                param.N,              // seqlen_k
+                param.K,              // hdim_q
+                param.Kv,             // hdim_v
+                param.Hq / param.Hkv, // nhead_ratio_qk
+                param.scale,
+                param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+                param.k_strides[1],
+                param.v_strides[1],
+                param.attn_bias_strides[2],
+                param.out_strides[1],
+                param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
+                param.k_strides[2],
+                param.v_strides[2],
+                param.attn_bias_strides[1],
+                param.M, // nhead_stride_lse
+                param.out_strides[2],
+                param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
+                param.k_strides[0],
+                param.v_strides[0],
+                param.attn_bias_strides[0],
+                param.Hq * param.M, // batch_stride_lse
+                param.out_strides[0],
+                static_cast<CausalMaskType>(param.custom_mask_type),
+                param.window_size);
+        }();
+
+        dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+        constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
+    };
+};
+
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
+void run_batched_forward_causalmask_attnbias_dispatched(BatchedForwardParams& param,
+                                                        hipStream_t stream)
+{
+    batched_forward_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
+        Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
new file mode 100644
index 0000000000..7bdf6cfd78
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -0,0 +1,70 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_batched_forward.h"
+
+// clang-format off
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+// clang-format on
+
+void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                   false,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                   true,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
+    });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
new file mode 100644
index 0000000000..05abf084ec
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -0,0 +1,70 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_batched_forward.h"
+
+// clang-format off
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+// clang-format on
+
+void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_batched_forward_causalmask_attnbias_dispatched<ck::half_t,
+                                                                   false,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_batched_forward_causalmask_attnbias_dispatched<ck::half_t,
+                                                                   true,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
+    });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
new file mode 100644
index 0000000000..9e784052ca
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -0,0 +1,179 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <optional>
+#include <sstream>
+#include <stdexcept>
+#include <iostream>
+
+#include <ck/utility/common_header.hpp>
+#include <ck/host_utility/device_prop.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor_description/cluster_descriptor.hpp>
+#include <ck/tensor_description/tensor_descriptor_helper.hpp>
+#include <ck/tensor/tensor_view.hpp>
+
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck/tile_program/block_tile/block_masking.hpp>
+
+#include "ck_tiled_fmha_forward_kernel.h"
+#include "ck_tiled_fmha_fwd_epilogue.h"
+#include "ck_tiled_fmha_fwd_tile_partitioner.h"
+#include "ck_tiled_fmha_params.h"
+#include "ck_tiled_fmha_definitions.h"
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_headdim_switch.h"
+
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
+struct grouped_forward_causalmask_attnbias_dispatched
+{
+    using FmhaEpilogue =
+        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
+
+    template <typename FmhaTraits, typename FmhaMask>
+    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
+        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+        HDim == 32 ? 128 : 256, // BlockSize
+        FmhaFwdShape<HDim>,
+        true, // kIsGroupMode
+        FmhaMask,
+        FmhaTraits>;
+
+    static void Run(GroupedForwardParams& param, hipStream_t stream)
+    {
+        const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+            using FmhaMask =
+                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+            using FmhaShape                 = FmhaFwdShape<HDim>;
+            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+
+            constexpr bool kM0NeedPadding   = true;
+            constexpr bool kN0K1NeedPadding = true;
+
+            if constexpr(HDim == 256)
+            {
+                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                        kN0K1NeedPadding,
+                                                                        kK0N1NeedPadding,
+                                                                        has_attn_bias,
+                                                                        true, // kStoreLSE
+                                                                        occupancy>;
+
+                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                });
+            }
+            else
+            {
+                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
+                bool k0n1_need_padding =
+                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+
+                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
+                                                                        kN0K1NeedPadding,
+                                                                        kK0N1NeedPadding,
+                                                                        has_attn_bias,
+                                                                        true, // kStoreLSE
+                                                                        occupancy>;
+
+                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                    using FmhaPipeline =
+                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+                    using FmhaKernel =
+                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+                    RunWithKernel<FmhaKernel>(param, stream);
+                });
+            };
+        });
+    };
+
+    template <typename FmhaKernel>
+    static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream)
+    {
+        const auto kargs = [&] {
+            return FmhaKernel::MakeKargs(
+                param.q_ptr,
+                param.k_ptr,
+                param.v_ptr,
+                param.attn_bias_ptr,
+                param.logsumexp_ptr,
+                param.out_ptr,
+                param.seqstart_q_dev_ptr,
+                param.seqstart_k_dev_ptr,
+                param.seqlen_k_dev_ptr,
+                param.K,              // hdim_q
+                param.Kv,             // hdim_v
+                param.Hq / param.Hkv, // nhead_ratio_qk
+                param.scale,
+                param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+                param.k_strides[0],
+                param.v_strides[0],
+                param.attn_bias_strides[2],
+                param.out_strides[0],
+                param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
+                param.k_strides[1],
+                param.v_strides[1],
+                param.attn_bias_strides[1],
+                param.max_seqlen_q, // nhead_stride_lse
+                param.out_strides[1],
+                static_cast<CausalMaskType>(param.custom_mask_type),
+                param.window_size);
+        }();
+
+        dim3 kGridSize =
+            FmhaKernel::GridSize(param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+        constexpr dim3 kBlockSize         = FmhaKernel::BlockSize();
+        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
+    };
+};
+
+template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
+void run_grouped_forward_causalmask_attnbias_dispatched(GroupedForwardParams& param,
+                                                        hipStream_t stream)
+{
+    grouped_forward_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
+        Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
new file mode 100644
index 0000000000..5606f13e5d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -0,0 +1,70 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_grouped_forward.h"
+
+// clang-format off
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+// clang-format on
+
+void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                   false,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
+                                                                   true,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
+    });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
new file mode 100644
index 0000000000..63b3e7b96c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -0,0 +1,70 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_grouped_forward.h"
+
+// clang-format off
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+// clang-format on
+
+void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream)
+{
+    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+            if(param.custom_mask_type == 0)
+                run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t,
+                                                                   false,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
+                run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t,
+                                                                   true,
+                                                                   HAS_ATTN_BIAS,
+                                                                   HDim>(param, stream);
+            else
+                throw std::runtime_error("Invalid custom_mask_type value");
+        });
+    });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 11274c5c4e..e518ccaaa6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -102,7 +102,7 @@ struct GroupedForwardParams : public GroupedInferParams
     int64_t philox_offset;
 
     // completely contiguous
-    std::vector<void*> logsumexp_ptrs;
+    void* logsumexp_ptr;
 
     // TODO: need remove this after dev-op fix
     std::vector<void*> randvals_ptrs;
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..ab8b8f270a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..bff6529861
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..7c7e53df5c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..a2cefd689c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..4bce63f3df
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..fd9fee0648
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..8a4583c6fa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..e3ddab117c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..2726966faf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..5158b5c445
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..25a8f9316d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..b174cd6419
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..941488b93e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..986dfe9df3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..d1590b38d8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..b245f57159
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..2bf4db3f8d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..41029c7dc6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..c0df0271a7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..52b129eb26
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..b8a496fed6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..53a9328c66
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..5ee4e29f4a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..3d9791d337
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..ef0eae81d7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..a5870aacf3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..a8cc8231a7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..c7b13e92ec
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..4911aba00b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..42e4a7a93f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..d43b65227c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..bce8348c63
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..ede42cd704
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..4452ef80e8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..7de8d370cf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..66f084dc4d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..894b979d06
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..53346a1961
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..fc0329da09
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..4e169225d9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..19e9974189
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..86cb616c39
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..f9b6f38ebf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..64433cc551
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..b2df4367b3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..de62061b59
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..604a129856
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..985fe0a74a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..7c905fcc17
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..bcd9cbf9a6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..0be43523f2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..fd490972ae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..0722ee7df5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..9d6178ab8a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..db9e4fbd56
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..ae08424447
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..fe1c3f8c0c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..d246e0dcaa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..611d7bfb8e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..2b9d7a2c64
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
new file mode 100644
index 0000000000..165e61310f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
new file mode 100644
index 0000000000..5496abe4cc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
new file mode 100644
index 0000000000..deb14598ad
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
new file mode 100644
index 0000000000..f803b0f05a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -0,0 +1,12 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    GroupedForwardParams& param, hipStream_t stream);

From 9357a2405b0fcfaa839fb14fa467b8c3715c4c54 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 22 Jan 2024 13:54:21 +0000
Subject: [PATCH 382/837] Set SUPPORTED_MAX_K=256 in ck.py

---
 tests/test_mem_eff_attention_ck.py | 3 ---
 xformers/ops/fmha/ck.py            | 2 +-
 2 files changed, 1 insertion(+), 4 deletions(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 2caf187be0..313185cbb9 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -437,9 +437,6 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if k > 256 or kv > 256:
-        pytest.skip("head-dim size bigger than 256 is not supported by CK-FlashAttention")
-
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 200f6a41ba..0ecc7f317a 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -157,7 +157,7 @@ class FwOp(AttentionFwOpBase):
     OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
-    SUPPORTED_MAX_K = 65536
+    SUPPORTED_MAX_K = 256 
     
     if use_ck_tiled: 
         SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {

From 04ddd4c3f5f306f7a883f8b3baaa191233e89ce8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 24 Jan 2024 00:06:36 +0000
Subject: [PATCH 383/837] fix index in split-k attention

---
 .../csrc/attention/hip_fmha/attention_forward_splitk.cpp  | 8 ++++----
 .../hip_fmha/ck_attention_forward_decoder_splitk.h        | 4 ++--
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 8ac38a4403..ae514108a4 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -923,9 +923,9 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k, /* block_size */ 16);
+    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
 
-    auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, split_k, /* wavefronts_per_block */ 1);
+    auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
 
     auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
     auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
@@ -949,7 +949,7 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
 static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k) {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split_attention_hip(XQ, K, V, seqlen, split_k, /* wavefronts_per_block */ 1);
+    auto [O_ref, m_ref, l_ref] = split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
 
     auto O_torch = split_reduce_torch(O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
     auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
@@ -965,7 +965,7 @@ static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_s
 
     double qk_scale        = 1. / sqrt(XQ.size(-1));
 
-    auto result = efficient_attention_forward_decoder_splitk_ck_impl</* threads_per_wavefront */ 64, /* wavefronts_per_block */ 1>(
+    auto result = efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront, kWavefrontsPerBlock>(
         XQ, K, V, seqlen, qk_scale, split_k);
     auto gold_result = efficient_attention_forward_decoder_splitk_torch(XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
     auto e2e_mismatch = percent_mismatch(result, gold_result);
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index a4c61f127b..38ca826009 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -356,7 +356,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
 
     // each wavefront computes partial sum of exp.
     compute_t softmax_denominator = 0.0f;
-    for(int32_t t = tt_low + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
+    for(int32_t t = n_unrolled_loops * dtt * split_idx + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
     {
         softmax_denominator += ck::math::exp(smem[t - n_unrolled_loops * dtt * split_idx] - max_qk_acc);
     }
@@ -384,7 +384,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     }
 
     // now, compute the normalization across all threads.
-    for(int32_t t = tt_low + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
+    for(int32_t t = n_unrolled_loops * dtt * split_idx + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
     {
         // softmax scale by sumexp will happen in the reduction kernel
         smem[t - n_unrolled_loops * dtt * split_idx] = ck::math::exp(smem[t - n_unrolled_loops * dtt * split_idx] - max_qk_acc);

From c922d7333296f5caddbbcf04445cb66417b64bf6 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 24 Jan 2024 01:33:30 +0000
Subject: [PATCH 384/837] fix index in softmax reduce and complete fixing
 wavefronts per block optimization

---
 .../hip_fmha/attention_forward_splitk.cpp        |  2 +-
 .../ck_attention_forward_decoder_splitk.h        | 16 ++++++++++++----
 2 files changed, 13 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index ae514108a4..6a1eb8044a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -8,7 +8,7 @@
 
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock  = 1;
+constexpr int32_t kWavefrontsPerBlock  = 8;
 constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
 } // namespace
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 38ca826009..5237231ffc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -355,10 +355,15 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     }
 
     // each wavefront computes partial sum of exp.
+    { // softmax reduce begin
     compute_t softmax_denominator = 0.0f;
-    for(int32_t t = n_unrolled_loops * dtt * split_idx + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
+    const int32_t t_low = n_unrolled_loops * dtt * split_idx;
+    const int32_t t_high = (split_idx + 1 < split_k) ? n_unrolled_loops * dtt * (split_idx + 1) : t_max;
+    for(int32_t t = t_low + thread_linear_idx; 
+        t < t_high; 
+        t += threads_per_block)
     {
-        softmax_denominator += ck::math::exp(smem[t - n_unrolled_loops * dtt * split_idx] - max_qk_acc);
+        softmax_denominator += ck::math::exp(smem[t - t_low] - max_qk_acc);
     }
     softmax_denominator =
         wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
@@ -384,12 +389,15 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     }
 
     // now, compute the normalization across all threads.
-    for(int32_t t = n_unrolled_loops * dtt * split_idx + thread_linear_idx; t < tt_tail_high; t += threads_per_block)
+    for(int32_t t = t_low + thread_linear_idx; 
+        t < t_high;
+        t += threads_per_block)
     {
         // softmax scale by sumexp will happen in the reduction kernel
-        smem[t - n_unrolled_loops * dtt * split_idx] = ck::math::exp(smem[t - n_unrolled_loops * dtt * split_idx] - max_qk_acc);
+        smem[t - t_low] = ck::math::exp(smem[t - t_low] - max_qk_acc);
     }
     __syncthreads();
+    } // softmax reduce end
 
     // Split T across wavefronts in a block
     // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]

From f66696599b591621e9b0beeb3eb910816c5386d2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 24 Jan 2024 01:36:54 +0000
Subject: [PATCH 385/837] clang-format-10

---
 .../hip_fmha/attention_forward_splitk.cpp     | 274 +++++++++++-------
 .../ck_attention_forward_decoder_splitk.h     | 107 ++++---
 2 files changed, 220 insertions(+), 161 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 6a1eb8044a..5737fbfbec 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -178,8 +178,8 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     auto H = XQ.size(3);
     auto K = XQ.size(4);
 
-    auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
-    auto split_max = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+    auto O_splits     = at::empty({split_k, B, M, G, H, K}, XQ.options());
+    auto split_max    = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
     auto split_sumexp = at::empty_like(split_max);
 
     efficient_attention_forward_decoder_splitk_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
@@ -241,8 +241,13 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m)
 
 // clang-format on
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q, const at::Tensor& K, const at::Tensor& V, const at::Tensor& k_seqlens, const int32_t split_k, const int32_t block_size)
+static std::tuple<at::Tensor, at::Tensor, at::Tensor>
+split_attention_torch(const at::Tensor& Q,
+                      const at::Tensor& K,
+                      const at::Tensor& V,
+                      const at::Tensor& k_seqlens,
+                      const int32_t split_k,
+                      const int32_t block_size)
 {
     auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
 
@@ -250,30 +255,36 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
     std::vector<at::Tensor> m_splits;
     std::vector<at::Tensor> l_splits;
 
-    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    for(int32_t split_idx = 0; split_idx < split_k; ++split_idx)
+    {
         std::vector<at::Tensor> O_batch;
         std::vector<at::Tensor> m_batch;
         std::vector<at::Tensor> l_batch;
 
-        for(size_t b = 0; b < k_seqlens.numel(); ++b) {
-            auto seqlen = k_seqlens[b].item<int64_t>();
+        for(size_t b = 0; b < k_seqlens.numel(); ++b)
+        {
+            auto seqlen         = k_seqlens[b].item<int64_t>();
             const int64_t t_low = split_idx * (seqlen / split_k / block_size) * block_size;
-            const int64_t t_high = (split_idx + 1 < split_k) 
-                                 ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-                                 : seqlen;
+            const int64_t t_high =
+                (split_idx + 1 < split_k)
+                    ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
+                    : seqlen;
 
             const bool empty = t_low == t_high;
 
-            auto S        = at::einsum("mghk, nghk -> mghn",
-                            {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-                            /* einsum eval path */ at::nullopt);
-            auto m = empty ? at::empty_like(S) : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+            auto S = at::einsum(
+                "mghk, nghk -> mghn",
+                {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+                /* einsum eval path */ at::nullopt);
+            auto m = empty ? at::empty_like(S)
+                           : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
             auto s = at::exp(at::sub(S, m));
             auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-            auto O        = at::einsum("mghn, nghk -> mghk", 
-                            {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)}, 
-                            /* einsum eval path */ at::nullopt);
-            if (empty) {
+            auto O = at::einsum("mghn, nghk -> mghk",
+                                {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+                                /* einsum eval path */ at::nullopt);
+            if(empty)
+            {
                 m = at::empty_like(at::slice(O, -1, 0, 1));
                 l = at::zeros_like(m);
                 m.fill_(ck::NumericLimits<float>::Lowest());
@@ -299,36 +310,39 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
     return std::make_tuple(O_cat, m_cat, l_cat);
 }
 
-static at::Tensor
-split_reduce_torch(const at::Tensor& O_splits, const at::Tensor& m_splits, const at::Tensor& l_splits, int32_t split_k)
-{   
-    auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-    auto global_max = at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+static at::Tensor split_reduce_torch(const at::Tensor& O_splits,
+                                     const at::Tensor& m_splits,
+                                     const at::Tensor& l_splits,
+                                     int32_t split_k)
+{
+    auto O             = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+    auto global_max    = at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
     auto global_sumexp = at::zeros_like(global_max);
 
-    for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-        auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
-        auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+    for(int32_t split_idx = 0; split_idx < split_k; ++split_idx)
+    {
+        auto local_O      = at::slice(O_splits, 0, split_idx, split_idx + 1);
+        auto local_max    = at::slice(m_splits, -1, split_idx, split_idx + 1);
         auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
 
         auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-        auto alpha = at::exp(log_alpha);
+        auto alpha     = at::exp(log_alpha);
         alpha.nan_to_num_(1.);
 
-        auto pick_new = at::less(local_max, global_max);
+        auto pick_new          = at::less(local_max, global_max);
         auto pick_current_coef = at::where(pick_new, 1., alpha);
-        auto pick_new_coef = at::where(pick_new, alpha, 1.);
+        auto pick_new_coef     = at::where(pick_new, alpha, 1.);
 
-        O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-        global_sumexp = at::add(at::mul(pick_current_coef, global_sumexp), at::mul(pick_new_coef, local_sumexp));
-        global_max = at::max(local_max, global_max);
+        O             = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+        global_sumexp = at::add(at::mul(pick_current_coef, global_sumexp),
+                                at::mul(pick_new_coef, local_sumexp));
+        global_max    = at::max(local_max, global_max);
     }
-    
+
     return at::div(O, global_sumexp);
 }
 
-static at::Tensor 
-efficient_attention_forward_decoder_splitk_torch(
+static at::Tensor efficient_attention_forward_decoder_splitk_torch(
     const at::Tensor& XQ,                 // [B, 1, G, H, D]
     const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
     const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
@@ -337,8 +351,9 @@ efficient_attention_forward_decoder_splitk_torch(
     int32_t split_k,
     int32_t block_size)
 {
-    auto [O_split, m, l] = split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-    auto O               = split_reduce_torch(O_split, m, l, split_k);
+    auto [O_split, m, l] =
+        split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
+    auto O = split_reduce_torch(O_split, m, l, split_k);
     return O.reshape_as(XQ);
 }
 
@@ -602,11 +617,10 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
                  const dim3 grid_dim,
                  const dim3 block_dim,
                  const size_t lds_bytes)
-            : 
-              split_O(split_O),
+            : split_O(split_O),
               split_max(split_max),
               split_sumexp(split_sumexp),
-              O(O),              
+              O(O),
               O_size_m(O_size_m),
               O_size_g(O_size_g),
               O_size_h(O_size_h),
@@ -722,12 +736,13 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
 } // namespace tensor_operation
 } // namespace ck
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const at::Tensor& XQ,
-                                                                           const at::Tensor& K,
-                                                                           const at::Tensor& V,
-                                                                           const at::Tensor& seqlen,
-                                                                           const int32_t split_k,
-                                                                           const int32_t wavefronts_per_block)
+static std::tuple<at::Tensor, at::Tensor, at::Tensor>
+split_attention_hip(const at::Tensor& XQ,
+                    const at::Tensor& K,
+                    const at::Tensor& V,
+                    const at::Tensor& seqlen,
+                    const int32_t split_k,
+                    const int32_t wavefronts_per_block)
 {
 
     at::OptionalDeviceGuard guard(XQ.device());
@@ -738,13 +753,14 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
     auto H = XQ.size(3);
     auto D = XQ.size(4);
 
-    double qk_scale        = 1. / sqrt(D);
+    double qk_scale = 1. / sqrt(D);
 
-    auto O                    = at::empty_like(XQ);
-    constexpr auto rank       = 5;
-    auto split_O              = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-    auto split_max            = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat)).fill_(ck::NumericLimits<float>::Lowest());
-    auto split_sumexp         = at::zeros_like(split_max);
+    auto O              = at::empty_like(XQ);
+    constexpr auto rank = 5;
+    auto split_O        = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+    auto split_max      = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+                         .fill_(ck::NumericLimits<float>::Lowest());
+    auto split_sumexp = at::zeros_like(split_max);
 
     dim3 blocks(B * H * M * G, split_k);
     dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
@@ -765,17 +781,18 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
         XQ.scalar_type(),
         "efficient_attention_forward_decoder_split_attention_ck_test",
         [&] {
-            using ck_data_t   = c10_to_data_t<scalar_t>::type;
-            using device_op_t = ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<ck_data_t>;
-            auto op           = device_op_t{};
+            using ck_data_t = c10_to_data_t<scalar_t>::type;
+            using device_op_t =
+                ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<ck_data_t>;
+            auto op = device_op_t{};
 
             auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
             auto K_acc  = K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
             auto V_acc  = V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
             auto split_O_acc =
                 split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-            auto O_acc   = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto seq_acc = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+            auto O_acc         = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto seq_acc       = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
             auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
             auto split_sumexp_acc =
                 split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
@@ -815,8 +832,11 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(const
     return std::make_tuple(split_O, split_max, split_sumexp);
 }
 
-static
-at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_max, const at::Tensor& split_sumexp, const int32_t split_k) {
+static at::Tensor split_reduce_hip(const at::Tensor& split_O,
+                                   const at::Tensor& split_max,
+                                   const at::Tensor& split_sumexp,
+                                   const int32_t split_k)
+{
     at::OptionalDeviceGuard guard(split_O.device());
 
     auto B = split_O.size(1);
@@ -829,7 +849,7 @@ at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_m
     TORCH_CHECK_EQ(split_k, split_max.size(-1));
     TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
 
-    constexpr auto rank       = 5;
+    constexpr auto rank = 5;
 
     TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
     TORCH_CHECK_EQ(split_max.dim(), rank);
@@ -837,7 +857,7 @@ at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_m
 
     auto O = at::zeros({B, M, G, H, D}, split_O.options());
 
-    auto stream            = at::cuda::getCurrentHIPStream().stream();
+    auto stream    = at::cuda::getCurrentHIPStream().stream();
     auto lds_bytes = 0;
 
     dim3 blocks(B * H * M * G);
@@ -850,13 +870,14 @@ at::Tensor split_reduce_hip(const at::Tensor& split_O, const at::Tensor& split_m
         O.scalar_type(),
         "efficient_attention_forward_decoder_split_reduce_ck_test",
         [&] {
-            using ck_data_t   = c10_to_data_t<scalar_t>::type;
-            using device_op_t = ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<ck_data_t>;
-            auto op           = device_op_t{};
+            using ck_data_t = c10_to_data_t<scalar_t>::type;
+            using device_op_t =
+                ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<ck_data_t>;
+            auto op = device_op_t{};
 
             auto split_O_acc =
                 split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-            auto O_acc   = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+            auto O_acc         = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
             auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
             auto split_sumexp_acc =
                 split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
@@ -907,25 +928,29 @@ generate_inputs(const int32_t padding,
     auto XQ          = at::randn({B, num_queries, G, Hq, D}, options);
     auto K           = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
                       : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
-    auto V = at::randn_like(K);
+    auto V      = at::randn_like(K);
     auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
 
     return std::make_tuple(XQ, K, V, seqlen);
 }
 
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
-    auto mask = at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b)
+{
+    auto mask          = at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
     auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
     return 1. - percent_match.item<float>();
 }
 
-static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
+static void
+test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split_attention_torch(XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
+    auto [O_ref, m_ref, l_ref] =
+        split_attention_torch(XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
 
-    auto [O_hip, m_hip, l_hip] = split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+    auto [O_hip, m_hip, l_hip] =
+        split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
 
     auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
     auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
@@ -935,64 +960,96 @@ static void test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq
     //     std::cout << "ref: " << m_ref << std::endl << "hip: " << m_hip << std::endl;
     // }
 
-    printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched split_sumexp elements percentage: %.2f\n", 
-            padding,
-            batch_size,
-            Hq,
-            Hkv,
-            split_k,
-            O_percent_mismatch,
-            m_percent_mismatch,
-            l_percent_mismatch);
+    printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
+           "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
+           "split_sumexp elements percentage: %.2f\n",
+           padding,
+           batch_size,
+           Hq,
+           Hkv,
+           split_k,
+           O_percent_mismatch,
+           m_percent_mismatch,
+           l_percent_mismatch);
 }
 
-static void test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k) {
+static void
+test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
+{
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    auto [O_ref, m_ref, l_ref] = split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+    auto [O_ref, m_ref, l_ref] =
+        split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
 
     auto O_torch = split_reduce_torch(O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-    auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
+    auto O_hip   = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
 
     auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f \n", 
-        padding, batch_size, Hq, Hkv, split_k, hip_torch_mismatch);
+    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
+           "percentage: %.2f \n",
+           padding,
+           batch_size,
+           Hq,
+           Hkv,
+           split_k,
+           hip_torch_mismatch);
 }
 
-static void test_splitk_decoder_e2e_correctness(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
+static void test_splitk_decoder_e2e_correctness(
+    int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
 {
     auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
 
-    double qk_scale        = 1. / sqrt(XQ.size(-1));
+    double qk_scale = 1. / sqrt(XQ.size(-1));
 
-    auto result = efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront, kWavefrontsPerBlock>(
+    auto result = efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront,
+                                                                     kWavefrontsPerBlock>(
         XQ, K, V, seqlen, qk_scale, split_k);
-    auto gold_result = efficient_attention_forward_decoder_splitk_torch(XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
+    auto gold_result = efficient_attention_forward_decoder_splitk_torch(
+        XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
     auto e2e_mismatch = percent_mismatch(result, gold_result);
-    printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements percentage: %.2f\n", padding, batch_size, Hq, Hkv, split_k, e2e_mismatch);
+    printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
+           "elements percentage: %.2f\n",
+           padding,
+           batch_size,
+           Hq,
+           Hkv,
+           split_k,
+           e2e_mismatch);
 }
 
 int main(int argc, char** argv)
 {
     if(argc == 1)
     {
-        for (auto padding : {32, 4096}) {
-            for (auto batch_size : {1, 8}) {
-                for (auto Hq : { 16 }) {
-                    for (auto Hkv : { 16 }) {
-                        for (auto split_k : {1, 2, 4, 8, 16}) {
-                            test_splitk_decoder_e2e_correctness(padding, batch_size, Hq, Hkv, split_k);
+        for(auto padding : {32, 4096})
+        {
+            for(auto batch_size : {1, 8})
+            {
+                for(auto Hq : {16})
+                {
+                    for(auto Hkv : {16})
+                    {
+                        for(auto split_k : {1, 2, 4, 8, 16})
+                        {
+                            test_splitk_decoder_e2e_correctness(
+                                padding, batch_size, Hq, Hkv, split_k);
                         }
                     }
                 }
             }
         }
 
-        for (auto padding : {32, 4096}) {
-            for (auto batch_size : {1, 8}) {
-                for (auto Hq : { 16 }) {
-                    for (auto Hkv : { 16 }) {
-                        for (auto split_k : {1, 2, 4, 8, 16}) {
+        for(auto padding : {32, 4096})
+        {
+            for(auto batch_size : {1, 8})
+            {
+                for(auto Hq : {16})
+                {
+                    for(auto Hkv : {16})
+                    {
+                        for(auto split_k : {1, 2, 4, 8, 16})
+                        {
                             test_split_attention(padding, batch_size, Hq, Hkv, split_k);
                         }
                     }
@@ -1000,11 +1057,16 @@ int main(int argc, char** argv)
             }
         }
 
-        for (auto padding : {32, 4096}) {
-            for (auto batch_size : {1, 8}) {
-                for (auto Hq : { 16 }) {
-                    for (auto Hkv : { 16 }) {
-                        for (auto split_k : {1, 2}) {
+        for(auto padding : {32, 4096})
+        {
+            for(auto batch_size : {1, 8})
+            {
+                for(auto Hq : {16})
+                {
+                    for(auto Hkv : {16})
+                    {
+                        for(auto split_k : {1, 2})
+                        {
                             test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
                         }
                     }
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 5237231ffc..bdd51d596e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -133,16 +133,16 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
         {
             O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
         }
-        compute_t local_max         = *(split_max + blockIdx.x * split_k + split_idx);
-        compute_t local_sumexp      = *(split_sumexp + blockIdx.x * split_k + split_idx);
-        
-        compute_t log_alpha         = -std::abs(local_max - global_max);
-        compute_t alpha             = isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
-        
+        compute_t local_max    = *(split_max + blockIdx.x * split_k + split_idx);
+        compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx);
+
+        compute_t log_alpha = -std::abs(local_max - global_max);
+        compute_t alpha     = isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+
         bool pick_new               = local_max < global_max;
         compute_t pick_current_coef = pick_new ? 1. : alpha;
         compute_t pick_new_coef     = pick_new ? alpha : 1.;
-        
+
         global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
         global_O_compute.vec =
             pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
@@ -207,8 +207,8 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
     // tokens.
     const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
 
-    const int32_t lane_idx              = threadIdx.x;
-    const int32_t wavefront_idx         = threadIdx.y;
+    const int32_t lane_idx      = threadIdx.x;
+    const int32_t wavefront_idx = threadIdx.y;
     // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile time constants;
     // investigate when optimizing
     const int32_t threads_per_wavefront = blockDim.x;
@@ -255,7 +255,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
 
     data_vec_t k_loads[n_loop_unroll] = {};
 
-    const auto dtt              = wavefronts_per_block * n_loop_unroll;
+    const auto dtt = wavefronts_per_block * n_loop_unroll;
     // only last split gets the tail.
     // the first (split_k - 1) splits have a number of iterations divisible by `dtt`
     const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
@@ -283,12 +283,11 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
         for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
         {
             compute_t qk_acc = 0;
-            ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                q_thread, k_loads[ttt], qk_acc);
-            qk_acc  *= qk_scale;
+            ck::inner_product<data_vec_t, data_vec_t, compute_t>(q_thread, k_loads[ttt], qk_acc);
+            qk_acc *= qk_scale;
 
-            qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-            max_qk_acc   = ck::math::max(qk_acc, max_qk_acc);
+            qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+            max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
             if(lane_idx == 0)
             {
                 smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
@@ -356,47 +355,44 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
 
     // each wavefront computes partial sum of exp.
     { // softmax reduce begin
-    compute_t softmax_denominator = 0.0f;
-    const int32_t t_low = n_unrolled_loops * dtt * split_idx;
-    const int32_t t_high = (split_idx + 1 < split_k) ? n_unrolled_loops * dtt * (split_idx + 1) : t_max;
-    for(int32_t t = t_low + thread_linear_idx; 
-        t < t_high; 
-        t += threads_per_block)
-    {
-        softmax_denominator += ck::math::exp(smem[t - t_low] - max_qk_acc);
-    }
-    softmax_denominator =
-        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+        compute_t softmax_denominator = 0.0f;
+        const int32_t t_low           = n_unrolled_loops * dtt * split_idx;
+        const int32_t t_high =
+            (split_idx + 1 < split_k) ? n_unrolled_loops * dtt * (split_idx + 1) : t_max;
+        for(int32_t t = t_low + thread_linear_idx; t < t_high; t += threads_per_block)
+        {
+            softmax_denominator += ck::math::exp(smem[t - t_low] - max_qk_acc);
+        }
+        softmax_denominator =
+            wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
 
-    if(lane_idx == 0)
-    {
-        smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-    }
-    __syncthreads();
+        if(lane_idx == 0)
+        {
+            smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+        }
+        __syncthreads();
 
-    // now, compute sum of exp(x - max(x)) over all intermediate results.
-    softmax_denominator = 0.0;
-    if(lane_idx < wavefronts_per_block)
-    {
-        softmax_denominator = smem[KV_M_MAX + lane_idx];
-    }
-    softmax_denominator =
-        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+        // now, compute sum of exp(x - max(x)) over all intermediate results.
+        softmax_denominator = 0.0;
+        if(lane_idx < wavefronts_per_block)
+        {
+            softmax_denominator = smem[KV_M_MAX + lane_idx];
+        }
+        softmax_denominator =
+            wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
 
-    if(wavefront_idx == 0 && lane_idx == 0)
-    {
-        split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
-    }
+        if(wavefront_idx == 0 && lane_idx == 0)
+        {
+            split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+        }
 
-    // now, compute the normalization across all threads.
-    for(int32_t t = t_low + thread_linear_idx; 
-        t < t_high;
-        t += threads_per_block)
-    {
-        // softmax scale by sumexp will happen in the reduction kernel
-        smem[t - t_low] = ck::math::exp(smem[t - t_low] - max_qk_acc);
-    }
-    __syncthreads();
+        // now, compute the normalization across all threads.
+        for(int32_t t = t_low + thread_linear_idx; t < t_high; t += threads_per_block)
+        {
+            // softmax scale by sumexp will happen in the reduction kernel
+            smem[t - t_low] = ck::math::exp(smem[t - t_low] - max_qk_acc);
+        }
+        __syncthreads();
     } // softmax reduce end
 
     // Split T across wavefronts in a block
@@ -439,7 +435,7 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
                     load_v<data_t, data_vec_t>(
                         cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
                     ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
-                    o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+                    o_acc   = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
                 }
             }
         }
@@ -632,8 +628,9 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator
         using Argument = DeviceOp::Argument;
         float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
         {
-            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ << std::endl;
-            
+            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ <<
+            // std::endl;
+
             auto threads_per_wavefront = arg.block_dim.x;
 
             auto Q_size_k_alignment_necessary = 0;

From ecaf6239154e98cd1ae8be3631494154942fd529 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 24 Jan 2024 16:24:32 +0000
Subject: [PATCH 386/837] Fix v_dram_transposed transpose transform in the
 kernel

---
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 57 +++----------------
 1 file changed, 7 insertions(+), 50 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index acabd1e7af..6240a6d6d5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -472,56 +472,13 @@ struct FmhaFwdKernel
                     transform_tensor_view(v_dram_naive,
                                           make_tuple(make_pass_through_transform(kargs.seqlen_k),
                                                      make_pass_through_transform(kargs.hdim_v)),
-                                          make_tuple(Sequence<1>{}, Sequence<0>{}),
-                                          make_tuple(Sequence<0>{}, Sequence<1>{}));
-
-                /// FIXME: The return value of v_dram_naive.GetTensorDescriptor().GetLength() is
-                /// same as
-                ///   v_dram_transposed.GetTensorDescriptor().GetLength(). Replace following
-                ///   if-clause by pad_tensor_view() call after fixing this issue.
-                if constexpr(kK0N1NeedPadding || kN0K1NeedPadding)
-                {
-                    const auto transform_n1 = [&] {
-                        if constexpr(kK0N1NeedPadding)
-                        {
-                            const index_t n1_pad_length =
-                                FmhaPipeline::kN1 *
-                                    ck::math::integer_divide_ceil(kargs.hdim_v, FmhaPipeline::kN1) -
-                                kargs.hdim_v;
-
-                            return make_right_pad_transform(kargs.hdim_v, n1_pad_length);
-                        }
-                        else
-                        {
-                            return make_pass_through_transform(kargs.hdim_v);
-                        }
-                    }();
-
-                    const auto transform_k1 = [&] {
-                        if constexpr(kN0K1NeedPadding)
-                        {
-                            const index_t k1_pad_length =
-                                FmhaPipeline::kK1 * ck::math::integer_divide_ceil(
-                                                        kargs.seqlen_k, FmhaPipeline::kK1) -
-                                kargs.seqlen_k;
-
-                            return make_right_pad_transform(kargs.seqlen_k, k1_pad_length);
-                        }
-                        else
-                        {
-                            return make_pass_through_transform(kargs.seqlen_k);
-                        }
-                    }();
-
-                    return transform_tensor_view(v_dram_transposed,
-                                                 make_tuple(transform_n1, transform_k1),
-                                                 make_tuple(Sequence<0>{}, Sequence<1>{}),
-                                                 make_tuple(Sequence<0>{}, Sequence<1>{}));
-                }
-                else
-                {
-                    return v_dram_transposed;
-                }
+                                          make_tuple(Sequence<0>{}, Sequence<1>{}),
+                                          make_tuple(Sequence<1>{}, Sequence<0>{}));
+
+                return pad_tensor_view(
+                    v_dram_transposed,
+                    make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+                    Sequence<kK0N1NeedPadding, kN0K1NeedPadding>{});
             }
             else
             {

From 8b337bd3ce9a2b5ba20ad98ed682da8bd713e343 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 24 Jan 2024 16:25:38 +0000
Subject: [PATCH 387/837] Skipe trition_splitk for test_forward in
 test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index a1ca3b089f..2b841e641b 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -456,6 +456,10 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         k,
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    if torch.version.hip and op is fmha.triton_splitk.FwOp:
+        pytest.skip("trition_splitk Fwd is not supported on ROCm!")
+
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"

From ee577e204cd6bab6498dbf475e2e08b8b03f50fa Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 24 Jan 2024 17:41:05 +0000
Subject: [PATCH 388/837] cleanup commented dead code

---
 .../attention/hip_fmha/attention_forward_splitk.cpp | 13 -------------
 .../hip_fmha/ck_attention_forward_decoder_splitk.h  |  4 ----
 2 files changed, 17 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 5737fbfbec..de3ed88a73 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -503,12 +503,7 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator
         using Argument = DeviceOp::Argument;
         float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
         {
-
-            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ <<
-            // std::endl;
-
             auto threads_per_wavefront = arg.block_dim.x;
-
             auto Q_size_k_alignment_necessary = 0;
 
             for(auto vec_size : {4, 2, 1})
@@ -673,10 +668,6 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
         float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
         {
             auto threads_per_wavefront = arg.block_dim.x;
-
-            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ <<
-            // std::endl;
-
             auto O_size_k_alignment_necessary = 0;
 
             for(auto vec_size : {4, 2, 1})
@@ -956,10 +947,6 @@ test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hk
     auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
     auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
 
-    // if (m_percent_mismatch > 0) {
-    //     std::cout << "ref: " << m_ref << std::endl << "hip: " << m_hip << std::endl;
-    // }
-
     printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
            "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
            "split_sumexp elements percentage: %.2f\n",
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index bdd51d596e..316a5d497c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -628,11 +628,7 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator
         using Argument = DeviceOp::Argument;
         float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
         {
-            // std::cout << arg.str() << std::endl << "stream_id: " << stream_config.stream_id_ <<
-            // std::endl;
-
             auto threads_per_wavefront = arg.block_dim.x;
-
             auto Q_size_k_alignment_necessary = 0;
 
             for(auto vec_size : {4, 2, 1})

From a21ac038579195ee0f763c90400d3be48eb74d68 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 24 Jan 2024 18:10:54 +0000
Subject: [PATCH 389/837] enable ck split-k in benchmark_attn_decoding

---
 xformers/benchmarks/benchmark_attn_decoding.py               | 5 +++++
 .../csrc/attention/hip_fmha/attention_forward_splitk.cpp     | 4 ++--
 2 files changed, 7 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 4174ed4fc2..e56964d030 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -108,6 +108,10 @@ class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
     OP = xops.fmha.triton_splitk.FwOp
 
 
+class AttentionDecodingCKSplitKV(AttentionDecodingFlashDecoding):
+    OP = xops.fmha.forward_splitk.FwOp
+ 
+
 class AttentionDecodingPyTorchRepeat(AttentionDecodingFlashDecoding):
     def fw(self) -> None:
         B, Mq, Mkv, Hq, Hkv, K = self.shapes
@@ -125,6 +129,7 @@ def fw(self) -> None:
     "ck-decoder": AttentionDecodingCKDecoder,
     "flash-decoding": AttentionDecodingFlashDecoding,
     "triton_splitK": AttentionDecodingSplitKV,
+    "ck_splitK": AttentionDecodingCKSplitKV,
 }
 
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index de3ed88a73..833b152ebd 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -8,7 +8,7 @@
 
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock  = 8;
+constexpr int32_t kWavefrontsPerBlock  = 16;
 constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
 } // namespace
 
@@ -72,7 +72,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
 
     TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
 
-    TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+    TORCH_CHECK(cache_K.size(1) / split_k <= KV_M_MAX);
     TORCH_CHECK(cache_K.size(4) <= K_MAX);
 
     constexpr auto rank = 5;

From 5e3213f3c949df2c0dbba3bcaf1fb37f3c630f6d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 24 Jan 2024 21:28:35 +0000
Subject: [PATCH 390/837] add rocm_ci workflow

---
 .github/workflows/rocm_ci.yml | 71 +++++++++++++++++++++++++++++++++++
 1 file changed, 71 insertions(+)
 create mode 100644 .github/workflows/rocm_ci.yml

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
new file mode 100644
index 0000000000..6d36a7e97b
--- /dev/null
+++ b/.github/workflows/rocm_ci.yml
@@ -0,0 +1,71 @@
+name: ROCM_CI
+
+on: 
+  pull_request:
+    types: [labeled, synchronize, reopened]
+
+jobs:
+  build:
+    if: contains(github.event.label.name, 'rocm')
+    runs-on: rocm
+
+    steps:
+    - uses: actions/checkout@v2
+    - name: Get CPU info on Ubuntu
+      if: contains(runner.os, 'linux')
+      run: |
+        cat /proc/cpuinfo
+    - name: Get env vars
+      run: |
+        echo GITHUB_WORKFLOW   = $GITHUB_WORKFLOW
+        echo HOME              = $HOME
+        echo PWD               = $PWD
+        echo GITHUB_ACTION     = $GITHUB_ACTION
+        echo GITHUB_ACTIONS    = $GITHUB_ACTIONS
+        echo GITHUB_REPOSITORY = $GITHUB_REPOSITORY
+        echo GITHUB_EVENT_NAME = $GITHUB_EVENT_NAME
+        echo GITHUB_EVENT_PATH = $GITHUB_EVENT_PATH
+        echo GITHUB_WORKSPACE  = $GITHUB_WORKSPACE
+        echo GITHUB_SHA        = $GITHUB_SHA
+        echo GITHUB_REF        = $GITHUB_REF
+
+        export GIT_BRANCH=${GITHUB_BASE_REF:-${GITHUB_REF#refs/heads/}}
+        echo GIT_BRANCH        = $GIT_BRANCH
+        
+        export ROCM_PATH=/opt/rocm
+        echo ROCM_PATH         = $ROCM_PATH
+
+        export MAX_JOBS=64
+        echo MAX_JOBS          = $MAX_JOBS
+
+        hipcc --version
+        rocm-smi
+        rocminfo | grep "gfx"
+
+    - name: Build XFormers
+      run: |
+        git clone --recursive -b $GIT_BRANCH $GITHUB_REPOSITORY
+        docker run -it --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G -v $PWD/xformers:/xformers  rocm/pytorch-nightly:latest
+
+        pip3 install --upgrade pip
+        pip3 uninstall -y xformers
+        MAX_JOBS=$MAX_JOBS pip3 install -e /xformers --verbose
+        pip3 install scipy==1.10
+
+        python3 -c "import torch; print(torch.__version__)"
+        python3 -m xformers.info
+
+    - name: Run python tests
+      run: |
+        pytest -rpfs /xformers/tests/test_mem_eff_attention_ck.py | tee test_mem_eff_attention_ck.log
+    
+    - name: Archive logs
+      uses: actions/upload-artifact@v3
+      with:
+        name: test results
+        path: test_mem_eff_attention_ck.log
+
+    - name: Process test results
+      run: |
+        echo "Processing test results TBD"
+      

From 0e47337a5456c12456fcba2bb43075632be72e92 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 25 Jan 2024 19:17:29 +0000
Subject: [PATCH 391/837] move scipy import from file level under function
 similar to _vec_binom_test

saves a few keystrokes when setting up environment
---
 tests/test_mem_eff_attention_ck.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index f569e1d636..5f2fc57cbc 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -11,7 +11,6 @@
 import pytest
 import torch
 import torch.nn.functional as F
-from scipy.stats import binomtest
 from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
@@ -939,6 +938,8 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 @pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
 @pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
 def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
+    from scipy.stats import binomtest
+
     device = "cuda"
     scale = 0.05 
     query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale

From 360201f1efb72200ee7ceaafff52cc68663f3093 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jan 2024 22:46:11 +0000
Subject: [PATCH 392/837] Add including of math_v2.hpp to
 ck_attention_forward_decoder_splitk.h

---
 .../attention/hip_fmha/ck_attention_forward_decoder_splitk.h | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 316a5d497c..f83ab9dccd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -6,6 +6,7 @@
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
+#include <ck/utility/math_v2.hpp>
 
 namespace {
 
@@ -628,7 +629,7 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator
         using Argument = DeviceOp::Argument;
         float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
         {
-            auto threads_per_wavefront = arg.block_dim.x;
+            auto threads_per_wavefront        = arg.block_dim.x;
             auto Q_size_k_alignment_necessary = 0;
 
             for(auto vec_size : {4, 2, 1})
@@ -723,4 +724,4 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator
 };
 } // namespace device
 } // namespace tensor_operation
-} // namespace ck
\ No newline at end of file
+} // namespace ck

From faf1b166ed391df2293852b4644f681d1a7dee51 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 29 Jan 2024 21:54:04 +0000
Subject: [PATCH 393/837] move forward_splitk to ck_splitk; make dispatch aware
 of ck_splitk and ck_decoder

---
 tests/test_mem_eff_attention_ck.py                    | 2 +-
 xformers/ops/fmha/__init__.py                         | 4 ++--
 xformers/ops/fmha/{forward_splitk.py => ck_splitk.py} | 0
 xformers/ops/fmha/dispatch.py                         | 6 ++++--
 4 files changed, 7 insertions(+), 5 deletions(-)
 rename xformers/ops/fmha/{forward_splitk.py => ck_splitk.py} (100%)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck.py
index 5f2fc57cbc..633ad761b8 100644
--- a/tests/test_mem_eff_attention_ck.py
+++ b/tests/test_mem_eff_attention_ck.py
@@ -1769,7 +1769,7 @@ def test_decoder(
     )
 
 
-@pytest.mark.parametrize("op", [fmha.forward_splitk.FwOp_S1, fmha.forward_splitk.FwOp_S2, fmha.forward_splitk.FwOp_S4])
+@pytest.mark.parametrize("op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4])
 @pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 589047ce90..06b995c308 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -8,7 +8,7 @@
 import torch
 
 
-from . import attn_bias, cutlass, decoder, flash, small_k, triton, triton_splitk, forward_splitk, ck, ck_decoder
+from . import attn_bias, cutlass, decoder, flash, small_k, triton, triton_splitk, ck, ck_decoder, ck_splitk
 from .attn_bias import AttentionBias, BlockDiagonalMask, LowerTriangularMask
 from .common import (
     AttentionBwOpBase,
@@ -32,7 +32,7 @@
 TritonFlashAttentionOp = (triton.FwOp, cutlass.BwOp if torch.version.cuda else ck.BwOp)
 MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp)
 MemoryEfficientAttentionCkDecoderOp = (ck_decoder.FwOp, ck.BwOp)
-MemoryEfficientAttentionSplitKCkOp = (forward_splitk.FwOp, ck.BwOp) 
+MemoryEfficientAttentionSplitKCkOp = (ck_splitk.FwOp, ck.BwOp) 
 
 class _fMHA(torch.autograd.Function):
     @staticmethod
diff --git a/xformers/ops/fmha/forward_splitk.py b/xformers/ops/fmha/ck_splitk.py
similarity index 100%
rename from xformers/ops/fmha/forward_splitk.py
rename to xformers/ops/fmha/ck_splitk.py
diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index c9708770b6..7113855cbf 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -5,10 +5,11 @@
 
 
 import textwrap
+import torch
 from collections import deque
 from typing import List, Sequence, Type, TypeVar
 
-from . import attn_bias, cutlass, decoder, flash, small_k, triton, triton_splitk
+from . import attn_bias, cutlass, decoder, flash, small_k, triton, triton_splitk, ck, ck_decoder, ck_splitk
 from .common import AttentionBwOpBase, AttentionFwOpBase, Inputs
 
 
@@ -93,7 +94,7 @@ def _dispatch_fw_priority_list(
         if not mqa_or_gqa:
             # With multiquery, cutlass is sometimes faster than decoder
             # but it's not currently clear when.
-            priority_list_ops.appendleft(decoder.FwOp)
+            priority_list_ops.appendleft(decoder.FwOp if torch.version.cuda else ck_decoder.FwOp)
         # Split-KV is useful with MQA
         # for short Q-seqlen / long K-seqlen
         if mqa_or_gqa and inp.query.shape[1] <= 32 and inp.key.shape[1] >= 256:
@@ -105,6 +106,7 @@ def _dispatch_fw_priority_list(
             elif inp.query.ndim == 5:  # BMGHK
                 parallelism_BH = inp.query.shape[0] * inp.query.shape[2]
             if parallelism_BH > 0 and parallelism_BH < 64:
+                priority_list_ops.appendleft(ck_splitk.FwOp)
                 priority_list_ops.appendleft(triton_splitk.FwOp)
                 # Without variable seqlen flash is fastest
                 if not isinstance(inp.attn_bias, attn_bias.BlockDiagonalMask):

From 323ebae0efb9f33b553d8702dbcb1f7f829f0208 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 30 Jan 2024 15:44:55 +0000
Subject: [PATCH 394/837] Synchronize to latest ck-tiled and update accordingly

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 66 ++++++++++---------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 66 ++++++++++---------
 .../hip_fmha/ck_tiled_fmha_definitions.h      | 12 ++--
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 33 +++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 33 +++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 33 +++++-----
 7 files changed, 128 insertions(+), 117 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 73166db692..52b621ecf3 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 73166db6920afac53189098acf4774f9fa929143
+Subproject commit 52b621ecf3533514031670dd99b6f2059832baaa
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index dd684d9f28..2f15bb2c78 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -53,7 +53,6 @@ struct batched_forward_causalmask_attnbias_dispatched
         typename FmhaFwdTypeConfig<scalar_t>::PDataType,
         typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        HDim == 32 ? 128 : 256, // BlockSize
         FmhaFwdShape<HDim>,
         false, // kIsGroupMode
         FmhaMask,
@@ -71,28 +70,31 @@ struct batched_forward_causalmask_attnbias_dispatched
 
             using FmhaShape                 = FmhaFwdShape<HDim>;
             using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
 
-            bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
-            bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
+            bool pad_seqlen_q  = !(param.M % FmhaShape::kM0 == 0);
+            bool pad_seqlen_k  = !(param.N % FmhaShape::kN0 == 0);
+            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
                 // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-                BOOL_SWITCH_3(
-                    m0_need_padding,
-                    kM0NeedPadding,
-                    n0k1_need_padding,
-                    kN0K1NeedPadding,
-                    k0n1_need_padding,
-                    kK0N1NeedPadding,
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
+
+                BOOL_SWITCH_4(
+                    pad_seqlen_q,
+                    kPadSeqLenQ,
+                    pad_seqlen_k,
+                    kPadSeqLenK,
+                    pad_headdim_q,
+                    kPadHeadDimQ,
+                    pad_headdim_v,
+                    kPadHeadDimV,
                     [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                            kN0K1NeedPadding,
-                                                                            kK0N1NeedPadding,
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                            kPadSeqLenK,
+                                                                            kPadHeadDimQ,
+                                                                            kPadHeadDimV,
                                                                             has_attn_bias,
                                                                             true, // kStoreLSE
                                                                             occupancy>;
@@ -110,20 +112,22 @@ struct batched_forward_causalmask_attnbias_dispatched
             else
             {
                 // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-                BOOL_SWITCH_3(
-                    m0_need_padding,
-                    kM0NeedPadding,
-                    n0k1_need_padding,
-                    kN0K1NeedPadding,
-                    k0n1_need_padding,
-                    kK0N1NeedPadding,
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+
+                BOOL_SWITCH_4(
+                    pad_seqlen_q,
+                    kPadSeqLenQ,
+                    pad_seqlen_k,
+                    kPadSeqLenK,
+                    pad_headdim_q,
+                    kPadHeadDimQ,
+                    pad_headdim_v,
+                    kPadHeadDimV,
                     [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                            kN0K1NeedPadding,
-                                                                            kK0N1NeedPadding,
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                            kPadSeqLenK,
+                                                                            kPadHeadDimQ,
+                                                                            kPadHeadDimV,
                                                                             has_attn_bias,
                                                                             true, // kStoreLSE
                                                                             occupancy>;
@@ -131,7 +135,7 @@ struct batched_forward_causalmask_attnbias_dispatched
                         using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
                         constexpr bool no_any_padding =
-                            !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
+                            !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
 
                         if constexpr(no_any_padding)
                         {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 4ebe093043..526ef62054 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -53,7 +53,6 @@ struct batched_infer_causalmask_attnbias_dispatched
         typename FmhaFwdTypeConfig<scalar_t>::PDataType,
         typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        HDim == 32 ? 128 : 256, // BlockSize
         FmhaFwdShape<HDim>,
         false, // kIsGroupMode
         FmhaMask,
@@ -71,28 +70,31 @@ struct batched_infer_causalmask_attnbias_dispatched
 
             using FmhaShape                 = FmhaFwdShape<HDim>;
             using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
 
-            bool m0_need_padding   = !(param.M % FmhaShape::kM0 == 0);
-            bool n0k1_need_padding = !(param.N % FmhaShape::kN0 == 0);
+            bool pad_seqlen_q  = !(param.M % FmhaShape::kM0 == 0);
+            bool pad_seqlen_k  = !(param.N % FmhaShape::kN0 == 0);
+            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
                 // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-                BOOL_SWITCH_3(
-                    m0_need_padding,
-                    kM0NeedPadding,
-                    n0k1_need_padding,
-                    kN0K1NeedPadding,
-                    k0n1_need_padding,
-                    kK0N1NeedPadding,
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
+
+                BOOL_SWITCH_4(
+                    pad_seqlen_q,
+                    kPadSeqLenQ,
+                    pad_seqlen_k,
+                    kPadSeqLenK,
+                    pad_headdim_q,
+                    kPadHeadDimQ,
+                    pad_headdim_v,
+                    kPadHeadDimV,
                     [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                            kN0K1NeedPadding,
-                                                                            kK0N1NeedPadding,
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                            kPadSeqLenK,
+                                                                            kPadHeadDimQ,
+                                                                            kPadHeadDimV,
                                                                             has_attn_bias,
                                                                             false, // kStoreLSE
                                                                             occupancy>;
@@ -110,20 +112,22 @@ struct batched_infer_causalmask_attnbias_dispatched
             else
             {
                 // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
-
-                BOOL_SWITCH_3(
-                    m0_need_padding,
-                    kM0NeedPadding,
-                    n0k1_need_padding,
-                    kN0K1NeedPadding,
-                    k0n1_need_padding,
-                    kK0N1NeedPadding,
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+
+                BOOL_SWITCH_4(
+                    pad_seqlen_q,
+                    kPadSeqLenQ,
+                    pad_seqlen_k,
+                    kPadSeqLenK,
+                    pad_headdim_q,
+                    kPadHeadDimQ,
+                    pad_headdim_v,
+                    kPadHeadDimV,
                     [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                            kN0K1NeedPadding,
-                                                                            kK0N1NeedPadding,
+                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                            kPadSeqLenK,
+                                                                            kPadHeadDimQ,
+                                                                            kPadHeadDimV,
                                                                             has_attn_bias,
                                                                             false, // kStoreLSE
                                                                             occupancy>;
@@ -131,7 +135,7 @@ struct batched_infer_causalmask_attnbias_dispatched
                         using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
                         constexpr bool no_any_padding =
-                            !(kM0NeedPadding || kN0K1NeedPadding || kK0N1NeedPadding);
+                            !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
 
                         if constexpr(no_any_padding)
                         {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index 624efa70d3..8444f097a7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -48,8 +48,6 @@ struct FmhaFwdTypeConfig<ck::bhalf_t>
     using ODataType           = ck::bhalf_t;
 };
 
-using FmhaFwdVLayout = ck::tensor_layout::gemm::RowMajor;
-
 template <ck::index_t HDim>
 struct FmhaFwdBlockTile;
 
@@ -80,6 +78,8 @@ struct FmhaFwdBlockTile<256>
 using FmhaFwdBlockWarps = ck::Sequence<4, 1, 1>;
 using FmhaFwdWarpTile   = ck::Sequence<32, 32, 16>;
 
+static constexpr bool IsVLayoutRowMajor = true;
+
 template <ck::index_t HDim>
 struct FmhaFwdShape;
 
@@ -89,7 +89,7 @@ struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockT
                                                           FmhaFwdWarpTile,
                                                           ck::Sequence<2, 1, 1>,
                                                           FmhaFwdWarpTile,
-                                                          FmhaFwdVLayout>
+                                                          IsVLayoutRowMajor>
 {
 };
 
@@ -99,7 +99,7 @@ struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockT
                                                           FmhaFwdWarpTile,
                                                           FmhaFwdBlockWarps,
                                                           FmhaFwdWarpTile,
-                                                          FmhaFwdVLayout>
+                                                          IsVLayoutRowMajor>
 {
 };
 
@@ -109,7 +109,7 @@ struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlock
                                                            FmhaFwdWarpTile,
                                                            FmhaFwdBlockWarps,
                                                            FmhaFwdWarpTile,
-                                                           FmhaFwdVLayout>
+                                                           IsVLayoutRowMajor>
 {
 };
 
@@ -119,6 +119,6 @@ struct FmhaFwdShape<256> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlock
                                                            FmhaFwdWarpTile,
                                                            FmhaFwdBlockWarps,
                                                            FmhaFwdWarpTile,
-                                                           FmhaFwdVLayout>
+                                                           IsVLayoutRowMajor>
 {
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 6240a6d6d5..542fed4f16 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -39,14 +39,15 @@ struct FmhaFwdKernel
 
     using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
 
-    static constexpr bool kIsGroupMode     = FmhaPipeline::kIsGroupMode;
-    static constexpr bool kM0NeedPadding   = FmhaPipeline::kM0NeedPadding;
-    static constexpr bool kN0K1NeedPadding = FmhaPipeline::kN0K1NeedPadding;
-    static constexpr bool kK0N1NeedPadding = FmhaPipeline::kK0N1NeedPadding;
-    static constexpr bool kHasBias         = FmhaPipeline::kHasBias;
-    static constexpr bool kStoreLSE        = FmhaPipeline::kStoreLSE;
-    using FmhaMask                         = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
-    static constexpr bool kHasMask         = FmhaMask::IsMasking;
+    static constexpr bool kIsGroupMode = FmhaPipeline::kIsGroupMode;
+    static constexpr bool kPadSeqLenQ  = FmhaPipeline::kPadSeqLenQ;
+    static constexpr bool kPadSeqLenK  = FmhaPipeline::kPadSeqLenK;
+    static constexpr bool kPadHeadDimQ = FmhaPipeline::kPadHeadDimQ;
+    static constexpr bool kPadHeadDimV = FmhaPipeline::kPadHeadDimV;
+    static constexpr bool kHasBias     = FmhaPipeline::kHasBias;
+    static constexpr bool kStoreLSE    = FmhaPipeline::kStoreLSE;
+    using FmhaMask                     = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
+    static constexpr bool kHasMask     = FmhaMask::IsMasking;
 
     template <ck::index_t I> // to avoid duplicated base class prblem, introduce an template arg
     struct FmhaFwdEmptyKargs
@@ -435,14 +436,14 @@ struct FmhaFwdKernel
                 return pad_tensor_view(
                     q_dram_naive,
                     make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0BlockLength>{}),
-                    Sequence<kM0NeedPadding, kK0N1NeedPadding>{});
+                    Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
             }
             else
             {
                 return pad_tensor_view(
                     q_dram_naive,
                     make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{}),
-                    Sequence<kM0NeedPadding, kK0N1NeedPadding>{});
+                    Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
             }
         }();
         const auto k_dram = [&]() {
@@ -456,7 +457,7 @@ struct FmhaFwdKernel
             return pad_tensor_view(
                 k_dram_naive,
                 make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
-                Sequence<kN0K1NeedPadding, kK0N1NeedPadding>{});
+                Sequence<kPadSeqLenK, kPadHeadDimQ>{});
         }();
         const auto v_dram = [&]() {
             if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
@@ -478,7 +479,7 @@ struct FmhaFwdKernel
                 return pad_tensor_view(
                     v_dram_transposed,
                     make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-                    Sequence<kK0N1NeedPadding, kN0K1NeedPadding>{});
+                    Sequence<kPadHeadDimV, kPadSeqLenK>{});
             }
             else
             {
@@ -492,7 +493,7 @@ struct FmhaFwdKernel
                 return pad_tensor_view(
                     v_dram_naive,
                     make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-                    Sequence<kK0N1NeedPadding, kN0K1NeedPadding>{});
+                    Sequence<kPadHeadDimV, kPadSeqLenK>{});
             }
         }();
 
@@ -537,7 +538,7 @@ struct FmhaFwdKernel
 
                     return pad_tensor_view(bias_dram_naive,
                                            bias_dram_window_lengths,
-                                           Sequence<kM0NeedPadding, kN0K1NeedPadding>{});
+                                           Sequence<kPadSeqLenQ, kPadSeqLenK>{});
                 }();
 
                 return make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
@@ -566,7 +567,7 @@ struct FmhaFwdKernel
                                                                          Number<1>{});
 
                     return pad_tensor_view(
-                        lse_dram_naive, lse_dram_window_lengths, Sequence<kM0NeedPadding>{});
+                        lse_dram_naive, lse_dram_window_lengths, Sequence<kPadSeqLenQ>{});
                 }();
 
                 return make_tile_window(lse_dram, lse_dram_window_lengths, {i_m0});
@@ -652,7 +653,7 @@ struct FmhaFwdKernel
             return pad_tensor_view(
                 o_dram_naive,
                 make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-                Sequence<kM0NeedPadding, kK0N1NeedPadding>{});
+                Sequence<kPadSeqLenQ, kPadHeadDimV>{});
         }();
 
         auto o_dram_window =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 9e784052ca..4b4eb602de 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -53,7 +53,6 @@ struct grouped_forward_causalmask_attnbias_dispatched
         typename FmhaFwdTypeConfig<scalar_t>::PDataType,
         typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        HDim == 32 ? 128 : 256, // BlockSize
         FmhaFwdShape<HDim>,
         true, // kIsGroupMode
         FmhaMask,
@@ -71,21 +70,23 @@ struct grouped_forward_causalmask_attnbias_dispatched
 
             using FmhaShape                 = FmhaFwdShape<HDim>;
             using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : (HDim == 256) ? 1 : 2;
 
-            constexpr bool kM0NeedPadding   = true;
-            constexpr bool kN0K1NeedPadding = true;
+            constexpr bool kPadSeqLenQ = true;
+            constexpr bool kPadSeqLenK = true;
+
+            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
                 // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
 
-                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                        kN0K1NeedPadding,
-                                                                        kK0N1NeedPadding,
+                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                        kPadSeqLenK,
+                                                                        kPadHeadDimQ,
+                                                                        kPadHeadDimV,
                                                                         has_attn_bias,
                                                                         true, // kStoreLSE
                                                                         occupancy>;
@@ -103,13 +104,13 @@ struct grouped_forward_causalmask_attnbias_dispatched
             else
             {
                 // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
-                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                        kN0K1NeedPadding,
-                                                                        kK0N1NeedPadding,
+                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                        kPadSeqLenK,
+                                                                        kPadHeadDimQ,
+                                                                        kPadHeadDimV,
                                                                         has_attn_bias,
                                                                         true, // kStoreLSE
                                                                         occupancy>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 2909ee5fa9..ee77133174 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -53,7 +53,6 @@ struct grouped_infer_causalmask_attnbias_dispatched
         typename FmhaFwdTypeConfig<scalar_t>::PDataType,
         typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
         typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        HDim == 32 ? 128 : 256, // BlockSize
         FmhaFwdShape<HDim>,
         true, // kIsGroupMode
         FmhaMask,
@@ -71,21 +70,23 @@ struct grouped_infer_causalmask_attnbias_dispatched
 
             using FmhaShape                 = FmhaFwdShape<HDim>;
             using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : 2;
+            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
 
-            constexpr bool kM0NeedPadding   = true;
-            constexpr bool kN0K1NeedPadding = true;
+            constexpr bool kPadSeqLenQ = true;
+            constexpr bool kPadSeqLenK = true;
+
+            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
                 // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0 == 0 && param.Kv % FmhaShape::kN1 == 0);
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
 
-                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                        kN0K1NeedPadding,
-                                                                        kK0N1NeedPadding,
+                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                        kPadSeqLenK,
+                                                                        kPadHeadDimQ,
+                                                                        kPadHeadDimV,
                                                                         has_attn_bias,
                                                                         false, // kStoreLSE
                                                                         occupancy>;
@@ -103,13 +104,13 @@ struct grouped_infer_causalmask_attnbias_dispatched
             else
             {
                 // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool k0n1_need_padding =
-                    !(param.K % FmhaShape::kK0BlockLength == 0 && param.Kv % FmhaShape::kN1 == 0);
+                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
-                BOOL_SWITCH(k0n1_need_padding, kK0N1NeedPadding, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kM0NeedPadding,
-                                                                        kN0K1NeedPadding,
-                                                                        kK0N1NeedPadding,
+                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
+                                                                        kPadSeqLenK,
+                                                                        kPadHeadDimQ,
+                                                                        kPadHeadDimV,
                                                                         has_attn_bias,
                                                                         false, // kStoreLSE
                                                                         occupancy>;

From 9d2be4f6c7120a02f47a6fbfde33e96f0f9d1d35 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 30 Jan 2024 16:30:46 +0000
Subject: [PATCH 395/837] fix benchmark_attn_decoding

---
 xformers/benchmarks/benchmark_attn_decoding.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index e56964d030..e1298592c7 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -109,7 +109,7 @@ class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
 
 
 class AttentionDecodingCKSplitKV(AttentionDecodingFlashDecoding):
-    OP = xops.fmha.forward_splitk.FwOp
+    OP = xops.fmha.ck_splitk.FwOp
  
 
 class AttentionDecodingPyTorchRepeat(AttentionDecodingFlashDecoding):

From 7c3c766bca79f27eaab565ec25ba0061c64b5c6a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 30 Jan 2024 19:40:42 +0000
Subject: [PATCH 396/837] Remove third_party/composable_kernel_tiled

---
 third_party/composable_kernel_tiled | 1 -
 1 file changed, 1 deletion(-)
 delete mode 160000 third_party/composable_kernel_tiled

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
deleted file mode 160000
index db28be6c69..0000000000
--- a/third_party/composable_kernel_tiled
+++ /dev/null
@@ -1 +0,0 @@
-Subproject commit db28be6c69026f51630fa402f23464c4ffae463b

From 708c047c9a4eb1bf9c11bbfecf2bccfb4e687c4b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 30 Jan 2024 23:26:00 +0000
Subject: [PATCH 397/837] [Fix] use kK0BlockLength for HeadDim256 padding
 judging

---
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward.h     | 7 +------
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h  | 7 +------
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward.h     | 7 +------
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h  | 7 +------
 4 files changed, 4 insertions(+), 24 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 2f15bb2c78..fd0f05b9d4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -74,13 +74,11 @@ struct batched_forward_causalmask_attnbias_dispatched
 
             bool pad_seqlen_q  = !(param.M % FmhaShape::kM0 == 0);
             bool pad_seqlen_k  = !(param.N % FmhaShape::kN0 == 0);
+            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
             bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
-                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
-
                 BOOL_SWITCH_4(
                     pad_seqlen_q,
                     kPadSeqLenQ,
@@ -111,9 +109,6 @@ struct batched_forward_causalmask_attnbias_dispatched
             }
             else
             {
-                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-
                 BOOL_SWITCH_4(
                     pad_seqlen_q,
                     kPadSeqLenQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 526ef62054..d7af0af432 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -75,12 +75,10 @@ struct batched_infer_causalmask_attnbias_dispatched
             bool pad_seqlen_q  = !(param.M % FmhaShape::kM0 == 0);
             bool pad_seqlen_k  = !(param.N % FmhaShape::kN0 == 0);
             bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
             if constexpr(HDim == 256)
             {
-                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
-
                 BOOL_SWITCH_4(
                     pad_seqlen_q,
                     kPadSeqLenQ,
@@ -111,9 +109,6 @@ struct batched_infer_causalmask_attnbias_dispatched
             }
             else
             {
-                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-
                 BOOL_SWITCH_4(
                     pad_seqlen_q,
                     kPadSeqLenQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 4b4eb602de..7b8707aa31 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -75,13 +75,11 @@ struct grouped_forward_causalmask_attnbias_dispatched
             constexpr bool kPadSeqLenQ = true;
             constexpr bool kPadSeqLenK = true;
 
+            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
             bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
-                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
-
                 BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
                     using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
                                                                         kPadSeqLenK,
@@ -103,9 +101,6 @@ struct grouped_forward_causalmask_attnbias_dispatched
             }
             else
             {
-                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-
                 BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
                     using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
                                                                         kPadSeqLenK,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index ee77133174..31849f7b62 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -75,13 +75,11 @@ struct grouped_infer_causalmask_attnbias_dispatched
             constexpr bool kPadSeqLenQ = true;
             constexpr bool kPadSeqLenK = true;
 
+            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
             bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
             if constexpr(HDim == 256)
             {
-                // BlockFmhaPipelineQSKSVS uses kQLoadOnce == false
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0 == 0);
-
                 BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
                     using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
                                                                         kPadSeqLenK,
@@ -103,9 +101,6 @@ struct grouped_infer_causalmask_attnbias_dispatched
             }
             else
             {
-                // BlockFmhaPipelineQRKSVS uses kQLoadOnce == true
-                bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-
                 BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
                     using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
                                                                         kPadSeqLenK,

From a0f264368b47ebabd3d6a2045f64be1b7cf68c5b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 31 Jan 2024 18:22:20 +0000
Subject: [PATCH 398/837] Tiny type change for custom_mask_type in param class

---
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index e518ccaaa6..880434cf46 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -34,7 +34,7 @@ struct BatchedInferParams
     const void* v_ptr;
     const void* attn_bias_ptr;
 
-    uint8_t custom_mask_type;
+    int custom_mask_type;
     int window_size; // local-attention
 
     void* out_ptr;
@@ -86,7 +86,7 @@ struct GroupedInferParams
     const void* v_ptr;
     const void* attn_bias_ptr;
 
-    uint8_t custom_mask_type;
+    int custom_mask_type;
     int window_size; // local-attention
 
     void* out_ptr;

From 96f3027d35d6218190b52979fb0eb3a489b18e6b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 1 Feb 2024 14:14:31 +0000
Subject: [PATCH 399/837] Change to use ROCm repo for ck-tiled submodule

---
 .gitmodules                         | 4 ++--
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 9ab802ac3b..41a2922cb7 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -10,5 +10,5 @@
 	url = https://github.com/Dao-AILab/flash-attention.git
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
-	url = https://github.com/asroy/ck_tile.git
-	branch = fmha_attemp_async_copy_unify
+	url = https://github.com/ROCm/composable_kernel.git
+	branch = ck_tile/fmha_attemp_async_copy_unify
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 52b621ecf3..eb53e235c7 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 52b621ecf3533514031670dd99b6f2059832baaa
+Subproject commit eb53e235c76e3da0374214221e94c45419b90bec

From f3f2be4e547fc9fb1a43b26ac23c837b27a6fe58 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 1 Feb 2024 17:06:47 +0000
Subject: [PATCH 400/837] Remove tests/test_forward_ck_tiled.py

---
 tests/test_forward_ck_tiled.py | 2229 --------------------------------
 1 file changed, 2229 deletions(-)
 delete mode 100644 tests/test_forward_ck_tiled.py

diff --git a/tests/test_forward_ck_tiled.py b/tests/test_forward_ck_tiled.py
deleted file mode 100644
index 1484deaae8..0000000000
--- a/tests/test_forward_ck_tiled.py
+++ /dev/null
@@ -1,2229 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import math
-import random
-from functools import partial
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
-
-import pytest
-import torch
-import torch.nn.functional as F
-from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
-
-import xformers.ops
-from xformers.attn_bias_utils import create_attn_bias
-from xformers.ops import fmha
-from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
-from xformers.ops.fmha.common import AttentionOpBase
-from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
-
-from .utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-_types = [torch.float16, torch.bfloat16]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
-    fmha.ck.BwOp,
-]
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    for B in op._TEST_BATCH_SIZES:
-        for Mq in [32, 256]:
-            for Mkv in [32, 64, 256, 1024]:
-                for K in op._TEST_K:
-                    shapes.append((B, Mq, Mkv, 1, K, K))
-        Mq = 256
-        Mkv = 128
-        K = 32
-        H = 1
-        # Weird values of parameters
-        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
-            shapes.append((B, M, Mkv, H, K, K))
-            shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
-            if _K <= op.SUPPORTED_MAX_K:
-                shapes.append((B, Mq, Mkv, H, _K, _K))
-        # Different value for K / Kv
-        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-            for _K in [32, 36, 64, 256 + 8]:
-                shapes.append((B, Mq, Mkv, H, K, _K))
-                shapes.append((B, Mq, Mkv, H, _K, K))
-        # Exotic sizes
-        for K in op._TEST_K:
-            shapes.append((B, 16, 1024, H, K, K))
-            shapes.append((B, 1024, 16, H, K, K))
-        # Some number of heads
-        for H in [3, 5, 12]:
-            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
-    # Filter-out not supported shapes
-    shapes = [
-        shape
-        for shape in shapes
-        if len(
-            op.shape_not_supported_reasons(
-                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
-            )
-        )
-        == 0
-    ]
-    # Add some random shapes
-    if op in [
-        fmha.cutlass.FwOp,
-        fmha.cutlass.BwOp,
-        fmha.flash.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        found_count = 0
-        while found_count < 200:
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
-                continue
-            found_count += 1
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def make_id(op, device, dtype, bias_type, *shape):
-    return (
-        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-        f"-{'-'.join([str(s) for s in shape])}"
-    )
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if bias_type in {
-                            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-                            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
-                        }:
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-    return {
-        "argvalues": combination,
-        "ids": [make_id(*c) for c in combination],
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
-)
-
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 5:
-
-        def attn_bias_group(group: int):
-            if isinstance(attn_bias, torch.Tensor):
-                return attn_bias[:, group]
-            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    attn_bias._bias[:, group]
-                )
-            return attn_bias
-
-        return torch.stack(
-            [
-                ref_attention_bmhk(
-                    q[:, :, g],
-                    k[:, :, g],
-                    v[:, :, g],
-                    scale=scale,
-                    attn_bias=attn_bias_group(g),
-                )
-                for g in range(q.shape[2])
-            ],
-            dim=2,
-        )
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, scale=scale, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
-    tensor_with_grad: Optional[torch.Tensor] = None
-    if isinstance(attn_bias, torch.Tensor):
-        tensor_with_grad = attn_bias
-    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-        tensor_with_grad = attn_bias._bias
-    if tensor_with_grad is not None:
-        grad = tensor_with_grad.grad
-        if clear:
-            tensor_with_grad.grad = None
-        return grad
-    return None
-
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-    g: int = 1,
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-
-    mask_is_bottom_right = attn_bias_type is not None and issubclass(
-        attn_bias_type,
-        (
-            fmha.attn_bias.LowerTriangularFromBottomRightMask,
-            fmha.attn_bias.LowerTriangularFromBottomRightLocalAttentionMask,
-            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
-            fmha.attn_bias.BlockDiagonalCausalLocalAttentionMask,
-            fmha.attn_bias.LocalAttentionFromBottomRightMask,
-        ),
-    )
-    if mask_is_bottom_right and q_len > kv_len:
-        # Bottom-right attention and local-attention masks require q_len <= kv_len
-        kv_len = q_len
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype)
-    elif fmt == "BMHK":
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype)
-    else:
-        assert fmt == "BMGHK"
-        query = torch.randn((B, q_len, g, h, k), device=device, dtype=dtype)
-        key = torch.randn((B, kv_len, g, 1, k), device=device, dtype=dtype)
-        value = torch.randn((B, kv_len, g, 1, kv), device=device, dtype=dtype)
-
-    for x in [query, key, value]:
-        x.mul_(scale)
-
-    if fmt == "BMGHK":
-        # Expand - after the in-place mul
-        key = key.expand((B, kv_len, g, h, k))
-        value = value.expand((B, kv_len, g, h, k))
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            num_heads_groups=g,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("packed", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if k > 256 or kv > 256:
-        pytest.skip("head-dim size bigger than 256 is not supported by CK-FlashAttention")
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK" if packed else fmt,
-        **kwargs,
-    )
-
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                num_heads_groups=1,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        elif fmt == "BMHK":
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-        else:
-            assert False, f"Unsupport fmt {fmt} with packing"
-        assert not query.is_contiguous()
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("k_len", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 4])
-@pytest.mark.parametrize("kv_len", [128, 512])
-@pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("dtype", _types)
-def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
-    device = "cuda"
-    scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
-    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
-    # this should be equivalent to the average over value
-    ref = value.mean(1, keepdim=True).expand_as(query)
-
-    if dtype is torch.float16:
-        assert_allclose(out, ref, atol=1e-5)
-    else:
-        assert_allclose(out, ref, atol=1e-2)
-
-def _block_diag_reshape_lse(
-    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
-) -> torch.Tensor:
-    """LSE can be padded, let's remove the padding"""
-    parts = []
-    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
-        parts.append(slice[:, : end - start])
-    return torch.cat(parts, dim=1).unsqueeze(1)
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
-    )
-
-    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query,
-        key,
-        value,
-        op=op,
-        attn_bias=attn_bias,
-    )
-    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            tensor_bias = attn_bias.materialize(
-                (query.shape[0], 1, query.shape[1], key.shape[1]),
-                device=query.device,
-                dtype=torch.float32,
-            )
-        else:
-            assert isinstance(attn_bias, torch.Tensor)
-            tensor_bias = attn_bias
-        if tensor_bias.ndim == 4:
-            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
-        attn = attn + tensor_bias.float()
-    ref_lse = attn.logsumexp(-1)
-    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
-        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
-    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
-
-
-@cuda_only
-@pytest.mark.parametrize("op", [fmha.cutlass.FwOp, fmha.flash.FwOp])
-def test_logsumexp_mqa(op):
-    if not op.is_available():
-        pytest.skip("not available")
-
-    dtype = torch.float16
-    s = 3
-    query = torch.randn([1, 1, 32, 128], dtype=dtype, device="cuda") * s
-    key = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
-        -1, -1, 32, -1
-    )
-    value = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
-        -1, -1, 32, -1
-    )
-    assert key.stride(2) == 0
-
-    _, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query,
-        key,
-        value,
-        op=op,
-    )
-    query, key, value = [x[0].transpose(0, 1) for x in [query, key, value]]
-    attn = (query.float() / query.shape[-1] ** 0.5) @ key.float().transpose(-2, -1)
-    ref_lse = attn.logsumexp(-1)
-    assert_allclose(lse[0, :, 0], ref_lse[:, 0], atol=2e-4)
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("grad_out_contiguous", [False, True])
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_backward(
-    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    grad_out_contiguous,
-    fmt,
-):
-    (
-        op_bw,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    ## ToDo: reopen bfloat16 for testing
-    if dtype is torch.bfloat16:
-        pytest.skip("Temporarily disabled bfloat16 as we are still improving the accuracy of the results")
-
-    if k > 128 or kv > 128:
-        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
-
-    if k % 2 != 0:
-        pytest.skip("head-dim length must be an even value for CK-FlashAttention")    
-
-    if grad_out_contiguous is False:
-        pytest.skip("CK-FlashAttention requires grad_out and out have same lengths/strides")
-
-    attn_bias_requires_grad = (
-        random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
-    )
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        attn_bias_requires_grad=attn_bias_requires_grad,
-        fmt=fmt,
-    )
-
-    # To understand why we do this, check the comment on the
-    # `AttentionBwOpBase` class
-    scale = None
-    if op_bw.SUPPORTS_CUSTOM_SCALE and query.shape[-1] < 32:
-        scale = (1 / 32) ** 0.5
-    op_fw = (
-        sample_random_supported_fw(
-            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
-            seed=q_len * kv + kv_len * k,
-        )
-        if op_bw != fmha.ck.BwOp
-        else fmha.ck.FwOp
-    )
-    qkv = None
-
-    if (
-        fmt == "BMHK"
-        and query.shape[3] == value.shape[3]
-        and query.shape[1] == value.shape[1]
-    ):
-        qkv = torch.stack([query, key, value], 2)
-        qkv.requires_grad_(True)
-        # bm3hk -> 3 x bmhk
-        query, key, value = xformers.ops.unbind(qkv, 2)
-        assert not query.is_contiguous()
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
-        pytest.skip("inputs not supported")
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, scale=scale, op=(op_fw, op_bw)
-    )
-
-    grad_out = torch.randn_like(out)
-    if grad_out_contiguous is False:
-        grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
-            None, None, :
-        ].expand_as(out)
-
-    out.backward(grad_out)
-
-    if qkv is None and op_bw == fmha.cutlass.BwOp:
-        assert query.stride() == query.grad.stride()
-
-    grads = []
-    if qkv is None:
-        grads = [query.grad, key.grad, value.grad]
-        query.grad = None
-        key.grad = None
-        value.grad = None
-    else:
-        grads = [qkv.grad]
-        qkv.grad = None
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
-        if attn_bias_grad is not None:
-            grads.append(attn_bias_grad)
-
-    ref = ref_attention(query, key, value, attn_bias, scale=scale)
-    ref.backward(grad_out)
-
-    assert_allclose(
-        out.float(),
-        ref.float(),
-        "fw pass",
-        atol=op_fw.ERROR_ATOL[dtype],
-        rtol=op_fw.ERROR_RTOL[dtype],
-    )
-
-    del out
-    del grad_out
-    del ref
-
-    atol = op_bw.ERROR_ATOL[dtype]
-    rtol = op_bw.ERROR_RTOL[dtype]
-
-    grads_ref = []
-    grads_name = []
-    if qkv is None:
-        assert isinstance(query.grad, torch.Tensor)
-        assert isinstance(key.grad, torch.Tensor)
-        assert isinstance(value.grad, torch.Tensor)
-        grads_ref = [query.grad, key.grad, value.grad]
-        grads_name = ["query", "key", "value"]
-    else:
-        assert isinstance(qkv.grad, torch.Tensor)
-        grads_ref = [qkv.grad]
-        grads_name = ["qkv"]
-
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias)
-        if attn_bias_grad is not None:
-            grads_ref.append(attn_bias.grad)
-            grads_name.append("bias")
-
-    del query
-    del key
-    del value
-    del qkv
-
-    assert len(grads_ref) == len(
-        grads
-    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
-    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
-        assert_allclose(
-            calc_grad,
-            ref_grad,
-            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
-            atol=atol,
-            rtol=rtol,
-        )
-
-
-def _vec_binom_test(x, n, p):
-    """
-    vectorized implementation of scipy.stats.binom_test
-    this makes our tests much faster
-    reference: https://github.com/scipy/scipy/blob/v1.8.0/scipy/stats/_morestats.py#L2609-L2702
-    """
-    import numpy as np
-    from scipy.stats import distributions
-
-    x = np.atleast_1d(x)
-    d = distributions.binom.pmf(x, n, p)[:, None]
-    rerr = 1 + 1e-7
-    # x < p * n case
-    i = np.arange(np.ceil(p * n), n + 1)
-    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
-    pval1 = distributions.binom.cdf(x, n, p) + distributions.binom.sf(n - y, n, p)
-
-    # other case
-    i = np.arange(np.floor(p * n) + 1)
-    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
-    pval2 = distributions.binom.cdf(y - 1, n, p) + distributions.binom.sf(x - 1, n, p)
-
-    pval = np.where(x < p * n, pval1, pval2)
-    pval = np.minimum(1.0, pval)
-    return pval
-
-def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
-    if op == fmha.ck.FwOp:
-        mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
-        ## rand_uniform is an int32 tensor
-        rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
-        ##mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
-        mask = (rand_uniform <= int((1.0-p)*255.0)).to(torch.float32)
-        mask = mask.reshape(batch_size, q_len, kv_len)
-    else:
-        mask = torch.empty((batch_size, q_len, kv_len), device=device)
-        mask = torch.ops.xformers._temp_dropout(mask, p)
-
-    return mask
-
-@cuda_only
-@pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
-@pytest.mark.parametrize("seed", [42, 124])
-@pytest.mark.parametrize("p", [0.3, 0.7])
-@pytest.mark.parametrize("k_len", [32])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
-@pytest.mark.parametrize("q_len", [2, 33])
-@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
-@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
-def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
-    device = "cuda"
-    scale = 0.05 
-    query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
-    key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-
-    inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
-    if not op.supports(inputs_for_support_check):
-        del query, key, value, attn_bias
-        pytest.skip(f"{op.NAME}: unsupported input")
-
-    torch.manual_seed(seed)
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, p, op=(op, None)
-    )
-
-    torch.manual_seed(seed)
-    out2 = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, p, op=(op, None)
-    )
-
-    assert_allclose(out, out2, "dropout reproducibility")
-
-    torch.manual_seed(seed)
-    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
-    ref = ref_attention(query, key, value, attn_bias, mask, p)
-    assert_allclose(out.float(), ref, atol=3e-3, rtol=5e-4), f"{(out - ref).abs().max()}"
-
-    num_trials = 1000
-    p_val_tol = 1e-6
-    keep_prob = 1 - p
-    masks = []
-    for i in range(num_trials):
-        mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
-        masks.append(mask.clone().cpu())
-    masks = torch.stack(masks, dim=0)
-    p_value = binomtest(int(masks.sum()), masks.numel(), p=keep_prob).pvalue
-    assert p_value > p_val_tol, p_value
-    masks = masks.sum(0).flatten()
-    p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
-    assert all(p_values > p_val_tol)
-
-
-def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
-    if dtype is torch.bfloat16 and compute_capability < (8, 0):
-        pytest.skip("bf16 requires Sm80")
-    if not op.is_available():
-        pytest.skip()
-
-    scale = 3 
-    device = "cuda"
-    query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
-    key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
-    value = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    grad_out = torch.ones_like(query)
-
-    assert op.supports(fmha.Inputs(query=query, key=key, value=value, p=p))
-
-    seed = 42
-    torch.manual_seed(seed)
-    out = xformers.ops.memory_efficient_attention(query, key, value, p=p, op=(op, None))
-
-    out.backward(grad_out)
-
-    grad_q = query.grad
-    grad_k = key.grad
-    grad_v = value.grad
-
-    query.grad = None
-    key.grad = None
-    value.grad = None
-
-    torch.manual_seed(seed)
-    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
-
-    ref = ref_attention(query, key, value, None, mask, p)
-    ref.backward(grad_out)
-
-    atol, rtol = (
-        fmha.AttentionBwOpBase.ERROR_ATOL[dtype],
-        fmha.AttentionBwOpBase.ERROR_RTOL[dtype],
-    )
-    assert_allclose(
-        grad_v,
-        value.grad,
-        "grad_v",
-        atol=atol,
-        rtol=rtol,
-    )
-    # TODO: Investigate why precision is worse
-    if dtype in [torch.float16, torch.bfloat16]:
-        atol = atol * 2 + 0.15
-        rtol = rtol * 2
-    assert_allclose(
-        grad_q,
-        query.grad,
-        "grad_q",
-        atol=atol,
-        rtol=rtol,
-    )
-    assert_allclose(
-        grad_k,
-        key.grad,
-        "grad_k",
-        atol=atol,
-        rtol=rtol,
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("p", [0.3, 0.7])
-@pytest.mark.parametrize("k", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
-@pytest.mark.parametrize("q_len", [2, 33])
-def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
-    _test_dropout_backward(
-        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
-@pytest.mark.parametrize("k", [16, 128, 256])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 248, 256])
-@pytest.mark.parametrize("q_len", [3, 248, 256])
-@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
-def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
-    _test_dropout_backward(
-        q_len,
-        kv_len,
-        batch_size,
-        k,
-        p,
-        op=fmha.cutlass.FwOp,
-        dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("k_len", [32])
-@pytest.mark.parametrize("batch_size", [1])
-@pytest.mark.parametrize("kv_len", [3 * 32])
-@pytest.mark.parametrize("q_len", [3 * 32])
-def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size, k_len):
-    device = "cuda"
-    op_fw = fmha.small_k.FwOp
-    op_bw = fmha.small_k.BwOp
-
-    scale = 3
-    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
-    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-
-    # in this case, most of the blocks in a row get masked
-    attn_bias = torch.full((3, 32), float("-inf"), device=device)
-    attn_bias[:2, :4] = 0
-    attn_bias = attn_bias.flatten()[None, None, :].expand(1, q_len, -1)
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, op=(op_fw, op_bw)
-    )
-    ref = ref_attention(query, key, value, attn_bias)
-
-    assert_allclose(
-        out, ref, atol=op_fw.ERROR_ATOL[query.dtype], rtol=op_fw.ERROR_RTOL[query.dtype]
-    )
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    grad_out = torch.ones_like(query)
-
-    out = xformers.ops.memory_efficient_attention(query, key, value, attn_bias)
-    out.backward(grad_out)
-
-    grad_q = query.grad
-    grad_k = key.grad
-    grad_v = value.grad
-
-    query.grad = None
-    key.grad = None
-    value.grad = None
-
-    ref = ref_attention(query, key, value, attn_bias)
-    ref.backward(grad_out)
-
-    atol = op_bw.ERROR_ATOL[query.dtype]
-    rtol = op_bw.ERROR_RTOL[query.dtype]
-    assert_allclose(grad_q, query.grad, "grad_q", atol=atol, rtol=rtol)
-    assert_allclose(grad_k, key.grad, "grad_k", atol=atol, rtol=rtol)
-    assert_allclose(grad_v, value.grad, "grad_v", atol=atol, rtol=rtol)
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt=fmt
-    )
-    grad_out = torch.ones_like(query)
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query, key, value, attn_bias
-    )
-    assert out.ndim == query.ndim
-    dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
-        grad_out, out, lse, query, key, value, attn_bias
-    )
-    assert dq.shape == query.shape
-    assert dk.shape == key.shape
-    assert dv.shape == value.shape
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_cuda_streams(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    if device != "cuda":
-        pytest.skip("Not CUDA")
-    bias_type = None
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ]
-    s_hipri = torch.cuda.Stream(priority=-1)
-    s_lopri = torch.cuda.Stream(priority=0)
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK"
-    )
-    torch.cuda.synchronize()
-    with torch.cuda.stream(s_lopri):
-        torch.cuda._sleep(100_000_000)  # wait 100m cycles
-        query *= 2
-    s_hipri.wait_stream(s_lopri)
-    with torch.cuda.stream(s_hipri):
-        # If the kernel is scheduled in the main stream
-        # `query * 2` has not been executed yet
-        out = xformers.ops.memory_efficient_attention(query, key, value, op=(op, None))
-    # Test that `s_lopri` is still sleeping
-    # and that `query *= 2` has not been executed yet
-    query2_main_stream = query * 2
-    torch.cuda.synchronize()
-    # TODO: Figure out why this is failing sometimes
-    # The sleep timer seems to be high enough already ...
-    # assert torch.allclose(query2_main_stream, query), "Need to increase sleep time"
-    del query2_main_stream
-
-    ref = ref_attention(query, key, value)
-    assert out.shape == ref.shape, out.shape
-
-    assert_allclose(
-        out.float(),
-        ref.float(),
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
-    p = 0.0
-    scale = 0.1
-
-    (
-        op_bw,
-        device,
-        dtype,
-        _,
-        B,
-        q_len,
-        kv_len,
-        H,
-        k,
-        Kv,
-    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    torch.manual_seed(q_len + kv_len + k)
-    if device != "cuda":
-        pytest.skip("Not CUDA")
-
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
-    )
-    inputs = fmha.Inputs(
-        query=query, key=key, value=value, attn_bias=attn_bias, scale=scale
-    )
-    op_fw = sample_random_supported_fw(inputs, seed=q_len * k + kv_len * k)
-    grad_out = query.new_ones(B * H, q_len, Kv)
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    reasons = op_fw.not_supported_reasons(inputs)
-    if reasons:
-        pytest.skip(f"{op_fw.NAME}: unsupported ({'/'.join(reasons)})")
-    reasons = op_bw.not_supported_reasons(inputs)
-    if reasons:
-        pytest.skip(f"{op_bw.NAME}: unsupported ({'/'.join(reasons)})")
-
-    # NOTE: we still need to scale the inputs to not blowup
-    # the pre-softmax values (numerical stability)
-    s = k**-0.5
-    out = xformers.ops.memory_efficient_attention(
-        query * s, key, value, attn_bias, p, scale, op=(op_fw, op_bw)
-    )
-    out.backward(grad_out)
-    grad_q, grad_k, grad_v = query.grad, key.grad, value.grad
-    query.grad = key.grad = value.grad = None
-
-    ref = ref_attention(query * s, key, value, attn_bias, None, p, scale)
-    ref.backward(grad_out)
-    ref_grad_q, ref_grad_k, ref_grad_v = query.grad, key.grad, value.grad
-    query.grad = key.grad = value.grad = None
-
-    atol = op_fw.ERROR_ATOL[dtype]
-    rtol = op_fw.ERROR_RTOL[dtype]
-    assert_allclose(out.float(), ref.float(), "out", atol=atol, rtol=rtol)
-    atol = op_bw.ERROR_ATOL[dtype]
-    rtol = op_bw.ERROR_RTOL[dtype]
-    assert_allclose(grad_q, ref_grad_q, "grad_q", atol=atol, rtol=rtol)
-    assert_allclose(grad_k, ref_grad_k, "grad_k", atol=atol, rtol=rtol)
-    assert_allclose(grad_v, ref_grad_v, "grad_v", atol=atol, rtol=rtol)
-
-
-def apply_attention(query, key, value, attn_bias, op_fw, proj):
-    x = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias=attn_bias, op=(op_fw, None)
-    )
-    x = proj(x)
-    return x
-
-
-@pytest.mark.parametrize("use_reentrant", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_grad_checkpointing(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    use_reentrant,
-):
-    fmt = "BMHK"
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    bias_type = None
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    )
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt=fmt,
-    )
-    qkv = None
-
-    if (
-        fmt == "BMHK"
-        and query.shape[3] == value.shape[3]
-        and query.shape[1] == value.shape[1]
-    ):
-        qkv = torch.stack([query, key, value], 2)
-        qkv.requires_grad_(True)
-        # bm3hk -> 3 x bmhk
-        query, key, value = xformers.ops.unbind(qkv, 2)
-        assert not query.is_contiguous()
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    proj = torch.nn.Linear(kv, k, device=device, dtype=dtype)
-
-    x = query
-    for _ in range(5):
-        x = checkpoint(
-            apply_attention,
-            x,
-            key,
-            value,
-            attn_bias,
-            op,
-            proj,
-            use_reentrant=use_reentrant,
-        )
-    x.mean().backward()
-
-
-ALL_FW_OPS_NO_SMALLK = [op for op in ALL_FW_OPS if op is not fmha.small_k.FwOp]
-
-
-@pytest.mark.parametrize(
-    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
-)
-def test_unsupported_cpu(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 1, 1, 32])
-    with pytest.raises(ValueError):
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
-)
-def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
-        0, 3, 1, 2
-    )
-    try:
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-    except ValueError as e:
-        if "Only work on pre-MLIR triton for now" in str(e):
-            pytest.skip("Only work on pre-MLIR triton for now")
-        q = q.contiguous()
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
-)
-def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
-    try:
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-    except ValueError as e:
-        if "Only work on pre-MLIR triton for now" in str(e):
-            pytest.skip("Only work on pre-MLIR triton for now")
-        q = q.contiguous()
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-
-def test_attn_bias_causal() -> None:
-    m = -math.inf
-    causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
-    tensor_bias = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
-
-    attn_bias = fmha.attn_bias.LowerTriangularMask()
-    assert_allclose(attn_bias.materialize(causal_mask.shape), causal_mask, "causal")
-    attn_bias = attn_bias.add_bias(tensor_bias)
-    assert_allclose(
-        attn_bias.materialize(causal_mask.shape),
-        tensor_bias + causal_mask,
-        "causal+tensor_bias",
-    )
-
-
-def test_attn_bias_torch_tensor() -> None:
-    tensor_bias = torch.tensor([[1.0, 2.0, 3.0], [3.0, 4.0, 5.0]])
-    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias)
-    m = -math.inf
-    causal_bias = torch.tensor([[0, m, m], [0, 0, m]])
-    assert_allclose(
-        attn_bias.materialize((2, 3)), causal_bias + tensor_bias, "tensor_bias+causal"
-    )
-
-
-def test_attn_bias_blockdiag() -> None:
-    queries = [
-        torch.randn([1, 3, 1, 8]),
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([1, 5, 1, 8]),
-    ]
-    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
-
-    # Verify mask
-    as_tensor = attn_bias.materialize((10, 10))
-    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 2 * 2 + 5 * 5
-    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
-    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1")
-    assert_allclose(as_tensor[5:, 5:], torch.zeros([5, 5]), "batch2")
-
-    # Verify we can split it back
-    queries2 = attn_bias.split(q)
-    assert len(queries) == len(queries2)
-    for q1, q2 in zip(queries, queries2):
-        assert_allclose(q1, q2)
-
-
-def test_attn_bias_blockdiag_batched() -> None:
-    queries = [
-        torch.randn([1, 3, 1, 8]),
-        torch.randn([3, 2, 1, 8]),
-        torch.randn([1, 5, 1, 8]),
-    ]
-    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
-
-    # Verify mask
-    as_tensor = attn_bias.materialize((14, 14))
-    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 3 * 2 * 2 + 5 * 5
-    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
-    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1.0")
-    assert_allclose(as_tensor[5:7, 5:7], torch.zeros([2, 2]), "batch1.1")
-    assert_allclose(as_tensor[7:9, 7:9], torch.zeros([2, 2]), "batch1.2")
-    assert_allclose(as_tensor[9:, 9:], torch.zeros([5, 5]), "batch2")
-
-    # Verify we can split it back
-    queries2 = attn_bias.split(q)
-    assert len(queries) == len(queries2)
-    for q1, q2 in zip(queries, queries2):
-        assert_allclose(q1, q2)
-
-
-def test_attn_bias_blockdiag_crossattn_causal() -> None:
-    # Q / KV have different seqlen
-    list_q = [
-        torch.randn([1, 3, 1, 8]),
-        torch.randn([2, 1, 1, 8]),
-    ]
-    list_k = [
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([2, 3, 1, 8]),
-    ]
-
-    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
-        list_q, list_k
-    )
-
-    # Verify mask
-    as_tensor = attn_bias.materialize((q.shape[1], k.shape[1]))
-    assert int((as_tensor != -math.inf).sum().item()) == 3 * 2 + 2 * 3 * 1
-    assert_allclose(as_tensor[0:3, 0:2], torch.zeros([3, 2]), "batch0")
-    assert_allclose(as_tensor[3:4, 2:5], torch.zeros([1, 3]), "batch1.0")
-    assert_allclose(as_tensor[4:, 5:], torch.zeros([1, 3]), "batch1.1")
-
-    # Also test causal version
-    as_tensor = attn_bias.make_causal().materialize((q.shape[1], k.shape[1]))
-    assert_allclose(
-        as_tensor[3:4, 2:5],
-        fmha.attn_bias.LowerTriangularMask().materialize((1, 3)),
-        "batch1.0[causal]",
-    )
-
-    # Verify we can split it back
-    list_q2 = attn_bias.split_queries(q)
-    assert len(list_q) == len(list_q2)
-    for q1, q2 in zip(list_q, list_q2):
-        assert_allclose(q1, q2)
-    with pytest.raises(ValueError):
-        attn_bias.split_queries(k)
-    list_k2 = attn_bias.split_kv(k)
-    assert len(list_k) == len(list_k2)
-    for k1, k2 in zip(list_k, list_k2):
-        assert_allclose(k1, k2)
-
-
-def test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond() -> None:
-    list_q = [
-        torch.randn([1, 3, 1, 8]),
-    ]
-    list_k = [
-        torch.randn([1, 2, 1, 8]),
-    ]
-    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
-        list_q, list_k
-    )
-    with pytest.raises(ValueError):
-        attn_bias.make_causal_from_bottomright()
-
-
-def test_attn_bias_blockdiag_crossattn_causal_with_prefix() -> None:
-    # Q / KV have different seqlen
-    list_q = [
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([2, 2, 1, 8]),
-    ]
-    list_k = [
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([2, 5, 1, 8]),
-    ]
-
-    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
-        list_q, list_k
-    )
-    as_tensor = attn_bias.make_causal_from_bottomright().materialize(
-        (q.shape[1], k.shape[1])
-    )
-    m = -math.inf
-    assert_allclose(
-        as_tensor[0:2, 0:2],
-        torch.tensor([[0, m], [0, 0]], dtype=torch.float32),
-        "batch1.1[causal_with_prefix]",
-    )
-    assert_allclose(
-        as_tensor[2:4, 2:7],
-        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
-        "batch2.1[causal_with_prefix]",
-    )
-    assert_allclose(
-        as_tensor[4:6, 7:12],
-        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
-        "batch2.2[causal_with_prefix]",
-    )
-
-
-@cuda_only
-def test_attn_bias_padded() -> None:
-    bsize, n_heads, d, padding = 8, 3, 8, 32
-
-    # Q / KV have different seqlen
-    k = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
-    k_seqlen = [5, 8, 7, 1, 9, 3, 12, 32]
-    other = bsize - 1
-    v = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
-    n_q_first = 4
-    q = [
-        torch.randn((1, n_q_first, n_heads, d), device="cuda", dtype=torch.float16),
-        torch.randn((1, other, n_heads, d), device="cuda", dtype=torch.float16),
-    ]
-    q_cat = torch.cat([x.view(1, -1, n_heads, d) for x in q], dim=1)
-    q_seqlen = [n_q_first] + [1] * other
-
-    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=q_seqlen,
-        kv_seqlen=k_seqlen,
-        kv_padding=padding,
-    )
-
-    v = v.view(1, -1, n_heads, d)
-    k = k.view(1, -1, n_heads, d)
-
-    scores = (q_cat.transpose(1, 2) @ k.transpose(1, 2).transpose(2, 3)).float()
-    assert not scores.isnan().any()
-    mask = torch.full_like(scores, -float("inf"))
-    for i, (slen, qlen) in enumerate(zip(k_seqlen, q_seqlen)):
-        kseq_start = i * padding
-        qstart = sum(q_seqlen[:i])
-        mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen] = torch.triu(
-            mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen].float(),
-            diagonal=1 + slen - qlen,
-        ).float()
-
-    scores += mask
-    assert not scores.isnan().any()
-    # 1,3,10,8 @ 1,3,8,256 -> 1,3,10,256
-    scores = torch.nn.functional.softmax(scores, -1).half()
-    # torch.Size([1, 3, 3, 32]) @ torch.Size([1, 3, 32, 8])
-    output = scores @ v.transpose(1, 2)  # 1,3,10,256 @ 1,3,256, 8 -> 1,3,10,8
-    output = output.transpose(1, 2).contiguous()
-
-    fmha_output = fmha.memory_efficient_attention_forward(
-        q_cat, k, v, attn_bias, scale=1.0, op=fmha.ck.FwOp
-    )
-
-    # assert torch.allclose(output, fmha_output)
-    assert_allclose(
-        output,
-        fmha_output,
-        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
-        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
-    )
-
-
-def _kv_heads_label(kv_heads: Optional[int]) -> str:
-    if kv_heads is None:
-        return ""
-    if kv_heads == 1:
-        return "mq"
-    return f"gqa{kv_heads}"
-
-@pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
-@pytest.mark.parametrize("padding", [32, 4096])
-@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
-def test_decoder(
-    op,
-    n_heads: int,
-    kv_heads: Optional[int],
-    padding: int,
-    bsz: int,
-    dtype: str,
-    dequant: bool = False,
-    num_queries: int = 1,
-    d = 256,
-) -> None:
-    # kv_heads = 1: multiquery
-    # kv_heads = None: neither MQA nor GQA
-    # kv_heads > 1: BMGHK
-    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
-    tensor_options = {"dtype": dtype_, "device": "cuda"}
-    torch.manual_seed(1)
-    num_queries = 1
-    if kv_heads is not None and kv_heads > 1:
-        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
-        q_shape: Tuple[int, ...] = (
-            1,
-            bsz * num_queries,
-            kv_heads,
-            n_heads,
-            d,
-        )
-    else:
-        k_shape = (1, bsz * padding, n_heads, d)
-        q_shape = (1, bsz * num_queries, n_heads, d)
-
-    k = torch.randn(k_shape, **tensor_options)
-    k_seqlen = torch.randint(num_queries, padding + 1, (bsz,)).tolist()
-    v = torch.randn_like(k)
-    q = torch.randn(q_shape, **tensor_options)
-    causal_diagonal = torch.tensor(  # TODO: make unnecessary
-        [i - 1 for i in k_seqlen], dtype=torch.int32
-    ).cuda()
-
-    if kv_heads is not None:
-        k = k[..., :1, :].expand(k_shape)
-        v = v[..., :1, :].expand(k_shape)
-
-    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[num_queries] * bsz,
-        kv_seqlen=k_seqlen,
-        causal_diagonal=causal_diagonal,
-        kv_padding=padding,
-    )
-    inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
-    if (not_supported_reasons := op.not_supported_reasons(inp)):
-        pytest.skip(f"{not_supported_reasons=}")
-
-    decoder_output = fmha.memory_efficient_attention_forward(
-        q, k, v, attn_bias, op=op
-    )
-
-    ref_output = ref_attention(q, k, v, attn_bias)
-
-    assert_allclose(
-        decoder_output.float(),
-        ref_output,
-        atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
-        rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
-    )
-
-def test_attn_bias_from_seqlens() -> None:
-    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
-    out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
-    assert len(out) == 3
-    assert tuple(out[0].shape) == (1, 3, 16)
-
-
-@cuda_only
-def test_attn_bias_blockdiag_doc() -> None:
-    """IMPORTANT:
-    This is the example in the doc for `BlockDiagonalMask`.
-    If this example needs to be updated, please also update the doc
-    """
-    import torch
-
-    from xformers.ops import fmha
-
-    K = 16
-    dtype = torch.float16
-    device = "cuda"
-    list_x = [
-        torch.randn([1, 3, 1, K], dtype=dtype, device=device),
-        torch.randn([1, 6, 1, K], dtype=dtype, device=device),
-        torch.randn([1, 2, 1, K], dtype=dtype, device=device),
-    ]
-    attn_bias, x = fmha.BlockDiagonalMask.from_tensor_list(list_x)
-
-    linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
-
-    q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
-    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None))
-    list_out = attn_bias.split(out)
-    assert tuple(list_out[0].shape) == (1, 3, 1, K)
-
-
-@cuda_only
-class TestAttnBias:
-    @staticmethod
-    def create_tensors(
-        dtype,
-        B: int = 2,
-        Mq: int = 32,
-        Mkv: int = 32,
-        H: int = 3,
-        K: int = 16,
-        Kv: int = 16,
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-        return (
-            torch.randn([B, Mq, H, K], device="cuda", dtype=dtype) * 3,
-            torch.randn([B, Mkv, H, K], device="cuda", dtype=dtype) * 3,
-            torch.randn([B, Mkv, H, Kv], device="cuda", dtype=dtype) * 3,
-            torch.randn([B, H, Mq, Mkv], device="cuda", dtype=dtype) * 3,
-        )
-
-    @staticmethod
-    def pad_bias(bias: torch.Tensor) -> torch.Tensor:
-        align_to = 16
-        if (bias.shape[-1] % align_to) == 0:
-            return bias
-        pad_count = align_to - (bias.shape[-1] % align_to)
-        return torch.nn.functional.pad(bias, [0, pad_count])[:, :, :, : bias.shape[-1]]
-
-    def test_f16_biasf32(self) -> None:
-        q, k, v, bias = self.create_tensors(torch.float16)
-        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-        bias = bias.to(torch.float32)
-        with pytest.raises((ValueError, RuntimeError)):
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-
-    def test_f32_biasf16(self) -> None:
-        q, k, v, bias = self.create_tensors(torch.float32)
-        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-        bias = bias.to(torch.float16)
-        with pytest.raises((ValueError, RuntimeError)):
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-
-    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
-    def test_wrong_alignment(self, dtype) -> None:
-        op = fmha.cutlass.FwOp
-        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
-        try:
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
-            return
-        except (ValueError, RuntimeError):
-            pass
-        # This case is not supported, likely due to padding issues
-        # Let's make sure it works with padding
-        assert bias.ndim == 4, bias.shape
-        bias_padded = self.pad_bias(bias)
-        out = fmha.memory_efficient_attention(
-            q, k, v, attn_bias=bias_padded, op=(op, None)
-        ).float()
-        ref_out = ref_attention_bmhk(q, k, v, bias)
-        assert_allclose(
-            out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
-        )
-
-    def test_permuted_attn_bias(self) -> None:
-        op = fmha.cutlass.FwOp
-        dtype = torch.float16
-        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
-        bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
-        # Either it works, or it raises an exception
-        # but we should never get a CUDA error
-        try:
-            out = fmha.memory_efficient_attention(
-                q, k, v, attn_bias=bias, op=(op, None)
-            ).float()
-            ref_out = ref_attention_bmhk(q, k, v, bias)
-            assert_allclose(
-                out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
-            )
-        except (ValueError, RuntimeError):
-            pass
-
-
-SM_AND_SHMEM_KBYTES = [
-    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
-    (50, 64),
-    (60, 64),
-    (70, 96),
-    (75, 64),
-    (80, 163),
-    (86, 99),
-    (89, 99),
-    # (90, 227),
-]
-
-
-@cuda_only
-@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
-@pytest.mark.parametrize(
-    "sm_shmem",
-    SM_AND_SHMEM_KBYTES,
-    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
-)
-def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
-    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
-    sm, shmem_kbytes = sm_shmem
-    if sm < 80 and dtype_str == "bf16":
-        return
-
-    for k in [16, 32, 64, 128, 256]:
-        assert torch.ops.xformers._has_cutlassF_kernel_for(
-            dtype, sm, shmem_kbytes * 1024, k
-        ), f"k={k}"
-        assert torch.ops.xformers._has_cutlassB_kernel_for(
-            dtype, sm, shmem_kbytes * 1024, k
-        ), f"k={k}"
-
-
-def test_window_size_materialize() -> None:
-    seqlens = [4, 6]
-    attn_bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-        q_seqlen=seqlens,
-        kv_seqlen=seqlens,
-    ).make_local_attention(2)
-    mask = attn_bias.materialize(
-        (1, 1, sum(seqlens), sum(seqlens)),
-        device="cpu",
-        dtype=torch.float32,
-    )
-    true_mask = torch.log(
-        torch.Tensor(
-            [
-                [
-                    [
-                        [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0],
-                    ]
-                ]
-            ]
-        )
-    )
-    assert torch.all(mask == true_mask)
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "opFW_biasT",
-    [
-        (op, biasT)
-        for op in ALL_FW_OPS
-        for biasT in op.SUPPORTED_ATTN_BIAS_TYPES
-        if op.SUPPORTS_BMGHK
-    ],
-)
-def test_forward_gqa(opFW_biasT):
-    opFW, biasT = opFW_biasT
-    B_Mq_Mkv_H_K_Kv = (3, 512, 512, 16, 128, 128)
-    test_forward(
-        (
-            opFW,
-            "cuda",
-            torch.float16,
-            biasT,
-            *B_Mq_Mkv_H_K_Kv,
-        ),
-        packed=False,
-        fmt="BMGHK",
-        g=2,
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "opBW",
-    [
-        fmha.flash.BwOp,
-        fmha.cutlass.BwOp,
-    ],
-)
-def test_backward_gqa(opBW):
-    H = 8
-    B_Mq_Mkv_H_K_Kv = (3, 512, 512, H, 128, 128)
-    dtype = torch.float16
-    query, key, value, attn_bias = create_tensors(
-        *(opBW, "cuda", dtype, type(None), *B_Mq_Mkv_H_K_Kv),
-        attn_bias_requires_grad=False,
-        fmt="BMHK",
-    )
-    op = (fmha.cutlass.FwOp, opBW)
-    key = key[:, :, :1].expand(-1, -1, H, -1)
-    value = value[:, :, :1].expand(-1, -1, H, -1)
-    key.requires_grad_(True)
-    out = fmha.memory_efficient_attention(query, key, value, attn_bias=attn_bias)
-    out_ref = ref_attention_bmhk(query, key, value, attn_bias=attn_bias)
-    assert_allclose(
-        out.float(),
-        out_ref.float(),
-        atol=op[0].ERROR_ATOL[dtype],
-        rtol=op[0].ERROR_RTOL[dtype],
-    )
-    out.backward(query)
-    dk = key.grad
-    key.grad = None
-    out_ref.backward(query)
-    assert_allclose(
-        dk.float(),
-        key.grad.float(),
-        atol=op[1].ERROR_ATOL[dtype],
-        rtol=op[1].ERROR_RTOL[dtype],
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("opFW", [op for op in ALL_FW_OPS if op.SUPPORTS_BMGHK])
-def test_forward_gqa_one_group(opFW):
-    dtype = torch.float16
-    B, Mq, Mkv, H, K = 3, 13, 16, 5, 128
-    q = torch.randn([B, Mq, 1, H, K], dtype=dtype, device="cuda") * 3
-    k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
-    v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
-
-    supported = opFW.supports(fmha.Inputs(q, k, v))
-    if not supported:
-        supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
-        assert supported == supported_bmhk
-        pytest.skip("not supported")
-    out = fmha.memory_efficient_attention_forward(q, k, v, op=opFW)
-    ref = ref_attention(q, k, v)
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=opFW.ERROR_ATOL[dtype],
-        rtol=opFW.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-'''
-@sm80_or_better_only
-def test_flash_gqa_wrong_strides() -> None:
-    op = (fmha.flash.FwOp, None)
-    device = "cuda"
-    B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
-    q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
-    kv = torch.empty((B, Mkv, G, H, K), dtype=torch.float16, device=device)
-    fmha.memory_efficient_attention(q, kv, kv, op=op)
-
-    kv = torch.empty((B, Mkv, H, G, K), dtype=torch.float16, device=device).permute(
-        0, 1, 3, 2, 4
-    )
-    with pytest.raises(ValueError):
-        fmha.memory_efficient_attention(q, kv, kv, op=op)
-
-    kv = torch.empty((B, Mkv, G, 1, K), dtype=torch.float16, device=device)
-    with pytest.raises(ValueError):
-        fmha.memory_efficient_attention(q, kv, kv, op=op)
-    kv = kv.expand(-1, -1, -1, H, K)
-    fmha.memory_efficient_attention(q, kv, kv, op=op)
-
-    kv = torch.empty((B, Mkv, G, H, 2 * K), dtype=torch.float16, device=device)[
-        :, :, :, :, :K
-    ]
-    fmha.memory_efficient_attention(q, kv, kv, op=op)
-'''
-
-def _dispatches_to_splitK(q, kv):
-    return (
-        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0]
-        is fmha.triton_splitk.FwOp
-    )
-
-
-def _dispatches_to_flash_decoding(q, kv):
-    return (
-        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
-    )
-
-
-def test_dispatch_decoding_bmhk() -> None:
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
-    ), "Should not use SplitK with 1 head (no tensorcores)"
-    assert _dispatches_to_flash_decoding(
-        torch.empty([1, 8, 32, 128]),
-        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
-    ), "Should use Flash-Decoding with BMHK MQA"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 32, 128]),
-        torch.empty([1, 2048, 32, 128]),
-    ), "Should not use SplitK when no TensorCores"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 128, 32, 128]),
-        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
-    ), "Should not use SplitK if q seqlen is long"
-    assert not _dispatches_to_splitK(
-        torch.empty([128, 8, 32, 128]),
-        torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
-    ), "Should not use SplitK if B is big"
-
-
-def test_dispatch_decoding_bmghk() -> None:
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
-    ), "Should not use SplitK with 1 head (no tensorcores)"
-    assert _dispatches_to_flash_decoding(
-        torch.empty([1, 8, 1, 32, 128]),
-        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should use Flash-Decoding with MQA"
-    assert _dispatches_to_flash_decoding(
-        torch.empty([1, 8, 4, 32, 128]),
-        torch.empty([1, 2048, 4, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should use Flash-Decoding with GQA"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 1, 32, 128]),
-        torch.empty([1, 2048, 1, 32, 128]),
-    ), "Should not use SplitK when no TensorCores"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 128, 1, 32, 128]),
-        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should not use SplitK if q seqlen is long"
-    assert not _dispatches_to_splitK(
-        torch.empty([128, 8, 1, 32, 128]),
-        torch.empty([128, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should not use SplitK if B is big"
-
-
-shapes_triton_splitk = [
-    (1, 8, 2**16, 1, 128, 128),
-    (1, 4, 2**16, 1, 128, 128),
-    (1, 16, 2**16, 1, 128, 128),
-    (1, 16, 2**16, 1, 32, 32),
-    (1, 8, 1025, 1, 128, 128),
-    (2, 8, 4096, 1, 128, 128),
-    (10, 8, 2**16, 1, 128, 128),
-    (10, 15, 2**16, 1, 128, 128),
-    (1, 3, 2**16, 1, 128, 128),
-    (1, 3, 2**16 - 10, 1, 128, 128),
-    (2, 3, 73, 1, 128, 128),
-    (2, 7, 7328, 1, 128, 128),
-    (2, 7, 7328, 1, 120, 120),
-    (2, 7, 63, 1, 120, 120),
-]
-op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk = [
-    (fmha.triton_splitk.FwOp, "cuda", torch.float16, type(None), *s)
-    for s in shapes_triton_splitk
-] + [
-    (fmha.triton_splitk.FwOp, "cuda", torch.bfloat16, type(None), *s)
-    for s in shapes_triton_splitk
-]
-
-
-@pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk,
-    ids=[make_id(*c) for c in op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk],
-)
-@cuda_only
-def test_forward_splitk(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed=False,
-    fmt="BMHK",
-):
-    test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed=packed, fmt=fmt)
-
-
-@cuda_only
-@pytest.mark.parametrize("op", [fmha.triton_splitk.FwOp])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize(
-    "B_Mkv_H_K",
-    [
-        (1, 2**16, 3, 128),
-        (5, 53, 4, 64),
-    ],
-)
-def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
-    B, Mkv, H, K = B_Mkv_H_K
-    q = torch.randn([B, 1, H, K], dtype=dtype, device="cuda") * 3
-    k = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
-    v = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
-    k = k.expand(-1, -1, H, -1)
-    v = v.expand(-1, -1, H, -1)
-
-    if not op.supports(fmha.Inputs(q, k, v)):
-        pytest.skip("not supported")
-    out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
-    ref = ref_attention(q, k, v)
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_empty_tensors_empty_query(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK",
-    )
-    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
-
-    query = query[:, :0]
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
-    assert out.shape[1] == 0
-    out.backward(out)
-    # dK/dV should be all zeros
-    assert_allclose(key.grad, torch.zeros_like(key.grad), "key.grad")
-    assert_allclose(value.grad, torch.zeros_like(value.grad), "value.grad")
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_empty_tensors_empty_kv(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK",
-    )
-    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
-
-    key = key[:, :0]
-    value = value[:, :0]
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
-    assert_allclose(out, torch.zeros_like(out), "out")
-    out.backward(out)
-    # dQ should be all zeros
-    assert_allclose(query.grad, torch.zeros_like(query.grad), "query.grad")
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_empty_tensors_empty_b(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK",
-    )
-    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
-
-    query, key, value = query[:0], key[:0], value[:0]
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
-    out.backward(out)
-
-
-def test_local_attn_bias() -> None:
-    mask = (
-        fmha.attn_bias.LocalAttentionFromBottomRightMask(window_left=1, window_right=2)
-        .materialize(shape=(4, 4))
-        .exp()
-    )
-
-    expected = torch.tensor(
-        [[1, 1, 1, 0], [1, 1, 1, 1], [0, 1, 1, 1], [0, 0, 1, 1]], dtype=torch.float32
-    )
-    assert (mask == expected).all().item()
-
-
-@cuda_only
-@pytest.mark.parametrize("cc", [60, 70, 80])
-@pytest.mark.parametrize("maxK", [32, 64, 128, 256])
-@pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
-@pytest.mark.parametrize(
-    "custom_mask_type",
-    [
-        fmha.cutlass._CustomMaskType.NoCustomMask,
-        fmha.cutlass._CustomMaskType.CausalFromTopLeft,
-        fmha.cutlass._CustomMaskType.CausalFromBottomRight,
-    ],
-)
-@pytest.mark.parametrize("window_size", [0, 3, 300])
-@pytest.mark.parametrize(
-    "num_queries,num_keys",
-    [
-        (30, 66),
-        (256, 256),
-        # Edge cases
-        (314, 320),
-        (32, 256),
-        (224, 226),
-        (5, 531),
-        (320, 332),  # for win_size=300
-        # Others
-        (256, 62),
-        (256, 63),
-        (256, 64),
-        (256, 65),
-        (256, 66),
-    ],
-)
-def test_cutlassB_iter_order(
-    dtype,
-    cc: int,
-    maxK: int,
-    num_queries: int,
-    num_keys: int,
-    custom_mask_type,
-    window_size,
-) -> None:
-    """
-    This tests some internals of the cutlassB kernel
-    We test the iteration across blocks of [queries, keys] to ensure
-    that we correctly:
-    * Iterate over all the blocks that should be iterated
-    * Do *not* iterate over blocks that are completely masked out
-    * Correctly compute the number of parallel blocks that will compute
-        the same block of dQ
-    .. and we test this across variable causal masks+local attention combinations
-    """
-    if (
-        window_size > 0
-        and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
-    ):
-        pytest.skip("LocalAttention is only supported for causal")
-    get_iteration_data = partial(
-        torch.ops.xformers._cutlassB_iteration_data,
-        dtype=dtype,
-        cc=cc,
-        maxK=maxK,
-        num_queries=num_queries,
-        num_keys=num_keys,
-        custom_mask_type=custom_mask_type,
-        window_size=window_size,
-    )
-    bias = torch.zeros([num_queries, num_keys], dtype=torch.float32)
-    if custom_mask_type != fmha.cutlass._CustomMaskType.NoCustomMask:
-        bias = fmha.attn_bias._materialize_causal_mask(
-            (num_queries, num_keys),
-            dtype=torch.float32,
-            device="cpu",
-            window_size=None if window_size == 0 else window_size,
-            from_bottomright=(
-                custom_mask_type == fmha.cutlass._CustomMaskType.CausalFromBottomRight
-            ),
-        )
-
-    block_queries, block_keys = get_iteration_data()[:2]
-    mask_pooled = (
-        F.max_pool2d(bias.unsqueeze(0), (block_queries, block_keys), ceil_mode=True)
-        == 0
-    ).int()[0]
-    attn_computed = torch.zeros_like(mask_pooled)
-    for key_start in range(0, num_keys, block_keys):
-        it = 0
-        new_key_start = key_start
-        new_query_start = get_iteration_data(key_start=key_start)[2]
-        try:
-            expected_first_query = (
-                mask_pooled[:, key_start // block_keys].tolist().index(1)
-                * block_queries
-            )
-            assert (
-                new_query_start == expected_first_query
-            ), f"Wrong first query for K={key_start}: {new_query_start} (expected {expected_first_query})"
-        except ValueError:  # Nothing to compute in this column
-            pass
-
-        while new_key_start == key_start and new_query_start < num_queries:
-            query_start = new_query_start
-            attn_computed[query_start // block_queries, key_start // block_keys] += 1
-            # print(f"Compute [{query_start}, {key_start}]")
-
-            # Is there something to compute here?
-            assert mask_pooled[
-                query_start // block_queries, key_start // block_keys
-            ].item(), "Computing a block that is not needed!"
-            new_query_start, new_key_start = get_iteration_data(
-                key_start=key_start, query_start=query_start
-            )[3:5]
-            it += 1
-            assert it < num_queries, ""
-        assert (attn_computed == mask_pooled)[
-            :, key_start // block_keys
-        ].all(), "some blocks were not computed!"
-
-    # Now check that the number returned by `getNumParallelBlocksForQuery` is correct
-    for query_start in range(0, num_queries, block_queries):
-        num_parallel_blocks = get_iteration_data(
-            query_start=query_start, num_splits_key=num_keys
-        )[5]
-        num_actual = mask_pooled[query_start // block_queries].sum().item()
-        assert num_parallel_blocks == num_actual
-# end of file

From 34466be90735ce36d8ef3073bf904a3e372c1f9a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 1 Feb 2024 17:12:30 +0000
Subject: [PATCH 401/837] Update to test_mqa_forward_ck_tiled.py to use common
 create_attn_bias method

---
 tests/test_mqa_forward_ck_tiled.py | 482 +----------------------------
 1 file changed, 6 insertions(+), 476 deletions(-)

diff --git a/tests/test_mqa_forward_ck_tiled.py b/tests/test_mqa_forward_ck_tiled.py
index e3c1f488c1..7bdb75ae27 100644
--- a/tests/test_mqa_forward_ck_tiled.py
+++ b/tests/test_mqa_forward_ck_tiled.py
@@ -15,6 +15,7 @@
 import xformers.ops
 from xformers.ops import fmha
 from xformers.ops.fmha.common import AttentionOpBase
+from xformers.attn_bias_utils import create_attn_bias
 
 from .utils import assert_allclose
 
@@ -32,181 +33,6 @@
     fmha.ck.FwOp,
 ]
 
-ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
-    fmha.ck.BwOp,
-]
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    for B in op._TEST_BATCH_SIZES:
-        for Mq in [32, 256]:
-            for Mkv in [32, 64, 256, 1024]:
-                for K in op._TEST_K:
-                    shapes.append((B, Mq, Mkv, 1, K, K))
-        Mq = 256
-        Mkv = 128
-        K = 32
-        H = 1
-        # Weird values of parameters
-        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
-            shapes.append((B, M, Mkv, H, K, K))
-            shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
-            if _K <= op.SUPPORTED_MAX_K:
-                shapes.append((B, Mq, Mkv, H, _K, _K))
-        # Different value for K / Kv
-        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-            for _K in [32, 36, 64, 256 + 8]:
-                shapes.append((B, Mq, Mkv, H, K, _K))
-                shapes.append((B, Mq, Mkv, H, _K, K))
-        # Exotic sizes
-        for K in op._TEST_K:
-            shapes.append((B, 16, 1024, H, K, K))
-            shapes.append((B, 1024, 16, H, K, K))
-        # Some number of heads
-        for H in [3, 5, 12]:
-            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
-    # Filter-out not supported shapes
-    shapes = [
-        shape
-        for shape in shapes
-        if len(
-            op.shape_not_supported_reasons(
-                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
-            )
-        )
-        == 0
-    ]
-    # Add some random shapes
-    if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        found_count = 0
-        while found_count < 20:
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
-                continue
-            found_count += 1
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def make_id(op, device, dtype, bias_type, *shape):
-    return (
-        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-        f"-{'-'.join([str(s) for s in shape])}"
-    )
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-    return {
-        "argvalues": combination,
-        "ids": [make_id(*c) for c in combination],
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
-)
-
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
     if q.ndim == 4:
         B, M, Hq, K = q.shape
@@ -294,305 +120,13 @@ def T(t):
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        if fmt == "BMK":
-            attn_bias = attn_bias[:, 0]
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
-def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
-    tensor_with_grad: Optional[torch.Tensor] = None
-    if isinstance(attn_bias, torch.Tensor):
-        tensor_with_grad = attn_bias
-    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-        tensor_with_grad = attn_bias._bias
-    if tensor_with_grad is not None:
-        grad = tensor_with_grad.grad
-        if clear:
-            tensor_with_grad.grad = None
-        return grad
-    return None
-
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
 @pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
 @pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
-@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000), (400, 300)])
+@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000)])
 @pytest.mark.parametrize("batches", [100, 64, 1])
 @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
 @pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
-@pytest.mark.parametrize("op", [fmha.ck.FwOp])
+@pytest.mark.parametrize("op", ALL_FW_OPS)
 def test_mqa_forward(
     op,
     attn_bias_type,
@@ -612,16 +146,11 @@ def test_mqa_forward(
     Hkv = nhead_kv
     K = hdim_k
     Kv = hdim_v
-
-    print("Hq=", Hq, "Hkv=", Hkv)
+    nhead_ratio_qk = Hq // Hkv
 
     device = torch.device("cuda")
 
-    if not (K == Kv and (Kv == 64 or Kv == 128)):
-        pytest.skip("only head-dim size 64 or 128 supported by ck-tiled!")
-
-    if Kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention")
+    torch.manual_seed(B * M + N * K + Hq*Hkv + Kv)
 
     scale = 3
     query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
@@ -634,6 +163,7 @@ def test_mqa_forward(
             attn_bias_type,
             batch_size=B,
             num_heads=Hq,
+            num_heads_groups=nhead_ratio_qk,
             q_len=M,
             kv_len=N,
             dtype=dtype,

From 351c7665a2353a612862451498364d34671d1a92 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 1 Feb 2024 18:07:32 +0000
Subject: [PATCH 402/837] Add ck-tiled checking in test_mqa_forward_ck_tiled.py

---
 tests/test_mqa_forward_ck_tiled.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/tests/test_mqa_forward_ck_tiled.py b/tests/test_mqa_forward_ck_tiled.py
index 7bdb75ae27..5d11b8e40d 100644
--- a/tests/test_mqa_forward_ck_tiled.py
+++ b/tests/test_mqa_forward_ck_tiled.py
@@ -14,6 +14,7 @@
 
 import xformers.ops
 from xformers.ops import fmha
+from xformers.ops.common import get_xformers_operator
 from xformers.ops.fmha.common import AttentionOpBase
 from xformers.attn_bias_utils import create_attn_bias
 
@@ -33,6 +34,10 @@
     fmha.ck.FwOp,
 ]
 
+### ck_check_op is temporarily used to check ck-tiled availability
+ck_check_op = get_xformers_operator("is_ck_tiled_used")
+use_ck_tiled = ck_check_op()
+
 def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
     if q.ndim == 4:
         B, M, Hq, K = q.shape
@@ -150,6 +155,9 @@ def test_mqa_forward(
 
     device = torch.device("cuda")
 
+    if not use_ck_tiled:
+        pytest.skip("mqa/gqa is only supported with ck-tiled")
+
     torch.manual_seed(B * M + N * K + Hq*Hkv + Kv)
 
     scale = 3

From b58b4ed8b04fe9440c00ce2cf00ff6d1d7f713f4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 2 Feb 2024 01:45:17 +0000
Subject: [PATCH 403/837] rearrange smem access in softmax reduction

---
 .../hip_fmha/ck_attention_forward_decoder_splitk.h   | 12 +++---------
 1 file changed, 3 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 316a5d497c..d4becb4b5a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -361,7 +361,9 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
             (split_idx + 1 < split_k) ? n_unrolled_loops * dtt * (split_idx + 1) : t_max;
         for(int32_t t = t_low + thread_linear_idx; t < t_high; t += threads_per_block)
         {
-            softmax_denominator += ck::math::exp(smem[t - t_low] - max_qk_acc);
+            const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
+            softmax_denominator += s;
+            smem[t - t_low] = s;
         }
         softmax_denominator =
             wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
@@ -385,14 +387,6 @@ efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict_
         {
             split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
         }
-
-        // now, compute the normalization across all threads.
-        for(int32_t t = t_low + thread_linear_idx; t < t_high; t += threads_per_block)
-        {
-            // softmax scale by sumexp will happen in the reduction kernel
-            smem[t - t_low] = ck::math::exp(smem[t - t_low] - max_qk_acc);
-        }
-        __syncthreads();
     } // softmax reduce end
 
     // Split T across wavefronts in a block

From 21062d171c2ab7db48009e08aae97a70cc33f9c2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 15:53:30 +0000
Subject: [PATCH 404/837] Add test_decoder and test_splitk_decoder for ROCM
 into test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 60 +++++++++++++++++++++++++++------
 1 file changed, 49 insertions(+), 11 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 2b841e641b..a5f0b3e741 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -25,6 +25,7 @@
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+rocm_only = pytest.mark.skipif(not torch.cuda.is_available() or not torch.version.hip, reason="requires ROCM")
 compute_capability = (0, 0)
 if torch.cuda.is_available():
     compute_capability = torch.cuda.get_device_capability("cuda")
@@ -1549,7 +1550,7 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
 @pytest.mark.parametrize(
     "op",
     [
-        fmha.decoder.FwOp,
+        fmha.decoder.FwOp if torch.version.cuda else fmha.ck_decoder.FwOp,
     ],
 )
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
@@ -1565,6 +1566,7 @@ def test_decoder(
     dtype: str,
     dequant: bool = False,
     num_queries: int = 1,
+    d: int = 128,
 ) -> None:
     # kv_heads = 1: multiquery
     # kv_heads = None: neither MQA nor GQA
@@ -1573,7 +1575,6 @@ def test_decoder(
         raise pytest.skip("BF16 is only supported on SM80+")
     dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
     torch.manual_seed(1)
-    d = 128
     if kv_heads is not None and kv_heads > 1:
         k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
         q_shape: Tuple[int, ...] = (
@@ -1630,15 +1631,26 @@ def dequant_cache(x):
         k = dequant_cache(k)
         v = dequant_cache(v)
 
-    cutlass_output = fmha.memory_efficient_attention_forward(
-        q, k, v, attn_bias, op=fmha.cutlass.FwOp
-    )
-    assert_allclose(
-        decoder_output,
-        cutlass_output,
-        atol=fmha.cutlass.FwOp.ERROR_ATOL[dtype_] * 4,
-        rtol=fmha.cutlass.FwOp.ERROR_RTOL[dtype_],
-    )
+    if torch.version.cuda:
+        cutlass_output = fmha.memory_efficient_attention_forward(
+             q, k, v, attn_bias, op=fmha.cutlass.FwOp
+        )
+
+        assert_allclose(
+            decoder_output,
+            cutlass_output,
+            atol=fmha.cutlass.FwOp.ERROR_ATOL[dtype_] * 4,
+            rtol=fmha.cutlass.FwOp.ERROR_RTOL[dtype_],
+        )
+    else:
+        ref_output = ref_attention(q, k, v, attn_bias)
+
+        assert_allclose(
+            decoder_output.float(),
+            ref_output,
+            atol=fmha.cutlass.FwOp.ERROR_ATOL[dtype_] * 4,
+            rtol=fmha.cutlass.FwOp.ERROR_RTOL[dtype_],
+        )
 
 
 @sm80_or_better_only
@@ -1686,6 +1698,32 @@ def test_triton_splitk_decoder(
         dequant=dequant,
     )
 
+@rocm_only
+@pytest.mark.parametrize("op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4])
+@pytest.mark.parametrize("dtype", ["f32"])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("n_heads", [16])
+@pytest.mark.parametrize("d", [128, 256])
+@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1), (32, 1), (4096, 8)])
+def test_splitk_decoder(
+    op,
+    kv_heads: Optional[int],
+    n_heads: int,
+    padding: int,
+    bsz: int,
+    dtype: str,
+    d: int
+) -> None:
+    # no quantized impl compared to cuda
+    test_decoder(
+        op,
+        kv_heads=kv_heads,
+        n_heads=n_heads,
+        padding=padding,
+        bsz=bsz,
+        dtype=dtype,
+        d=d,
+    )
 
 def test_attn_bias_from_seqlens() -> None:
     bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])

From df7d52339699e64e51a1fbd0f20b73b5a1447c5a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 16:14:16 +0000
Subject: [PATCH 405/837] Add ref_attention_splitk and its test to
 tests/test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 174 ++++++++++++++++++++++++++++++++
 1 file changed, 174 insertions(+)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index a5f0b3e741..9230ee5d19 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -310,6 +310,127 @@ def T(t):
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
+def ref_attention_splitk_bmhk(q, k, v, attn_bias, scale=None, split_k=None, dtype=None) -> torch.Tensor:
+    assert q.ndim == 4
+
+    def T(t):
+        return t.permute((0, 2, 1, 3)).reshape(
+            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
+        )
+
+    if isinstance(attn_bias, xformers.ops.AttentionBias):
+        attn_bias = attn_bias.materialize(
+            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
+            device=q.device,
+            dtype=torch.float32,
+        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
+    out = ref_attention_splitk(T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype)
+    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
+    return out.permute((0, 2, 1, 3))
+
+def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2, dtype=None) -> torch.Tensor:
+    if q.ndim == 5:
+        def attn_bias_group(group: int):
+            if isinstance(attn_bias, torch.Tensor):
+                return attn_bias[:, group]
+            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                    attn_bias._bias[:, group]
+                )
+            return attn_bias
+
+        return torch.stack(
+            [
+                ref_attention_splitk_bmhk(
+                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), split_k=split_k, dtype=dtype
+                )
+                for g in range(q.shape[2])
+            ],
+            dim=2,
+        )
+
+    if q.ndim == 4:
+        return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype)
+    assert q.ndim == 3
+    if dtype is None:
+        dtype = torch.float32
+    q = q.to(dtype=dtype)
+    k = k.to(dtype=dtype)
+    v = v.to(dtype=dtype)
+
+    if scale is None:
+        scale = q.shape[-1] ** -.5
+    assert not q.isnan().any()
+    q = q * scale
+    assert not q.isnan().any()
+
+    if attn_bias is not None:
+        if isinstance(attn_bias, xformers.ops.AttentionBias):
+            # Always create in B,H,Mq,Mk format
+            attn_bias_tensor = attn_bias.materialize(
+                (q.shape[0], 1, q.shape[1], k.shape[1]),
+                device=q.device,
+                dtype=torch.float32,
+            )
+        else:
+            attn_bias_tensor = attn_bias
+        if attn_bias_tensor.ndim == 4:
+            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
+            attn_bias_tensor = attn_bias_tensor.reshape(
+                [-1, *attn_bias_tensor.shape[2:]]
+            )
+
+    split_size = k.size(-2) // split_k
+    split_config = { "dim": -2, "split_size_or_sections": split_size}
+    k_split = torch.split(k, **split_config)
+    v_split = torch.split(v, **split_config)
+    attn_bias_split = torch.split(attn_bias_tensor, dim=-1, split_size_or_sections=split_size)
+
+    def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
+        p_slice = q_whole @ k_slice.transpose(-2, -1)
+        p_slice += attn_bias_slice
+        m = torch.max(p_slice, dim = -1, keepdim=True).values
+        p_slice_scaled = p_slice - m
+        p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
+        s = torch.exp(p_slice_scaled)
+        l = torch.sum(s, dim=-1, keepdim=True)
+        attn_slice = s @ v_slice
+        return {
+            "attn_slice": attn_slice,
+            "row_max": m,
+            "row_lse": l,
+        }
+
+    splits = list(zip(k_split, v_split, attn_bias_split))
+
+    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]),
+        splits))
+    out = torch.zeros_like(q)
+
+    # reduce out over split-k slices
+
+    global_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
+    global_sumexp = torch.zeros_like(slices[0]["row_lse"])
+
+    for s in slices:
+        local_out = s["attn_slice"]
+        local_max = s["row_max"]
+        local_sumexp = s["row_lse"]
+
+        log_alpha = -torch.abs(local_max - global_max)
+        alpha = torch.exp(log_alpha)
+        alpha.nan_to_num_(1.)
+
+        pick_new = local_max < global_max
+        new_coef = torch.where(pick_new, alpha, 1.)
+        curr_coef = torch.where(pick_new, 1., alpha)
+
+        out = out * curr_coef + local_out * new_coef
+        global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
+        global_max = torch.max(local_max, global_max)
+    out /= global_sumexp
+    return out
+
 
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
@@ -1546,6 +1667,59 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
     return f"gqa{kv_heads}"
 
 
+@pytest.mark.parametrize("dtype", ["f32"])
+@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
+@pytest.mark.parametrize("n_heads", [16])
+@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
+@pytest.mark.parametrize("split_k", [1, 2, 4])
+def test_splitk_reference(
+    kv_heads: int, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
+):
+    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
+    torch.manual_seed(1)
+    d = 256
+    num_queries = 1
+    if kv_heads is not None and kv_heads > 1:
+        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
+        q_shape: Tuple[int, ...] = (
+            1,
+            bsz * num_queries,
+            kv_heads,
+            n_heads,
+            d,
+        )
+    else:
+        k_shape = (1, bsz * padding, n_heads, d)
+        q_shape = (1, bsz * num_queries, n_heads, d)
+
+    k = torch.rand(k_shape, dtype=dtype_).cuda()
+    k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
+    v = torch.rand_like(k)
+    q = torch.rand(q_shape, dtype=dtype_).cuda()
+    causal_diagonal = torch.tensor(  # TODO: make unnecessary
+        [i - 1 for i in k_seqlen], dtype=torch.int32
+    ).cuda()
+
+    if kv_heads is not None:
+        k = k[..., :1, :].expand(k_shape)
+        v = v[..., :1, :].expand(k_shape)
+
+    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
+        q_seqlen=[1] * bsz,
+        kv_seqlen=k_seqlen,
+        causal_diagonal=causal_diagonal,
+        kv_padding=padding,
+    )
+    ref_out = ref_attention(q, k, v, attn_bias)
+    splitk_out = ref_attention_splitk(q, k, v, attn_bias, None, split_k=split_k)
+    assert_allclose(
+        ref_out,
+        splitk_out,
+        atol=fmha.ck.FwOp.ERROR_ATOL[dtype_],
+        rtol=fmha.ck.FwOp.ERROR_RTOL[dtype_],
+    )
+
+
 @sm70_or_better_only
 @pytest.mark.parametrize(
     "op",

From ee633c8bd07fc378eef3e192de673e2bb4236c75 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 16:19:11 +0000
Subject: [PATCH 406/837] Rename test_mem_eff_attention_ck.py as discarded

---
 ...eff_attention_ck.py => test_mem_eff_attention_ck_discarded.py} | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename tests/{test_mem_eff_attention_ck.py => test_mem_eff_attention_ck_discarded.py} (100%)

diff --git a/tests/test_mem_eff_attention_ck.py b/tests/test_mem_eff_attention_ck_discarded.py
similarity index 100%
rename from tests/test_mem_eff_attention_ck.py
rename to tests/test_mem_eff_attention_ck_discarded.py

From 2df5ed3949808957bf6417d43c70186a69fd648c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 20:34:23 +0000
Subject: [PATCH 407/837] Add test_mqa_forward and ref_attention_mqa (for BMHK
 format mqa/gqa verification) into test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 126 ++++++++++++++++++++++++++++++++
 1 file changed, 126 insertions(+)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 9230ee5d19..355571ad57 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -17,6 +17,7 @@
 import xformers.ops
 from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
+from xformers.ops.common import get_xformers_operator
 from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
 from xformers.ops.fmha.common import AttentionOpBase
 from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
@@ -431,6 +432,42 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     out /= global_sumexp
     return out
 
+## this interface assumes the tensor is in BMHK, but q and k/v might has different number of heads
+def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
+    assert q.ndim == 4
+
+    B, M, Hq, K = q.shape
+    _, N, Hkv, Kv = v.shape
+    nhead_ratio_qk = Hq // Hkv
+
+    def attn_bias_head(head: int):
+        if isinstance(attn_bias, torch.Tensor):
+            assert attn_bias.ndim == 4
+            _, H, _, _ = attn_bias.shape
+            assert H == Hq
+            bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+            return bias_bghmn[:, :, head]
+        if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
+            assert attn_bias._bias.ndim == 4
+            _, H, _, _ = attn_bias._bias.shape
+            assert H == Hq
+            bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
+            return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
+                bias_bghmn[:, :, head]
+            )
+        return attn_bias
+
+    q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
+
+    return torch.stack(
+           [
+              ref_attention_bmhk(
+                   q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h),
+              )
+              for h in range(q_bmghk.shape[3])
+           ],
+           dim=3,
+       ).reshape((B, M, Hq, Kv))
 
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
@@ -643,6 +680,95 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
+@rocm_only
+@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
+@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
+@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000)])
+@pytest.mark.parametrize("batches", [100, 64, 1])
+@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
+@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize("op", [fmha.ck.FwOp])
+def test_mqa_forward(
+    op,
+    attn_bias_type,
+    dtype,
+    batches: int,
+    seqlen_kv: int,
+    seqlen_q: int,
+    nhead_kv: int,
+    nhead_q: int,
+    hdim_v: int,
+    hdim_k: int,
+):
+    B = batches
+    M = seqlen_q
+    N = seqlen_kv
+    Hq = nhead_q
+    Hkv = nhead_kv
+    K = hdim_k
+    Kv = hdim_v
+    nhead_ratio_qk = Hq // Hkv
+
+    device = torch.device("cuda")
+
+    ### ck_check_op is temporarily used to check ck-tiled availability
+    ck_check_op = get_xformers_operator("is_ck_tiled_used")
+    use_ck_tiled = ck_check_op()
+
+    if not use_ck_tiled:
+        pytest.skip("mqa/gqa is only supported with ck-tiled")
+
+    torch.manual_seed(B * M + N * K + Hq*Hkv + Kv)
+
+    scale = 3
+    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
+    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
+    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
+
+    attn_bias = None
+    if attn_bias_type is not None:
+        attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=Hq,
+            num_heads_groups=nhead_ratio_qk,
+            q_len=M,
+            kv_len=N,
+            dtype=dtype,
+            device=device,
+            requires_grad=False,
+            fmt="BMHK",
+            op=op,
+        )
+
+    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
+    reasons = op.not_supported_reasons(inputs)
+    if reasons:
+        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+        # Ensure we free memory to avoid OOMs
+        del query, key, value, attn_bias, inputs
+
+    out = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
+    out2 = xformers.ops.memory_efficient_attention_forward(
+        query, key, value, attn_bias, op=op
+    )
+    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
+        "Non-deterministic behavior",
+        attn_bias,
+    )
+
+    ref = ref_attention_mqa(query, key, value, attn_bias)
+    assert out.shape == ref.shape, out.shape
+    assert_allclose(
+        out.float(),
+        ref,
+        atol=op.ERROR_ATOL[dtype],
+        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
+    )
+
 
 @cuda_only
 @pytest.mark.parametrize("k_len", [5, 6, 32])

From 7d1219b10b99508baeebe880f4eda38cb116f0af Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 20:40:11 +0000
Subject: [PATCH 408/837] Rename test_mqa_forward_ck_tiled.py as discarded

---
 ...forward_ck_tiled.py => test_mqa_forward_ck_tiled_discarded.py} | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename tests/{test_mqa_forward_ck_tiled.py => test_mqa_forward_ck_tiled_discarded.py} (100%)

diff --git a/tests/test_mqa_forward_ck_tiled.py b/tests/test_mqa_forward_ck_tiled_discarded.py
similarity index 100%
rename from tests/test_mqa_forward_ck_tiled.py
rename to tests/test_mqa_forward_ck_tiled_discarded.py

From fe6f96e2a21cc1cd2f141d349fe608a2e5bfdfa1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 20:49:18 +0000
Subject: [PATCH 409/837] Remove CK specific script
 benchmark_mem_eff_attn_decoder_ck.py

---
 .../benchmark_mem_eff_attn_decoder_ck.py      | 208 ------------------
 1 file changed, 208 deletions(-)
 delete mode 100644 xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
deleted file mode 100644
index 86d4813cf4..0000000000
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder_ck.py
+++ /dev/null
@@ -1,208 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-
-import itertools
-from functools import partial
-
-import torch
-from torch.utils import benchmark
-from utils import benchmark_main_helper
-
-import xformers.ops
-import xformers.ops.fmha as fmha
-
-torch.backends.cuda.matmul.allow_tf32 = False
-
-# Run with
-#  python xformers/benchmarks/benchmark_mem_eff_attn_decoder.py --omit-baselines --quiet
-# The baselines for these benchmarks are really slow because there is
-# so much padding in the inputs, so there is no point running them.
-
-
-def ref_attention_bmk(q, k, v, attn_bias=None):
-    if isinstance(attn_bias, xformers.ops.AttentionMask):
-        attn_bias = (
-            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
-            .to(q)
-            .squeeze()
-        )
-    q = q * (1.0 / q.shape[-1] ** 0.5)
-    if attn_bias is None:
-        attn = q @ k.transpose(-2, -1)
-    else:
-        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
-        # but faster, and is what is used in PyTorch now
-        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
-    attn = attn.softmax(-1)
-    return attn @ v
-
-
-def ref_attention(q, k, v, attn_bias):
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-min_run_time = 0.5
-device = torch.device("cuda")
-
-NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
-
-OPS = [
-    xformers.ops.fmha.ck.FwOp,
-    xformers.ops.fmha.ck_decoder.FwOp
-]
-
-KV_SHAPES = [
-    # list of n_keys, padding_length, batchsize
-    (2, 64, 3),
-    (32, 1024, 500),  
-    (1000, 1024, 2),
-    (8000, 8192, 1),
-    (240, 256, 32),
-    (2048, 2 * 1024, 4),
-    (4096 * 2, 8 * 1024, 1),
-]
-
-N_HEADS = [8, 16, 64]
-
-
-def product_dict(**kwargs):
-    keys = kwargs.keys()
-    vals = kwargs.values()
-    for instance in itertools.product(*vals):
-        yield dict(zip(keys, instance))
-
-
-CASES = list(
-    product_dict(
-        kv_shape=KV_SHAPES,
-        n_heads=N_HEADS,
-        num_threads=NUM_THREADS,
-        multiquery=[True, False],
-    )
-)
-
-def get_memory_traffic(op, q, k, v, bias):
-    # mem_size = ( batch_size * seq_len * 1 * dim_per_head * 2 (K/V) + 
-    #              batch_size * 1 * num_heads * dim_per_head (Q) + 
-    #              batch_size * seq_len * num_heads * dim_per_head (attn_output) ) * bytes_per_element
-    out = xformers.ops.memory_efficient_attention_forward(q, k, v, bias, op=op)
-    dtype = q.dtype
-    multiquery = k.stride(2) == 0
-    n_heads = q.shape[-2]
-    dim_per_head = q.shape[-1]
-    kv_seqlen = bias.k_seqinfo.seqlen_py
-    bytes_per_element = 4 if dtype is torch.float32 else 2 if dtype in (torch.float16, torch.bfloat16) else None
-    mem_size = 0
-    mem_size += q.numel() * bytes_per_element # Q
-    for s in kv_seqlen: # len(kv_seqlen) == batch_size
-        mem_size += s * (1 if multiquery else n_heads) * dim_per_head * bytes_per_element * 2 # K, V
-    mem_size += out.numel() * bytes_per_element # attn_output
-    return mem_size
-
-def mem_eff_attention_decoder(
-    kv_shape, n_heads: int, num_threads: int, multiquery: bool
-):
-    n_keys, padding, B = kv_shape
-    torch.manual_seed(42)
-    k_seqlen = torch.randint(1, n_keys + 1, (B,)).tolist()
-    K = 128
-    dtype = torch.bfloat16
-    q = torch.rand(1, B, n_heads, K, device=device, dtype=dtype)
-    if multiquery:
-        k = torch.rand(
-            1, B * padding, 1, K, device=device, dtype=dtype
-        ).expand(1, B * padding, n_heads, K)
-        v = torch.rand(
-            1, B * padding, 1, K, device=device, dtype=dtype
-        ).expand(1, B * padding, n_heads, K)
-    else:
-        k = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
-        v = torch.rand(1, B * padding, n_heads, K, device=device, dtype=dtype)
-
-    bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[1] * B,
-        kv_seqlen=k_seqlen,
-        kv_padding=padding,
-    )
-
-    sub_label = f"{B}batch-{k_seqlen[0]}keys-{n_heads}heads"
-    if multiquery:
-        sub_label += "-mq"
-
-    has_run = False
-
-    for fw_op in OPS:
-        inp = fmha.Inputs(q, k, v, attn_bias=bias)
-        if (skip_reasons := fw_op.not_supported_reasons(inp)):
-            print(f"Skip benchmark: {skip_reasons=}")
-            continue
-
-        fn = partial(xformers.ops.memory_efficient_attention_forward, op=fw_op)
-
-        mem_size = get_memory_traffic(fw_op, q, k, v, bias)
-
-        yield benchmark.Timer(
-            stmt=f"fn(q, k, v, attn_bias)",
-            globals={
-                "q": q,
-                "k": k,
-                "v": v,
-                "attn_bias": bias,
-                "fn": fn,
-            },
-            label="attention",
-            description=fw_op.NAME,
-            sub_label=f"{sub_label}_{mem_size//1024}k",
-            num_threads=num_threads,
-        )
-
-        graph = torch.cuda.CUDAGraph()
-        with torch.cuda.graph(graph):
-            fn(q, k, v, bias)
-        yield benchmark.Timer(
-            stmt="graph.replay()",
-            globals={
-                "graph": graph,
-            },
-            label="cuda graphed attention",
-            description=fw_op.NAME,
-            sub_label=f"{sub_label}_{mem_size//1024}k",
-            num_threads=num_threads,
-        )
-
-        has_run = True
-
-    if not has_run:
-        return
-
-    RUN_BASELINES = False
-    if RUN_BASELINES:
-        yield benchmark.Timer(
-            stmt="fn(q, k, v, attn_bias)",
-            globals={
-                "q": q,
-                "k": k,
-                "v": v,
-                "attn_bias": bias,
-                "fn": ref_attention,
-            },
-            label="attention",
-            description="eager",
-            sub_label=sub_label,
-            num_threads=num_threads,
-        )
-
-
-benchmark_main_helper(mem_eff_attention_decoder, CASES, min_run_time=min_run_time)

From 5af967c74ae1ff40e5d3aecceab422ef3d4fcfe8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 21:34:59 +0000
Subject: [PATCH 410/837] Refine benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py

---
 tests/test_mem_eff_attention.py               |  2 +-
 ...benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py | 62 ++++++-------------
 2 files changed, 21 insertions(+), 43 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 355571ad57..aee582c38f 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -432,7 +432,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     out /= global_sumexp
     return out
 
-## this interface assumes the tensor is in BMHK, but q and k/v might has different number of heads
+## this interface assumes the tensor is in BMHK, but q and k/v might have different number of heads
 def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
     assert q.ndim == 4
 
diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
index 69b092788c..12b8f7b91d 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
@@ -15,31 +15,12 @@
 import xformers.ops
 import xformers.ops.fmha as fmha
 
-torch.backends.cuda.matmul.allow_tf32 = False
+from xformers.attn_bias_utils import create_attn_bias
 
+torch.backends.cuda.matmul.allow_tf32 = False
 
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    bias_requires_grad: bool = False,
-):
-    NoneType = type(None)
-    if bias_type is NoneType:
-        return None
-    if bias_type is torch.Tensor:
-        attn_bias = torch.randn((1, 1, q_len, kv_len), device=device, dtype=dtype)
-        return attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return bias_type()
-    assert False, f"Unsupported bias type: {bias_type}"
-
-## ref_attention is completely the same as used by test_forward_ck_tiled.py
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+## this interface assumes the tensor is in BMHK, but q and k/v might has different number of heads
+def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
     if q.ndim == 4:
         B, M, Hq, K = q.shape
         _, N, Hkv, Kv = v.shape
@@ -122,7 +103,7 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
+    out = ref_attention_mqa(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
@@ -147,11 +128,11 @@ def T(t):
 ]
 
 OPS = [
-    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
-    #(xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
+    xformers.ops.fmha.ck.FwOp,
+    xformers.ops.fmha.flash.FwOp,
     # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
     # and its performance varies a lot between runs.
-    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
+    ##xformers.ops.fmha.triton.FwOp,
 ]
 
 
@@ -167,7 +148,7 @@ def product_dict(**kwargs):
         shape=SHAPES,
         num_threads=NUM_THREADS,
         dropout_p=[0.0],
-        attn_bias_cfg=[(type(None), False)],
+        attn_bias_type=[type(None)],
         dtype=[torch.half, torch.bfloat16],
     )
 )
@@ -178,12 +159,8 @@ def product_dict(**kwargs):
     c.update(
         random.Random(str(c["shape"])).choice(
             [
-                ##{"dropout_p": 0.3},
-                {"attn_bias_cfg": (torch.Tensor, False)},
-                ##{"attn_bias_cfg": (torch.Tensor, True)},
-                {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
-                ##{"dtype": torch.bfloat16},
-                ##{"dtype": torch.float},
+                {"attn_bias_type": torch.Tensor},
+                {"attn_bias_type": xformers.ops.LowerTriangularMask},
             ]
         )
     )
@@ -197,21 +174,22 @@ def create_tensors(shape, dtype, requires_grad=False):
     v = torch.rand([B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad)
     return q, k, v
 
-def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
+def mem_eff_attention_fw(shape, num_threads: int, attn_bias_type, dropout_p, dtype):
     B, M, N, Hq, Hkv, K = shape
+    nhead_ratio_qk = Hq // Hkv
     q, k, v = create_tensors(shape, dtype)
-    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
-    if attn_bias_requires_grad:
-        return
     bias = create_attn_bias(
         attn_bias_type,
         batch_size=B,
         num_heads=Hq,
+        num_heads_groups=nhead_ratio_qk,
         q_len=M,
         kv_len=N,
         device=device,
         dtype=dtype,
-        bias_requires_grad=attn_bias_requires_grad,
+        requires_grad=False,
+        fmt="BMHK",
+        op=fmha.ck.FwOp,  ## only required as a refer op by create_attn_bias
     )
     inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
 
@@ -226,7 +204,7 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
     )
 
     has_run = False
-    for fw_op, bw_op in OPS:
+    for fw_op in OPS:
         if not fw_op.supports(inp):
             continue
 
@@ -239,7 +217,7 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
                 "attn_bias": inp.attn_bias,
                 "p": dropout_p,
                 "fn": partial(
-                    xformers.ops.memory_efficient_attention, op=(fw_op, bw_op)
+                    xformers.ops.memory_efficient_attention_forward, op=fw_op
                 ),
             },
             label=f"attention (attn_bias={attn_bias_type})",
@@ -260,7 +238,7 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtyp
             "v": v,
             "attn_bias": inp.attn_bias,
             "p": dropout_p,
-            "fn": ref_attention,
+            "fn": ref_attention_mqa,
         },
         label=f"attention (attn_bias={attn_bias_type})",
         description="eager",

From 3f46c2f4ab1332fccfc1ef5a559b4a5746be3209 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 21:38:18 +0000
Subject: [PATCH 411/837] Rename benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py to
 benchmark_mem_eff_attention_mqa.py

---
 ...tn_mqa_gqa_ck_tiled.py => benchmark_mem_eff_atttention_mqa.py} | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename xformers/benchmarks/{benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py => benchmark_mem_eff_atttention_mqa.py} (100%)

diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
similarity index 100%
rename from xformers/benchmarks/benchmark_mem_eff_attn_mqa_gqa_ck_tiled.py
rename to xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py

From 2c27aacbf10d8dad789669dcf466de28a3fd334c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 22:27:05 +0000
Subject: [PATCH 412/837] Remove the runtime_error with using logsumexp in
 attention_forward_generic_ck_tiled.cpp

---
 .../attention/hip_fmha/attention_forward_generic_ck_tiled.cpp    | 1 -
 1 file changed, 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index b27626706a..0c81dbfa9a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -217,7 +217,6 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
         {
             logsumexp       = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
             p.logsumexp_ptr = logsumexp.data_ptr();
-            throw std::runtime_error("compute logsumexp is currently not implemented by ck-tiled!");
         }
         else
             p.logsumexp_ptr = nullptr;

From 4b8ce7cc0c3e694ba89f0dfe32d320cdef86a4a2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 22:47:01 +0000
Subject: [PATCH 413/837] Add ck-tiled checking in ck.py

---
 xformers/ops/fmha/ck.py | 19 ++++++++++++-------
 1 file changed, 12 insertions(+), 7 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 0ecc7f317a..fa9ee1f746 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -144,22 +144,25 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
         return int(_CustomMaskType.CausalFromBottomRight)
     return int(_CustomMaskType.NoCustomMask)
 
+# checking the availability of ck-tiled is necessary since ck-tiled does not
+# have the same functionalities as old-CK
+def is_using_ck_tiled() -> bool:
+    ### ck_check_op is temporarily used to check ck-tiled availability
+    ck_check_op = get_xformers_operator("is_ck_tiled_used")
+    use_ck_tiled = ck_check_op()
+    return use_ck_tiled
 
 @register_operator
 class FwOp(AttentionFwOpBase):
     """xFormers' MHA kernel based on Composable Kernel.
     """
 
-    ### ck_check_op is temporarily used to check ck-tiled availability
-    ck_check_op = get_xformers_operator("is_ck_tiled_used")
-    use_ck_tiled = ck_check_op()
- 
     OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
     SUPPORTED_MAX_K = 256 
-    
-    if use_ck_tiled: 
+
+    if is_using_ck_tiled(): 
         SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
             type(None),
             torch.Tensor,
@@ -186,7 +189,7 @@ class FwOp(AttentionFwOpBase):
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
          }
 
-    SUPPORTS_DROPOUT = True
+    SUPPORTS_DROPOUT = False if is_using_ck_tiled() else True
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
     SUPPORTS_BMGHK = True
@@ -424,6 +427,8 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                     f"/ expected: {expected_bias_shape})"
                 )
         _check_large_shapes(reasons, d)
+        if is_using_ck_tiled():
+            reasons.append("Backward is currently not completely supported by ck-tiled!")
         return reasons
 
     @classmethod

From 0d311f50f5afe70e16c5ee0ed3e63254493c0895 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 2 Feb 2024 22:49:03 +0000
Subject: [PATCH 414/837] Remove CK-specific benchmark scripts

---
 .../benchmark_mem_eff_attention_ck.py         | 343 ------------------
 .../benchmark_mem_eff_attention_ck_tiled.py   | 316 ----------------
 2 files changed, 659 deletions(-)
 delete mode 100644 xformers/benchmarks/benchmark_mem_eff_attention_ck.py
 delete mode 100644 xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py

diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
deleted file mode 100644
index e683a7f064..0000000000
--- a/xformers/benchmarks/benchmark_mem_eff_attention_ck.py
+++ /dev/null
@@ -1,343 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-
-import itertools
-import random
-from functools import partial
-
-import torch
-from torch.utils import benchmark
-from xformers.benchmarks.utils import benchmark_main_helper
-
-import xformers.ops
-import xformers.ops.fmha as fmha
-from xformers.attn_bias_utils import create_attn_bias
-
-torch.backends.cuda.matmul.allow_tf32 = False
-
-
-def ref_attention_bmk(q, k, v, attn_bias=None, p=0.0):
-    if isinstance(attn_bias, xformers.ops.AttentionMask):
-        attn_bias = (
-            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
-            .to(q)
-            .squeeze()
-        )
-    q = q * (1.0 / q.shape[-1] ** 0.5)
-    if attn_bias is None:
-        attn = q @ k.transpose(-2, -1)
-    else:
-        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
-        # but faster, and is what is used in PyTorch now
-        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
-    attn = attn.softmax(-1)
-    if p > 0:
-        attn = torch.nn.functional.dropout(attn, p=p)
-    return attn @ v
-
-
-def ref_attention(q, k, v, attn_bias, p=0.0):
-    assert q.ndim == 4
-    B, M, H, K = q.shape
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, torch.Tensor):
-        attn_bias = attn_bias.reshape(B * H, M, M)
-    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias, p)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-min_run_time = 0.5
-device = torch.device("cuda")
-
-NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
-SHAPES = [
-    # ViT
-    (384, 197, 1, 88),
-    (384, 197, 1, 80),
-    (384, 197, 1, 64),
-    (1024, 197, 1, 88),
-    (1024, 197, 1, 80),
-    (1024, 197, 1, 64),
-    # ViT-Huge
-    (32 * 16, 197, 1, 80),
-    (32, 197, 16, 80),
-    (32, 197, 16, 64),
-    (32, 197, 16, 128),
-    # ViT-Giant
-    (16 * 16, 197, 1, 88),
-    (16, 197, 16, 88),
-    (16, 197, 16, 64),
-    (16, 197, 16, 128),
-    # FB models
-    (1024, 82, 8, 64),
-    (150, 256, 16, 64),
-    (64, 256, 12, 64),
-    # Stable diffusion (https://github.com/huggingface/diffusers/pull/532)
-    (1, 4096, 16, 40),  # 512x512
-    (1, 16384, 16, 40),  # 1024x1024
-    (1, 4096, 16, 80),
-    #(1, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
-    # + bs4
-    (4, 4096, 16, 40),
-    #(4, 16384, 16, 40),  // disabled on MI250 due to big memory requirement
-    (4, 4096, 16, 80),
-    #(4, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
-    # ParlAI model
-    #(256, 4096, 16, 64), // disabled on MI250 due to big memory requirement
-    # Zetta B M H K
-    (8, 2048, 20, 128),
-    # LLaMa 70b - mp=8/16
-    *sorted(itertools.product([1, 2], [2048, 4096, 8192], [4, 8], [128])),
-    *sorted(
-        ##itertools.product([16], [128, 512, 1024], [16], [16, 32, 64, 128, 160, 256])
-        ## disabled K/Kv bigger than 128
-        itertools.product([16], [128, 512, 1024], [16], [16, 32, 64, 128])
-    ),
-]
-
-OPS = [
-    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
-    #(xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
-    # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
-    # and its performance varies a lot between runs.
-    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
-]
-
-
-def product_dict(**kwargs):
-    keys = kwargs.keys()
-    vals = kwargs.values()
-    for instance in itertools.product(*vals):
-        yield dict(zip(keys, instance))
-
-
-CASES = list(
-    product_dict(
-        shape=SHAPES,
-        num_threads=NUM_THREADS,
-        dropout_p=[0.0],
-        attn_bias_cfg=[(type(None), False)],
-        dtype=[torch.half],
-    )
-)
-
-# Add more cases with some variations
-for c in CASES.copy():
-    c = c.copy()
-    c.update(
-        random.Random(str(c["shape"])).choice(
-            [
-                {"dropout_p": 0.3},
-                {"attn_bias_cfg": (torch.Tensor, False)},
-                {"attn_bias_cfg": (torch.Tensor, True)},
-                {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
-                {
-                    "attn_bias_cfg": (
-                        xformers.ops.fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-                        False,
-                    )
-                },
-                {"dtype": torch.bfloat16},
-                ##{"dtype": torch.float},
-            ]
-        )
-    )
-    CASES.append(c)
-
-
-def create_tensors(shape, dtype, requires_grad=False, packed=True, multiquery=False):
-    stacked_shape = list(shape)  # B, M, H, K
-    stacked_dim = 2 if packed else 0
-    stacked_shape.insert(stacked_dim, 3)
-    qkv = torch.rand(
-        stacked_shape, device=device, dtype=dtype, requires_grad=requires_grad
-    )
-    q = torch.rand(shape, device=device, dtype=dtype, requires_grad=requires_grad)
-    shape_kv = (shape[0], shape[1], 1 if multiquery else shape[2], shape[3])
-    k = torch.rand(
-        shape_kv, device=device, dtype=dtype, requires_grad=requires_grad
-    ).expand(shape)
-    v = torch.rand(
-        shape_kv, device=device, dtype=dtype, requires_grad=requires_grad
-    ).expand(shape)
-    return qkv, q, k, v
-
-
-def mem_eff_attention_fw(
-    shape,
-    num_threads: int,
-    attn_bias_cfg,
-    dropout_p,
-    dtype,
-    packed=True,
-    multiquery=False,
-):
-    B, M, H, K = shape
-    _, q, k, v = create_tensors(
-        shape, dtype, requires_grad=False, packed=packed, multiquery=multiquery
-    )
-    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
-    if attn_bias_requires_grad:
-        return
-
-    dtype_str = {
-        torch.bfloat16: "b16",
-        torch.half: "f16",
-        torch.float: "f32",
-    }[dtype]
-    sub_label = (
-        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
-        f"BiasT={attn_bias_type.__name__}"
-    )
-
-    has_run = False
-    for fw_op, bw_op in OPS:
-        bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=H,
-            num_heads_groups=1,
-            q_len=M,
-            kv_len=M,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt="BMHK",
-            op=fw_op,
-        )
-        inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
-        if isinstance(
-            bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            q, k, v = [x.reshape([1, -1, *x.shape[2:]]) for x in [q, k, v]]
-        if not fw_op.supports(inp):
-            continue
-
-        yield benchmark.Timer(
-            stmt="fn(q, k, v, attn_bias, p)",
-            globals={
-                "q": q,
-                "k": k,
-                "v": v,
-                "attn_bias": inp.attn_bias,
-                "p": dropout_p,
-                "fn": partial(
-                    xformers.ops.memory_efficient_attention, op=(fw_op, bw_op)
-                ),
-            },
-            label=f"attention (attn_bias={attn_bias_type})",
-            description=fw_op.NAME,
-            sub_label=sub_label,
-            num_threads=num_threads,
-        )
-        has_run = True
-
-    if not has_run:
-        return
-
-    yield benchmark.Timer(
-        stmt="fn(q, k, v, attn_bias, p)",
-        globals={
-            "q": q,
-            "k": k,
-            "v": v,
-            "attn_bias": inp.attn_bias,
-            "p": dropout_p,
-            "fn": ref_attention,
-        },
-        label=f"attention (attn_bias={attn_bias_type})",
-        description="eager",
-        sub_label=sub_label,
-        num_threads=num_threads,
-    )
-
-
-def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
-    B, M, H, K = shape
-    qkv, q, k, v = create_tensors(shape, dtype, requires_grad=True)
-
-    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
-
-    dtype_str = {
-        torch.bfloat16: "b16",
-        torch.half: "f16",
-        torch.float: "f32",
-    }[dtype]
-    sub_label = (
-        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
-        f"BiasT={attn_bias_type.__name__}, BiasGrad={attn_bias_requires_grad}"
-    )
-
-    has_run = False
-    for fw_op, bw_op in OPS:
-        bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=H,
-            num_heads_groups=1,
-            q_len=M,
-            kv_len=M,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt="BMHK",
-            op=bw_op,
-        )
-        inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
-
-        if not fw_op.supports(inp) or not bw_op.supports(inp):
-            continue
-        has_run = True
-        out = xformers.ops.memory_efficient_attention(
-            inp.query, inp.key, inp.value, inp.attn_bias, inp.p, op=(fw_op, bw_op)
-        )
-        grad_benchmark = torch.ones_like(q)
-
-        yield benchmark.Timer(
-            stmt="out.backward(grad, retain_graph=True)",
-            globals={
-                "out": out,
-                "grad": grad_benchmark,
-            },
-            label=f"attention backward (attn_bias={attn_bias_type})",
-            description=bw_op.NAME,
-            sub_label=sub_label,
-            num_threads=num_threads,
-        )
-        del out
-
-    if not has_run:
-        return
-    yield benchmark.Timer(
-        stmt="out.backward(grad, retain_graph=True)",
-        globals={
-            "out": ref_attention(q, k, v, inp.attn_bias, dropout_p),
-            "grad": grad_benchmark,
-        },
-        label=f"attention backward (attn_bias={attn_bias_type})",
-        description="vanilla",
-        sub_label=sub_label,
-        num_threads=num_threads,
-    )
-
-
-def main():
-    benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
-    benchmark_main_helper(mem_eff_attention_bw, CASES, min_run_time=min_run_time)
-
-
-if __name__ == "__main__":
-    main()
diff --git a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py b/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
deleted file mode 100644
index ee0c111ffb..0000000000
--- a/xformers/benchmarks/benchmark_mem_eff_attention_ck_tiled.py
+++ /dev/null
@@ -1,316 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-
-import itertools
-import random
-from functools import partial
-
-import torch
-from torch.utils import benchmark
-from xformers.benchmarks.utils import benchmark_main_helper
-
-import xformers.ops
-import xformers.ops.fmha as fmha
-
-torch.backends.cuda.matmul.allow_tf32 = False
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    bias_requires_grad: bool = False,
-):
-    NoneType = type(None)
-    if bias_type is NoneType:
-        return None
-    if bias_type is torch.Tensor:
-        attn_bias = torch.randn((1, 1, q_len, kv_len), device=device, dtype=dtype)
-        return attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return bias_type()
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
-def ref_attention_bmk(q, k, v, attn_bias=None, p=0.0):
-    if isinstance(attn_bias, xformers.ops.AttentionMask):
-        attn_bias = (
-            attn_bias.materialize((q.shape[0], 1, q.shape[1], k.shape[1]))
-            .to(q)
-            .squeeze()
-        )
-    q = q * (1.0 / q.shape[-1] ** 0.5)
-    if attn_bias is None:
-        attn = q @ k.transpose(-2, -1)
-    else:
-        # equivalent to (q @ k.transpose(-2, -1) + m).softmax(-1) @ v
-        # but faster, and is what is used in PyTorch now
-        attn = torch.baddbmm(attn_bias, q, k.transpose(-2, -1))
-    attn = attn.softmax(-1)
-    if p > 0:
-        attn = torch.nn.functional.dropout(attn, p=p)
-    return attn @ v
-
-
-def ref_attention(q, k, v, attn_bias, p=0.0):
-    assert q.ndim == 4
-    B, M, H, K = q.shape
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, torch.Tensor):
-        attn_bias = attn_bias.reshape(B * H, M, M)
-    out = ref_attention_bmk(T(q), T(k), T(v), attn_bias, p)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-min_run_time = 0.5
-device = torch.device("cuda")
-
-NUM_THREADS = [1] if device.type == "cuda" else [1, 40]
-SHAPES = [
-    # ViT
-    ##(384, 197, 1, 88),
-    ##(384, 197, 1, 80),
-    (384, 197, 1, 64),
-    ##(1024, 197, 1, 88),
-    ##(1024, 197, 1, 80),
-    (1024, 197, 1, 64),
-    # ViT-Huge
-    ##(32 * 16, 197, 1, 80),
-    ##(32, 197, 16, 80),
-    (32, 197, 16, 64),
-    (32, 197, 16, 128),
-    # ViT-Giant
-    ##(16 * 16, 197, 1, 88),
-    ##(16, 197, 16, 88),
-    (16, 197, 16, 64),
-    (16, 197, 16, 128),
-    # FB models
-    (1024, 82, 8, 64),
-    (150, 256, 16, 64),
-    (64, 256, 12, 64),
-    # Stable diffusion (https://github.com/huggingface/diffusers/pull/532)
-    ##(1, 4096, 16, 40),  # 512x512
-    ##(1, 16384, 16, 40),  # 1024x1024
-    ##(1, 4096, 16, 80),
-    #(1, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
-    # + bs4
-    ##(4, 4096, 16, 40),
-    #(4, 16384, 16, 40),  // disabled on MI250 due to big memory requirement
-    ##(4, 4096, 16, 80),
-    #(4, 16384, 16, 80),  // disabled on MI250 due to big memory requirement
-    # ParlAI model
-    #(256, 4096, 16, 64), // disabled on MI250 due to big memory requirement
-    # Zetta B M H K
-    (8, 2048, 20, 128),
-    # LLaMa 70b - mp=8/16
-    *sorted(itertools.product([1, 2], [2048, 4096, 8192], [4, 8], [128])),
-    *sorted(
-        ##itertools.product([16], [128, 512, 1024], [16], [16, 32, 64, 128, 160, 256])
-        ## disabled K/Kv bigger than 128
-        itertools.product([16], [128, 512, 1024], [16], [64, 128])
-    ),
-]
-
-OPS = [
-    (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
-    #(xformers.ops.fmha.flash.FwOp, xformers.ops.fmha.flash.BwOp),
-    # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
-    # and its performance varies a lot between runs.
-    # (xformers.ops.fmha.triton.FwOp, xformers.ops.fmha.triton.BwOp),
-]
-
-
-def product_dict(**kwargs):
-    keys = kwargs.keys()
-    vals = kwargs.values()
-    for instance in itertools.product(*vals):
-        yield dict(zip(keys, instance))
-
-
-CASES = list(
-    product_dict(
-        shape=SHAPES,
-        num_threads=NUM_THREADS,
-        dropout_p=[0.0],
-        attn_bias_cfg=[(type(None), False)],
-        dtype=[torch.half],
-    )
-)
-
-# Add more cases with some variations
-for c in CASES.copy():
-    c = c.copy()
-    c.update(
-        random.Random(str(c["shape"])).choice(
-            [
-                ##{"dropout_p": 0.3},
-                {"attn_bias_cfg": (torch.Tensor, False)},
-                ##{"attn_bias_cfg": (torch.Tensor, True)},
-                {"attn_bias_cfg": (xformers.ops.LowerTriangularMask, False)},
-                ##{"dtype": torch.bfloat16},
-                ##{"dtype": torch.float},
-            ]
-        )
-    )
-    CASES.append(c)
-
-
-def create_tensors(shape, dtype, requires_grad=False):
-    B, M, H, K = shape
-    qkv = torch.rand(
-        [B, M, 3, H, K], device=device, dtype=dtype, requires_grad=requires_grad
-    )
-    q, k, v = xformers.ops.unbind(qkv, 2)
-    return qkv, q, k, v
-
-def mem_eff_attention_fw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
-    B, M, H, K = shape
-    _, q, k, v = create_tensors(shape, dtype)
-    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
-    if attn_bias_requires_grad:
-        return
-    bias = create_attn_bias(
-        attn_bias_type,
-        batch_size=B,
-        num_heads=H,
-        q_len=M,
-        kv_len=M,
-        device=device,
-        dtype=dtype,
-        bias_requires_grad=attn_bias_requires_grad,
-    )
-    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
-
-    dtype_str = {
-        torch.bfloat16: "b16",
-        torch.half: "f16",
-        torch.float: "f32",
-    }[dtype]
-    sub_label = (
-        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
-        f"BiasT={attn_bias_type.__name__}"
-    )
-
-    has_run = False
-    for fw_op, bw_op in OPS:
-        if not fw_op.supports(inp):
-            continue
-
-        yield benchmark.Timer(
-            stmt="fn(q, k, v, attn_bias, p)",
-            globals={
-                "q": q,
-                "k": k,
-                "v": v,
-                "attn_bias": inp.attn_bias,
-                "p": dropout_p,
-                "fn": partial(
-                    xformers.ops.memory_efficient_attention, op=(fw_op, bw_op)
-                ),
-            },
-            label=f"attention (attn_bias={attn_bias_type})",
-            description=fw_op.NAME,
-            sub_label=sub_label,
-            num_threads=num_threads,
-        )
-        has_run = True
-
-    if not has_run:
-        return
-
-    yield benchmark.Timer(
-        stmt="fn(q, k, v, attn_bias, p)",
-        globals={
-            "q": q,
-            "k": k,
-            "v": v,
-            "attn_bias": inp.attn_bias,
-            "p": dropout_p,
-            "fn": ref_attention,
-        },
-        label=f"attention (attn_bias={attn_bias_type})",
-        description="eager",
-        sub_label=sub_label,
-        num_threads=num_threads,
-    )
-
-
-def mem_eff_attention_bw(shape, num_threads: int, attn_bias_cfg, dropout_p, dtype):
-    B, M, H, K = shape
-    _, q, k, v = create_tensors(shape, dtype, requires_grad=True)
-
-    attn_bias_type, attn_bias_requires_grad = attn_bias_cfg
-    bias = create_attn_bias(
-        attn_bias_type,
-        batch_size=B,
-        num_heads=H,
-        q_len=M,
-        kv_len=M,
-        device=device,
-        dtype=dtype,
-        bias_requires_grad=attn_bias_requires_grad,
-    )
-    inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
-
-    dtype_str = {
-        torch.bfloat16: "b16",
-        torch.half: "f16",
-        torch.float: "f32",
-    }[dtype]
-    sub_label = (
-        f"{dtype_str} {B}-{M}-{H}-{K}, p={dropout_p}, "
-        f"BiasT={attn_bias_type.__name__}, BiasGrad={attn_bias_requires_grad}"
-    )
-
-    has_run = False
-    for fw_op, bw_op in OPS:
-        if not fw_op.supports(inp) or not bw_op.supports(inp):
-            continue
-        has_run = True
-        out = xformers.ops.memory_efficient_attention(
-            inp.query, inp.key, inp.value, inp.attn_bias, inp.p, op=(fw_op, bw_op)
-        )
-        grad_benchmark = torch.ones_like(q)
-
-        yield benchmark.Timer(
-            stmt="out.backward(grad, retain_graph=True)",
-            globals={
-                "out": out,
-                "grad": grad_benchmark,
-            },
-            label=f"attention backward (attn_bias={attn_bias_type})",
-            description=bw_op.NAME,
-            sub_label=sub_label,
-            num_threads=num_threads,
-        )
-        del out
-
-    if not has_run:
-        return
-    yield benchmark.Timer(
-        stmt="out.backward(grad, retain_graph=True)",
-        globals={
-            "out": ref_attention(q, k, v, inp.attn_bias, dropout_p),
-            "grad": grad_benchmark,
-        },
-        label=f"attention backward (attn_bias={attn_bias_type})",
-        description="vanilla",
-        sub_label=sub_label,
-        num_threads=num_threads,
-    )
-
-benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
-##benchmark_main_helper(mem_eff_attention_bw, CASES, min_run_time=min_run_time)

From d57a5dba2b772ab134805c083d9de7ea3e3a1d55 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 3 Feb 2024 20:24:32 +0000
Subject: [PATCH 415/837] Don't require is_cpu_tensor for
 seqstart_q/seqstart_k/seqlen_k in attention_forward_generic_ck_tiled

---
 .../attention_forward_generic_ck_tiled.cpp    | 68 ++++++++++++-------
 1 file changed, 42 insertions(+), 26 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 0c81dbfa9a..9db1cd2574 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -85,8 +85,6 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
         TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
         TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
         TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
         TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
         TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
         TORCH_CHECK(max_seqlen_q_.has_value());
@@ -281,40 +279,58 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
         // max_seqlen_q is used to create logsumexp tensor
         p.max_seqlen_q = *max_seqlen_q_;
 
-        at::Tensor dev_seqstart_q = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-        at::Tensor dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+        // interesting: the tensors have to be defined here, moving to more local scope will
+        // cause issue
+        at::Tensor dev_seqstart_q;
+        at::Tensor dev_seqstart_k;
         at::Tensor dev_seqlen_k;
 
-        p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
-        HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_q_dev_ptr,
-                                      seqstart_q->data_ptr(),
-                                      (p.num_batches + 1) * sizeof(int),
-                                      hipMemcpyHostToDevice,
-                                      stream));
+        if(seqstart_q->is_cpu())
+        {
+            dev_seqstart_q       = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+            p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
+            HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_q_dev_ptr,
+                                          seqstart_q->data_ptr(),
+                                          (p.num_batches + 1) * sizeof(int),
+                                          hipMemcpyHostToDevice,
+                                          stream));
+        }
+        else
+            p.seqstart_q_dev_ptr = seqstart_q->data_ptr();
 
-        p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
-        HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_k_dev_ptr,
-                                      seqstart_k->data_ptr(),
-                                      (p.num_batches + 1) * sizeof(int),
-                                      hipMemcpyHostToDevice,
-                                      stream));
+        if(seqstart_k->is_cpu())
+        {
+            dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+
+            p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
+            HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_k_dev_ptr,
+                                          seqstart_k->data_ptr(),
+                                          (p.num_batches + 1) * sizeof(int),
+                                          hipMemcpyHostToDevice,
+                                          stream));
+        }
+        else
+            p.seqstart_k_dev_ptr = seqstart_k->data_ptr();
 
         if(seqlen_k.has_value())
         {
             TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
             TORCH_CHECK(seqlen_k->dim() == 1);
             TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-            CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
-
-            dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
 
-            p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
-
-            HIP_CALL_CHECK(hipMemcpyAsync(p.seqlen_k_dev_ptr,
-                                          seqlen_k->data_ptr(),
-                                          p.num_batches * sizeof(int),
-                                          hipMemcpyHostToDevice,
-                                          stream));
+            if(seqlen_k->is_cpu())
+            {
+                dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
+
+                p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
+                HIP_CALL_CHECK(hipMemcpyAsync(p.seqlen_k_dev_ptr,
+                                              seqlen_k->data_ptr(),
+                                              p.num_batches * sizeof(int),
+                                              hipMemcpyHostToDevice,
+                                              stream));
+            }
+            else
+                p.seqlen_k_dev_ptr = seqlen_k->data_ptr();
         }
         else
             p.seqlen_k_dev_ptr = nullptr;

From b25c2391804fcc22af8f23d85239c6e0b2cd196c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 3 Feb 2024 21:07:39 +0000
Subject: [PATCH 416/837] Remove seqlen_cpu from  _PaddedSeqLenInfo in
 attn_bias.py

---
 xformers/ops/fmha/attn_bias.py |  2 --
 xformers/ops/fmha/ck.py        | 15 ++++++++-------
 2 files changed, 8 insertions(+), 9 deletions(-)

diff --git a/xformers/ops/fmha/attn_bias.py b/xformers/ops/fmha/attn_bias.py
index 2fa591c301..5a453ebb5f 100644
--- a/xformers/ops/fmha/attn_bias.py
+++ b/xformers/ops/fmha/attn_bias.py
@@ -408,7 +408,6 @@ class _PaddedSeqLenInfo(_SeqLenInfo):
     """
 
     seqlen: torch.Tensor
-    seqlen_cpu: torch.Tensor
     seqlen_py: Sequence[int]
     padding: int
     # From parent: seqstart[i] contains the start position
@@ -446,7 +445,6 @@ def from_seqlens_padded(
         seqlen = torch.tensor(seqlens, dtype=torch.int32)
         return cls(
             seqlen=seqlen,
-            seqlen_cpu=seqlen.to(device=torch.device("cpu")) if torch.cuda.is_available() and torch.version.hip else None,
             seqlen_py=seqlens,
             max_seqlen=max(seqlens),
             min_seqlen=min(seqlens),
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index fa9ee1f746..2b031f143d 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -146,11 +146,10 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
 
 # checking the availability of ck-tiled is necessary since ck-tiled does not
 # have the same functionalities as old-CK
-def is_using_ck_tiled() -> bool:
+def is_ck_tiled() -> bool:
     ### ck_check_op is temporarily used to check ck-tiled availability
     ck_check_op = get_xformers_operator("is_ck_tiled_used")
-    use_ck_tiled = ck_check_op()
-    return use_ck_tiled
+    return ck_check_op()
 
 @register_operator
 class FwOp(AttentionFwOpBase):
@@ -162,7 +161,7 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
     SUPPORTED_MAX_K = 256 
 
-    if is_using_ck_tiled(): 
+    if is_ck_tiled(): 
         SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
             type(None),
             torch.Tensor,
@@ -189,7 +188,7 @@ class FwOp(AttentionFwOpBase):
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
          }
 
-    SUPPORTS_DROPOUT = False if is_using_ck_tiled() else True
+    SUPPORTS_DROPOUT = False if is_ck_tiled() else True
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
     SUPPORTS_BMGHK = True
@@ -283,6 +282,8 @@ def apply_bmhk(
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
         seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
+        if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
+            seqlen_k=inp.attn_bias.k_seqinfo.seqlen if is_ck_tiled() else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
         out, lse, rng_seed, rng_offset = cls.OPERATOR(
             query=inp.query,
             key=inp.key,
@@ -295,7 +296,7 @@ def apply_bmhk(
             compute_logsumexp=needs_gradient,
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
-            seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
+            seqlen_k=seqlen_k
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
             window_size=inp.attn_bias._window_size
@@ -427,7 +428,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                     f"/ expected: {expected_bias_shape})"
                 )
         _check_large_shapes(reasons, d)
-        if is_using_ck_tiled():
+        if is_ck_tiled():
             reasons.append("Backward is currently not completely supported by ck-tiled!")
         return reasons
 

From 1a3ce52424fb7d93c1cbbe92a9ae4f3bbf98288e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 4 Feb 2024 15:24:11 +0000
Subject: [PATCH 417/837] Change the branch for composable_kernel_tiled
 submodule and update to latest

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 41a2922cb7..cbef796c73 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -11,4 +11,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = ck_tile/fmha_attemp_async_copy_unify
+	branch = ck_tile/dev
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index eb53e235c7..3bda955fe6 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit eb53e235c76e3da0374214221e94c45419b90bec
+Subproject commit 3bda955fe6ca92cdd29691783ebb772ac13c857c

From f7bf9b4d0ef203234724247d4bc1bda1a03ff0c6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 4 Feb 2024 17:07:59 +0000
Subject: [PATCH 418/837] Remove the using of seqlen_cpu in BwOp of ck.py

---
 xformers/ops/fmha/ck.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 2b031f143d..ff899dc534 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -440,6 +440,9 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
+        if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
+            seqlen_k=inp.attn_bias.k_seqinfo.seqlen if is_ck_tiled() else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
+
         rng_seed = rng_offset = 0
         if inp.p != 0.0:
             if (
@@ -460,7 +463,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
             max_seqlen_q=max_seqlen_q,
-            seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
+            seqlen_k=seqlen_k
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
             logsumexp=ctx.lse,

From 15d2a720df2ab6414460a7255e49cff76e3a06b1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 4 Feb 2024 17:07:59 +0000
Subject: [PATCH 419/837] Remove the using of seqlen_cpu in BwOp of ck.py

---
 xformers/ops/fmha/ck.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 2b031f143d..ff899dc534 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -440,6 +440,9 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
+        if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
+            seqlen_k=inp.attn_bias.k_seqinfo.seqlen if is_ck_tiled() else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
+
         rng_seed = rng_offset = 0
         if inp.p != 0.0:
             if (
@@ -460,7 +463,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
             max_seqlen_q=max_seqlen_q,
-            seqlen_k=inp.attn_bias.k_seqinfo.seqlen_cpu
+            seqlen_k=seqlen_k
             if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             else None,
             logsumexp=ctx.lse,

From bcd193656ddc35932a948ccaaab33423c0d2239e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 4 Feb 2024 17:30:41 +0000
Subject: [PATCH 420/837] Align .clang_format with main branch and re-format
 c++ files

---
 .clang-format                                 |   80 +-
 xformers/csrc/attention/attention.cpp         |   59 +-
 .../hip_fmha/attention_backward_generic.cpp   |  970 ++++----
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  173 +-
 .../hip_fmha/attention_forward_decoder.cpp    |  464 ++--
 .../hip_fmha/attention_forward_generic.cpp    |  725 +++---
 .../attention_forward_generic_ck_tiled.cpp    |  744 +++---
 .../hip_fmha/attention_forward_splitk.cpp     | 1998 +++++++++--------
 .../csrc/attention/hip_fmha/ck_align_switch.h |  292 ++-
 .../hip_fmha/ck_attention_forward_decoder.h   |  886 ++++----
 .../ck_attention_forward_decoder_splitk.h     | 1238 +++++-----
 .../csrc/attention/hip_fmha/ck_bool_switch.h  |   44 +-
 .../ck_fmha_backward_gemm_constants.h         |  344 ++-
 .../hip_fmha/ck_fmha_batched_backward.h       |  657 +++---
 .../ck_fmha_batched_backward_bp16.cpp         |  137 +-
 .../ck_fmha_batched_backward_fp16.cpp         |  134 +-
 .../hip_fmha/ck_fmha_batched_forward.h        |  515 ++---
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp |   89 +-
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp |   89 +-
 .../hip_fmha/ck_fmha_batched_infer.h          |  483 ++--
 .../hip_fmha/ck_fmha_batched_infer_bp16.cpp   |   89 +-
 .../hip_fmha/ck_fmha_batched_infer_fp16.cpp   |   89 +-
 .../hip_fmha/ck_fmha_common_gemm_constants.h  |   27 +-
 .../hip_fmha/ck_fmha_grouped_backward.h       |  673 +++---
 .../ck_fmha_grouped_backward_bp16.cpp         |  143 +-
 .../ck_fmha_grouped_backward_fp16.cpp         |  140 +-
 .../hip_fmha/ck_fmha_grouped_forward.h        |  528 +++--
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp |   89 +-
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp |   89 +-
 .../hip_fmha/ck_fmha_grouped_infer.h          |  503 ++---
 .../hip_fmha/ck_fmha_grouped_infer_bp16.cpp   |   89 +-
 .../hip_fmha/ck_fmha_grouped_infer_fp16.cpp   |   89 +-
 .../attention/hip_fmha/ck_fmha_op_helper.h    |   39 +-
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  376 ++--
 .../csrc/attention/hip_fmha/ck_fmha_test.cpp  |   30 +-
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  218 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  375 ++--
 .../ck_tiled_fmha_batched_forward_bp16.cpp    |   35 +-
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |   35 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  375 ++--
 .../ck_tiled_fmha_batched_infer_bp16.cpp      |   35 +-
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |   35 +-
 .../hip_fmha/ck_tiled_fmha_definitions.h      |  139 +-
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 1238 +++++-----
 .../hip_fmha/ck_tiled_fmha_fwd_epilogue.h     |   40 +-
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |   87 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  306 +--
 .../ck_tiled_fmha_grouped_forward_bp16.cpp    |   35 +-
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |   35 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  306 +--
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      |   35 +-
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |   35 +-
 .../attention/hip_fmha/ck_tiled_fmha_params.h |  366 ++-
 .../hip_fmha/ck_tiled_headdim_switch.h        |   43 +-
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._bp16_masktype_0_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_bp16_masktype_0_with_attnbias.cpp |    7 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._bp16_masktype_1_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_bp16_masktype_1_with_attnbias.cpp |    7 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._bp16_masktype_2_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_bp16_masktype_2_with_attnbias.cpp |    7 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._fp16_masktype_0_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_fp16_masktype_0_with_attnbias.cpp |    7 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._fp16_masktype_1_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_fp16_masktype_1_with_attnbias.cpp |    7 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._fp16_masktype_2_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_fp16_masktype_2_with_attnbias.cpp |    7 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |    7 +-
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._forward_bp16_masktype_0_with_attnbias.cpp |    7 +-
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._forward_bp16_masktype_1_with_attnbias.cpp |    7 +-
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._forward_bp16_masktype_2_with_attnbias.cpp |    7 +-
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._forward_fp16_masktype_0_with_attnbias.cpp |    7 +-
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._forward_fp16_masktype_1_with_attnbias.cpp |    7 +-
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._forward_fp16_masktype_2_with_attnbias.cpp |    7 +-
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |    7 +-
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |    7 +-
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |    7 +-
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |    7 +-
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |    7 +-
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |    7 +-
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |    7 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |    7 +-
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |    7 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |    7 +-
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |    7 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |    7 +-
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._bp16_masktype_0_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_bp16_masktype_0_with_attnbias.cpp |    7 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._bp16_masktype_1_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_bp16_masktype_1_with_attnbias.cpp |    7 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._bp16_masktype_2_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_bp16_masktype_2_with_attnbias.cpp |    7 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._fp16_masktype_0_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_fp16_masktype_0_with_attnbias.cpp |    7 +-
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._fp16_masktype_1_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_fp16_masktype_1_with_attnbias.cpp |    7 +-
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |    7 +-
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._fp16_masktype_2_no_attnbias_fp32_grad.cpp |    7 +-
 ...backward_fp16_masktype_2_with_attnbias.cpp |    7 +-
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |    7 +-
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._forward_bp16_masktype_0_with_attnbias.cpp |    7 +-
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._forward_bp16_masktype_1_with_attnbias.cpp |    7 +-
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._forward_bp16_masktype_2_with_attnbias.cpp |    7 +-
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |    7 +-
 ..._forward_fp16_masktype_0_with_attnbias.cpp |    7 +-
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |    7 +-
 ..._forward_fp16_masktype_1_with_attnbias.cpp |    7 +-
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |    7 +-
 ..._forward_fp16_masktype_2_with_attnbias.cpp |    7 +-
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |    7 +-
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |    7 +-
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |    7 +-
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |    7 +-
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |    7 +-
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |    7 +-
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |    7 +-
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |    7 +-
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |    7 +-
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |    7 +-
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |    7 +-
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ..._no_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...6_no_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...o_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...no_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_128.cpp |    7 +-
 ...ith_causalmask_no_attnbias_headdim_256.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_32.cpp |    7 +-
 ...with_causalmask_no_attnbias_headdim_64.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_128.cpp |    7 +-
 ...h_causalmask_with_attnbias_headdim_256.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_32.cpp |    7 +-
 ...th_causalmask_with_attnbias_headdim_64.cpp |    7 +-
 278 files changed, 9661 insertions(+), 8794 deletions(-)

diff --git a/.clang-format b/.clang-format
index 22f2674966..6d0ab740db 100644
--- a/.clang-format
+++ b/.clang-format
@@ -1,81 +1,80 @@
 ---
-Language:        Cpp
-AccessModifierOffset: 0
-AlignAfterOpenBracket: Align
-AlignConsecutiveAssignments: true
+AccessModifierOffset: -1
+AlignAfterOpenBracket: AlwaysBreak
+AlignConsecutiveAssignments: false
 AlignConsecutiveDeclarations: false
 AlignEscapedNewlinesLeft: true
-AlignOperands:   true
-AlignTrailingComments: true
-AllowAllParametersOfDeclarationOnNextLine: true
-AllowShortBlocksOnASingleLine: true
-AllowShortCaseLabelsOnASingleLine: true
-AllowShortFunctionsOnASingleLine: All
+AlignOperands:   false
+AlignTrailingComments: false
+AllowAllParametersOfDeclarationOnNextLine: false
+AllowShortBlocksOnASingleLine: false
+AllowShortCaseLabelsOnASingleLine: false
+AllowShortFunctionsOnASingleLine: Empty
 AllowShortIfStatementsOnASingleLine: false
 AllowShortLoopsOnASingleLine: false
-AlwaysBreakAfterDefinitionReturnType: None
 AlwaysBreakAfterReturnType: None
-AlwaysBreakBeforeMultilineStrings: false
+AlwaysBreakBeforeMultilineStrings: true
 AlwaysBreakTemplateDeclarations: true
 BinPackArguments: false
 BinPackParameters: false
-BraceWrapping:   
-  AfterClass:      true
-  AfterControlStatement: true
-  AfterEnum:       true
-  AfterFunction:   true
+BraceWrapping:
+  AfterClass:      false
+  AfterControlStatement: false
+  AfterEnum:       false
+  AfterFunction:   false
   AfterNamespace:  false
-  AfterObjCDeclaration: true
-  AfterStruct:     true
-  AfterUnion:      true
-  BeforeCatch:     true
-  BeforeElse:      true
+  AfterObjCDeclaration: false
+  AfterStruct:     false
+  AfterUnion:      false
+  BeforeCatch:     false
+  BeforeElse:      false
   IndentBraces:    false
 BreakBeforeBinaryOperators: None
-BreakBeforeBraces: Custom
+BreakBeforeBraces: Attach
 BreakBeforeTernaryOperators: true
 BreakConstructorInitializersBeforeComma: false
-ColumnLimit:     100
+BreakAfterJavaFieldAnnotations: false
+BreakStringLiterals: false
+ColumnLimit:     80
 CommentPragmas:  '^ IWYU pragma:'
+#CompactNamespaces: false
 ConstructorInitializerAllOnOneLineOrOnePerLine: true
 ConstructorInitializerIndentWidth: 4
 ContinuationIndentWidth: 4
 Cpp11BracedListStyle: true
 DerivePointerAlignment: false
 DisableFormat:   false
-ExperimentalAutoDetectBinPacking: false
-ForEachMacros:   [ foreach, Q_FOREACH, BOOST_FOREACH ]
-IncludeCategories: 
-  - Regex:           '^"(llvm|llvm-c|clang|clang-c)/'
+ForEachMacros:   [ FOR_EACH_RANGE, FOR_EACH, ]
+IncludeCategories:
+  - Regex:           '^<.*\.h(pp)?>'
+    Priority:        1
+  - Regex:           '^<.*'
     Priority:        2
-  - Regex:           '^(<|"(gtest|isl|json)/)'
-    Priority:        3
   - Regex:           '.*'
-    Priority:        1
-IndentCaseLabels: false
-IndentWidth:     4
+    Priority:        3
+IndentCaseLabels: true
+IndentWidth:     2
 IndentWrappedFunctionNames: false
-KeepEmptyLinesAtTheStartOfBlocks: true
+KeepEmptyLinesAtTheStartOfBlocks: false
 MacroBlockBegin: ''
 MacroBlockEnd:   ''
 MaxEmptyLinesToKeep: 1
 NamespaceIndentation: None
 ObjCBlockIndentWidth: 2
 ObjCSpaceAfterProperty: false
-ObjCSpaceBeforeProtocolList: true
-PenaltyBreakBeforeFirstCallParameter: 19
+ObjCSpaceBeforeProtocolList: false
+PenaltyBreakBeforeFirstCallParameter: 1
 PenaltyBreakComment: 300
 PenaltyBreakFirstLessLess: 120
 PenaltyBreakString: 1000
 PenaltyExcessCharacter: 1000000
-PenaltyReturnTypeOnItsOwnLine: 60
+PenaltyReturnTypeOnItsOwnLine: 2000000
 PointerAlignment: Left
 ReflowComments:  true
-SortIncludes:    false
+SortIncludes:    true
 SpaceAfterCStyleCast: false
-# SpaceAfterTemplateKeyword: true
 SpaceBeforeAssignmentOperators: true
-SpaceBeforeParens: Never
+SpaceBeforeParens: ControlStatements
 SpaceInEmptyParentheses: false
 SpacesBeforeTrailingComments: 1
 SpacesInAngles:  false
@@ -87,4 +86,3 @@ Standard:        Cpp11
 TabWidth:        8
 UseTab:          Never
 ...
-
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index e798bc61db..36a9675e72 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -7,42 +7,43 @@
  */
 #include <torch/types.h>
 
-TORCH_LIBRARY_FRAGMENT(xformers, m)
-{
+TORCH_LIBRARY_FRAGMENT(xformers, m) {
 #if !defined(USE_ROCM)
-    m.def(TORCH_SELECTIVE_SCHEMA(
-        "xformers::efficient_attention_forward_small_k(Tensor query, Tensor key, Tensor value, "
-        "bool compute_logsumexp, Tensor? attn_bias, float p) -> (Tensor, Tensor, int, int)"));
-    m.def(TORCH_SELECTIVE_SCHEMA(
-        "xformers::efficient_attention_forward_cutlass(Tensor query, Tensor key, Tensor value, "
-        "Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float "
-        "dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, "
-        "int? window_size) -> (Tensor, Tensor, int, int)"));
-    m.def(
-        TORCH_SELECTIVE_SCHEMA("xformers::efficient_attention_forward_decoder(Tensor query, Tensor "
-                               "key, Tensor value, Tensor seq_positions, float scale) -> Tensor"));
-    m.def(TORCH_SELECTIVE_SCHEMA(
-        "xformers::efficient_attention_backward_small_k(Tensor grad_out, Tensor query, Tensor key, "
-        "Tensor value, Tensor logsumexp, Tensor output, Tensor? attn_bias, float p, int rng_seed, "
-        "int rng_offset) -> (Tensor, Tensor, Tensor)"));
-    m.def(TORCH_SELECTIVE_SCHEMA(
-        "xformers::efficient_attention_backward_cutlass(Tensor grad_out, Tensor query, Tensor key, "
-        "Tensor value, Tensor? bias, Tensor? cu_seqlens_q, Tensor? cu_seqlens_k, int max_seqlen_q, "
-        "int max_seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int "
-        "rng_offset, int custom_mask_type, float? scale, int num_splits_key, int? window_size) -> "
-        "(Tensor, Tensor, Tensor, Tensor)"));
-    m.def(TORCH_SELECTIVE_SCHEMA("xformers::_temp_dropout(Tensor out, float p) -> Tensor"));
-    m.def(TORCH_SELECTIVE_SCHEMA("xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_small_k(Tensor query, Tensor key, Tensor value, "
+      "bool compute_logsumexp, Tensor? attn_bias, float p) -> (Tensor, Tensor, int, int)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_cutlass(Tensor query, Tensor key, Tensor value, "
+      "Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, float "
+      "dropout_p, bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, "
+      "int? window_size) -> (Tensor, Tensor, int, int)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_forward_decoder(Tensor query, Tensor "
+      "key, Tensor value, Tensor seq_positions, float scale) -> Tensor"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_backward_small_k(Tensor grad_out, Tensor query, Tensor key, "
+      "Tensor value, Tensor logsumexp, Tensor output, Tensor? attn_bias, float p, int rng_seed, "
+      "int rng_offset) -> (Tensor, Tensor, Tensor)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::efficient_attention_backward_cutlass(Tensor grad_out, Tensor query, Tensor key, "
+      "Tensor value, Tensor? bias, Tensor? cu_seqlens_q, Tensor? cu_seqlens_k, int max_seqlen_q, "
+      "int max_seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int "
+      "rng_offset, int custom_mask_type, float? scale, int num_splits_key, int? window_size) -> "
+      "(Tensor, Tensor, Tensor, Tensor)"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::_temp_dropout(Tensor out, float p) -> Tensor"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::_cutlass_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif
 #if defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
-          "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
-          "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
+      "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
+      "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
+      "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
-          "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
+      "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, "
       " Tensor value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
index 282b9aabd6..4a4a06d710 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
@@ -17,14 +17,23 @@
 #include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
-extern void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream);
-extern void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream);
-extern void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream);
-extern void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream);
+extern void batched_backward_fp16(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+extern void batched_backward_bp16(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+extern void grouped_backward_fp16(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
+extern void grouped_backward_bp16(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
 
 namespace {
 
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> efficient_attention_backward_ck(
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
+efficient_attention_backward_ck(
     const at::Tensor& grad_out,
     const at::Tensor& query,
     const at::Tensor& key,
@@ -41,527 +50,524 @@ std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> efficient_attention_b
     const c10::optional<at::Tensor>& seqlen_k,
     const at::Tensor& logsumexp,
     const at::Tensor& out,
-    double dropout_p,   // dropout probability
-    int64_t rng_seed,   // seed using for generating random numbers for dropout
+    double dropout_p, // dropout probability
+    int64_t rng_seed, // seed using for generating random numbers for dropout
     int64_t rng_offset, // offset into random number sequence
     int64_t custom_mask_type,
-    const c10::optional<double> scale)
-{
+    const c10::optional<double> scale) {
 #ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD
-    TORCH_CHECK(false,
-                "MemoryEfficient build has been disabled at build time with "
-                "-DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
+  TORCH_CHECK(
+      false,
+      "MemoryEfficient build has been disabled at build time with "
+      "-DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
 #else
-    at::globalContext().alertNotDeterministic("mem_efficient_attention_backward_cutlass");
-
-    // ndim
-    TORCH_CHECK(query.dim() == grad_out.dim());
-    TORCH_CHECK(query.dim() == key.dim());
-    TORCH_CHECK(query.dim() == value.dim());
-    TORCH_CHECK(query.dim() == 4);
-
-    // batch size
-    TORCH_CHECK(query.size(0) == grad_out.size(0));
-    TORCH_CHECK(query.size(0) == key.size(0));
-    TORCH_CHECK(query.size(0) == value.size(0));
-
-    // seqlen
-    TORCH_CHECK(key.size(1) == value.size(1));
-    TORCH_CHECK(query.size(1) == grad_out.size(1));
-
-    // Num heads
-    TORCH_CHECK(query.size(2) % key.size(2) == 0);
-    TORCH_CHECK(key.size(2) == value.size(2));
-    TORCH_CHECK(query.size(2) == grad_out.size(2));
-
-    // Embedding per head
-    TORCH_CHECK(query.size(3) == key.size(3));
-    TORCH_CHECK(value.size(3) == grad_out.size(3));
-
-    // CK-FlashAttn requires out, grad_out to have same shapes
-    TORCH_CHECK(out.sizes() == grad_out.sizes());
-    TORCH_CHECK(out.strides() == grad_out.strides());
-
-    // last dim is contiguous, device is CUDA
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-    // logsumexp should be completely contiguous
-    CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
-
-    TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-    TORCH_CHECK(!(seqstart_q.has_value() && bias.has_value()), "seqstart_q + bias not supported");
-
-    if(seqstart_q.has_value())
-    {
-        TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-        TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-        TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-        TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-        TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
-        TORCH_CHECK(max_seqlen_q_.has_value());
-    }
-
-    bool use_fp32_qkv_grad = false;
-
-    if(const char* env_str = std::getenv("USE_FP32_QKV_GRAD"))
-    {
-        use_fp32_qkv_grad = (std::stoi(env_str) > 0) ? true : false;
-    };
+  at::globalContext().alertNotDeterministic(
+      "mem_efficient_attention_backward_cutlass");
+
+  // ndim
+  TORCH_CHECK(query.dim() == grad_out.dim());
+  TORCH_CHECK(query.dim() == key.dim());
+  TORCH_CHECK(query.dim() == value.dim());
+  TORCH_CHECK(query.dim() == 4);
+
+  // batch size
+  TORCH_CHECK(query.size(0) == grad_out.size(0));
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // seqlen
+  TORCH_CHECK(key.size(1) == value.size(1));
+  TORCH_CHECK(query.size(1) == grad_out.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
+  TORCH_CHECK(query.size(2) == grad_out.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+  TORCH_CHECK(value.size(3) == grad_out.size(3));
+
+  // CK-FlashAttn requires out, grad_out to have same shapes
+  TORCH_CHECK(out.sizes() == grad_out.sizes());
+  TORCH_CHECK(out.strides() == grad_out.strides());
+
+  // last dim is contiguous, device is CUDA
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  // logsumexp should be completely contiguous
+  CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  TORCH_CHECK(
+      !(seqstart_q.has_value() && bias.has_value()),
+      "seqstart_q + bias not supported");
+
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
+  }
+
+  bool use_fp32_qkv_grad = false;
+
+  if (const char* env_str = std::getenv("USE_FP32_QKV_GRAD")) {
+    use_fp32_qkv_grad = (std::stoi(env_str) > 0) ? true : false;
+  };
+
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t Hq = query.size(2);
+  int64_t Hkv = key.size(2);
+  int64_t K = query.size(3);
+  int64_t Kv = value.size(3);
+
+  auto opts = query.options();
+
+  at::Tensor grad_q, grad_k, grad_v, grad_bias;
+
+  if (query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
+      query.size(2) == key.size(2) &&
+      query.storage().is_alias_of(key.storage()) &&
+      query.storage().is_alias_of(value.storage())) {
+    // Create one big contiguous chunk for grad_q, grad_k, grad_v
+    // This is because q, k and v usually come from a single
+    // output of a linear layer that is chunked.
+    // Creating the gradients with the right layout saves us
+    // a `torch.cat` call in the backward pass
+    at::Tensor chunk;
+    if (use_fp32_qkv_grad)
+      chunk = at::empty({B, M, 3, Hq, K}, opts.dtype(at::kFloat));
+    else
+      chunk = at::empty({B, M, 3, Hq, K}, opts);
+    grad_q = chunk.select(2, 0);
+    grad_k = chunk.select(2, 1);
+    grad_v = chunk.select(2, 2);
+    grad_q.fill_(0);
+  } else if (
+      key.size(3) == value.size(3) &&
+      key.storage().is_alias_of(value.storage())) {
+    // Create one big contiguous chunk for grad_k, grad_v
+    // This is because k and v usually come from a single
+    // output of a linear layer that is chunked.
+    // Creating the gradients with the right layout saves us
+    // a `torch.cat` call in the backward pass
+    at::Tensor chunk;
+    if (use_fp32_qkv_grad)
+      chunk = at::empty({B, N, 2, Hkv, Kv}, opts.dtype(at::kFloat));
+    else
+      chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
+    grad_k = chunk.select(2, 0);
+    grad_v = chunk.select(2, 1);
 
-    // at::cuda::CUDAGuard device_guard(query.device());
-    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-    int64_t B   = query.size(0);
-    int64_t M   = query.size(1);
-    int64_t N   = key.size(1);
-    int64_t Hq  = query.size(2);
-    int64_t Hkv = key.size(2);
-    int64_t K   = query.size(3);
-    int64_t Kv  = value.size(3);
-
-    auto opts = query.options();
-
-    at::Tensor grad_q, grad_k, grad_v, grad_bias;
-
-    if(query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
-       query.size(2) == key.size(2) && query.storage().is_alias_of(key.storage()) &&
-       query.storage().is_alias_of(value.storage()))
-    {
-        // Create one big contiguous chunk for grad_q, grad_k, grad_v
-        // This is because q, k and v usually come from a single
-        // output of a linear layer that is chunked.
-        // Creating the gradients with the right layout saves us
-        // a `torch.cat` call in the backward pass
-        at::Tensor chunk;
-        if(use_fp32_qkv_grad)
-            chunk = at::empty({B, M, 3, Hq, K}, opts.dtype(at::kFloat));
-        else
-            chunk = at::empty({B, M, 3, Hq, K}, opts);
-        grad_q = chunk.select(2, 0);
-        grad_k = chunk.select(2, 1);
-        grad_v = chunk.select(2, 2);
-        grad_q.fill_(0);
+    if (use_fp32_qkv_grad)
+      grad_q = at::empty_strided(
+          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
+    else
+      grad_q =
+          at::empty_strided(query.sizes(), query.strides(), query.options());
+    grad_q.fill_(0);
+  } else {
+    if (use_fp32_qkv_grad) {
+      grad_q = at::empty_strided(
+          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
+      grad_k = at::empty_strided(
+          key.sizes(), key.strides(), key.options().dtype(at::kFloat));
+      grad_v = at::empty_strided(
+          value.sizes(), value.strides(), value.options().dtype(at::kFloat));
+    } else {
+      grad_q =
+          at::empty_strided(query.sizes(), query.strides(), query.options());
+      grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
+      grad_v =
+          at::empty_strided(value.sizes(), value.strides(), value.options());
     }
-    else if(key.size(3) == value.size(3) && key.storage().is_alias_of(value.storage()))
-    {
-        // Create one big contiguous chunk for grad_k, grad_v
-        // This is because k and v usually come from a single
-        // output of a linear layer that is chunked.
-        // Creating the gradients with the right layout saves us
-        // a `torch.cat` call in the backward pass
-        at::Tensor chunk;
-        if(use_fp32_qkv_grad)
-            chunk = at::empty({B, N, 2, Hkv, Kv}, opts.dtype(at::kFloat));
-        else
-            chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
-        grad_k = chunk.select(2, 0);
-        grad_v = chunk.select(2, 1);
-
-        if(use_fp32_qkv_grad)
-            grad_q = at::empty_strided(
-                query.sizes(), query.strides(), query.options().dtype(at::kFloat));
-        else
-            grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
-        grad_q.fill_(0);
+    grad_q.fill_(0);
+  }
+
+  // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
+  TORCH_CHECK(query.sizes() == grad_q.sizes());
+  TORCH_CHECK(query.strides() == grad_q.strides());
+  TORCH_CHECK(key.sizes() == grad_k.sizes());
+  TORCH_CHECK(key.strides() == grad_k.strides());
+  TORCH_CHECK(value.sizes() == grad_v.sizes());
+  TORCH_CHECK(value.strides() == grad_v.strides());
+
+  const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
+
+  // even it is an output, the grad_bias is required to use the same data-type
+  // as bias in CK-FlashAttn
+  if (bias_requires_grad)
+    grad_bias =
+        at::empty_strided(bias->sizes(), bias->strides(), bias->options());
+
+  bool is_mqa_gqa = (Hq > Hkv);
+
+  at::Tensor tmp_grad_k, tmp_grad_v;
+
+  if (is_mqa_gqa) {
+    // allocate tmp_grad_k/tmp_grad_v which will be reduce to
+    // grad_k/grad_v for returning
+    if (use_fp32_qkv_grad) {
+      tmp_grad_k = at::empty({B, N, Hq, K}, opts.dtype(at::kFloat));
+      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts.dtype(at::kFloat));
+    } else {
+      tmp_grad_k = at::empty({B, N, Hq, K}, opts);
+      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
     }
-    else
-    {
-        if(use_fp32_qkv_grad)
-        {
-            grad_q = at::empty_strided(
-                query.sizes(), query.strides(), query.options().dtype(at::kFloat));
-            grad_k = at::empty_strided(key.sizes(), key.strides(), key.options().dtype(at::kFloat));
-            grad_v = at::empty_strided(
-                value.sizes(), value.strides(), value.options().dtype(at::kFloat));
-        }
-        else
-        {
-            grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
-            grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
-            grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
-        }
-        grad_q.fill_(0);
+  }
+
+  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+    p.is_mqa_gqa = is_mqa_gqa;
+
+    TORCH_CHECK(p.B == logsumexp.size(0));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
+    TORCH_CHECK(p.M == logsumexp.size(2));
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
     }
 
-    // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
-    TORCH_CHECK(query.sizes() == grad_q.sizes());
-    TORCH_CHECK(query.strides() == grad_q.strides());
-    TORCH_CHECK(key.sizes() == grad_k.sizes());
-    TORCH_CHECK(key.strides() == grad_k.strides());
-    TORCH_CHECK(value.sizes() == grad_v.sizes());
-    TORCH_CHECK(value.strides() == grad_v.strides());
-
-    const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
-
-    // even it is an output, the grad_bias is required to use the same data-type
-    // as bias in CK-FlashAttn
-    if(bias_requires_grad)
-        grad_bias = at::empty_strided(bias->sizes(), bias->strides(), bias->options());
-
-    bool is_mqa_gqa = (Hq > Hkv);
-
-    at::Tensor tmp_grad_k, tmp_grad_v;
-
-    if(is_mqa_gqa)
-    {
-        // allocate tmp_grad_k/tmp_grad_v which will be reduce to
-        // grad_k/grad_v for returning
-        if(use_fp32_qkv_grad)
-        {
-            tmp_grad_k = at::empty({B, N, Hq, K}, opts.dtype(at::kFloat));
-            tmp_grad_v = at::empty({B, N, Hq, Kv}, opts.dtype(at::kFloat));
-        }
-        else
-        {
-            tmp_grad_k = at::empty({B, N, Hq, K}, opts);
-            tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
-        }
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.grad_out_ptr = grad_out.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.grad_q_ptr = grad_q.data_ptr();
+    p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
+    p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (is_mqa_gqa) {
+      p.tmp_grad_k_strides = {
+          static_cast<int>(tmp_grad_k.stride(0)),
+          static_cast<int>(tmp_grad_k.stride(1)),
+          static_cast<int>(tmp_grad_k.stride(2)),
+          static_cast<int>(tmp_grad_k.stride(3))};
+      p.tmp_grad_v_strides = {
+          static_cast<int>(tmp_grad_v.stride(0)),
+          static_cast<int>(tmp_grad_v.stride(1)),
+          static_cast<int>(tmp_grad_v.stride(2)),
+          static_cast<int>(tmp_grad_v.stride(3))};
     }
 
-    auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
-        p.B   = B;
-        p.M   = M;
-        p.N   = N;
-        p.Hq  = Hq;
-        p.Hkv = Hkv;
-        p.K   = K;
-        p.Kv  = Kv;
-
-        p.use_fp32_qkv_grad = use_fp32_qkv_grad;
-        p.is_mqa_gqa        = is_mqa_gqa;
-
-        TORCH_CHECK(p.B == logsumexp.size(0));
-        TORCH_CHECK(p.Hq == logsumexp.size(1));
-        TORCH_CHECK(p.M == logsumexp.size(2));
-
-        if(scale.has_value())
-        {
-            p.scale = float(*scale);
-        }
-        else
-        {
-            p.scale = float(1.0 / std::sqrt(float(K)));
-        }
-
-        p.q_ptr        = query.data_ptr();
-        p.k_ptr        = key.data_ptr();
-        p.v_ptr        = value.data_ptr();
-        p.grad_out_ptr = grad_out.data_ptr();
-        p.out_ptr      = out.data_ptr();
-
-        p.grad_q_ptr = grad_q.data_ptr();
-        p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
-        p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
-
-        p.q_strides   = {static_cast<int>(query.stride(0)),
-                       static_cast<int>(query.stride(1)),
-                       static_cast<int>(query.stride(2)),
-                       static_cast<int>(query.stride(3))};
-        p.k_strides   = {static_cast<int>(key.stride(0)),
-                       static_cast<int>(key.stride(1)),
-                       static_cast<int>(key.stride(2)),
-                       static_cast<int>(key.stride(3))};
-        p.v_strides   = {static_cast<int>(value.stride(0)),
-                       static_cast<int>(value.stride(1)),
-                       static_cast<int>(value.stride(2)),
-                       static_cast<int>(value.stride(3))};
-        p.out_strides = {static_cast<int>(out.stride(0)),
-                         static_cast<int>(out.stride(1)),
-                         static_cast<int>(out.stride(2)),
-                         static_cast<int>(out.stride(3))};
-
-        if(is_mqa_gqa)
-        {
-            p.tmp_grad_k_strides = {static_cast<int>(tmp_grad_k.stride(0)),
-                                    static_cast<int>(tmp_grad_k.stride(1)),
-                                    static_cast<int>(tmp_grad_k.stride(2)),
-                                    static_cast<int>(tmp_grad_k.stride(3))};
-            p.tmp_grad_v_strides = {static_cast<int>(tmp_grad_v.stride(0)),
-                                    static_cast<int>(tmp_grad_v.stride(1)),
-                                    static_cast<int>(tmp_grad_v.stride(2)),
-                                    static_cast<int>(tmp_grad_v.stride(3))};
-        }
-
-        if(bias.has_value())
-        {
-            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-            p.has_attn_bias = true;
-            p.attn_bias_ptr = bias->data_ptr();
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
-            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
 
-            p.attn_bias_strides = {static_cast<int>(bias_4d_view.stride(0)),
-                                   static_cast<int>(bias_4d_view.stride(1)),
-                                   static_cast<int>(bias_4d_view.stride(2)),
-                                   static_cast<int>(bias_4d_view.stride(3))};
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
 
-            if(bias_requires_grad)
-                p.grad_bias_ptr = grad_bias.data_ptr();
-        }
-        else
-        {
-            p.has_attn_bias = true;
-            p.attn_bias_ptr = nullptr;
-            p.grad_bias_ptr = nullptr;
-        }
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
 
-        p.bias_has_grad = bias_requires_grad;
+      if (bias_requires_grad)
+        p.grad_bias_ptr = grad_bias.data_ptr();
+    } else {
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = nullptr;
+      p.grad_bias_ptr = nullptr;
+    }
 
-        p.custom_mask_type = custom_mask_type;
+    p.bias_has_grad = bias_requires_grad;
 
-        p.dropout_prob  = static_cast<float>(dropout_p);
-        p.philox_seed   = rng_seed;
-        p.philox_offset = rng_offset;
+    p.custom_mask_type = custom_mask_type;
 
-        p.logsumexp_ptr = logsumexp.data_ptr();
-    };
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.philox_seed = rng_seed;
+    p.philox_offset = rng_offset;
 
-    auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
-        p.num_batches = seqstart_q->size(0) - 1;
-        p.M           = M;
-        p.N           = N;
-        p.Hq          = Hq;
-        p.Hkv         = Hkv;
-        p.K           = K;
-        p.Kv          = Kv;
+    p.logsumexp_ptr = logsumexp.data_ptr();
+  };
 
-        p.use_fp32_qkv_grad = use_fp32_qkv_grad;
-        p.is_mqa_gqa        = is_mqa_gqa;
+  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
 
-        p.max_seqlen_q = *max_seqlen_q_;
+    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
+    p.is_mqa_gqa = is_mqa_gqa;
 
-        TORCH_CHECK(p.num_batches == logsumexp.size(0));
-        TORCH_CHECK(p.Hq == logsumexp.size(1));
-        TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
+    p.max_seqlen_q = *max_seqlen_q_;
 
-        if(scale.has_value())
-        {
-            p.scale = float(*scale);
-        }
-        else
-        {
-            p.scale = float(1.0 / std::sqrt(float(K)));
-        }
+    TORCH_CHECK(p.num_batches == logsumexp.size(0));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
+    TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
 
-        p.q_strides   = {static_cast<int>(query.stride(1)),
-                       static_cast<int>(query.stride(2)),
-                       static_cast<int>(query.stride(3))};
-        p.k_strides   = {static_cast<int>(key.stride(1)),
-                       static_cast<int>(key.stride(2)),
-                       static_cast<int>(key.stride(3))};
-        p.v_strides   = {static_cast<int>(value.stride(1)),
-                       static_cast<int>(value.stride(2)),
-                       static_cast<int>(value.stride(3))};
-        p.out_strides = {static_cast<int>(out.stride(1)),
-                         static_cast<int>(out.stride(2)),
-                         static_cast<int>(out.stride(3))};
-
-        if(is_mqa_gqa)
-        {
-            p.tmp_grad_k_strides = {static_cast<int>(tmp_grad_k.stride(1)),
-                                    static_cast<int>(tmp_grad_k.stride(2)),
-                                    static_cast<int>(tmp_grad_k.stride(3))};
-            p.tmp_grad_v_strides = {static_cast<int>(tmp_grad_v.stride(1)),
-                                    static_cast<int>(tmp_grad_v.stride(2)),
-                                    static_cast<int>(tmp_grad_v.stride(3))};
-        };
-
-        if(bias.has_value())
-        {
-            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-            p.has_attn_bias               = true;
-            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
-                                   static_cast<int>(bias_4d_view.stride(1)),
-                                   static_cast<int>(bias_4d_view.stride(2)),
-                                   static_cast<int>(bias_4d_view.stride(3))};
-        }
-        else
-            p.has_attn_bias = false;
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
 
-        p.bias_has_grad = bias_requires_grad;
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (is_mqa_gqa) {
+      p.tmp_grad_k_strides = {
+          static_cast<int>(tmp_grad_k.stride(1)),
+          static_cast<int>(tmp_grad_k.stride(2)),
+          static_cast<int>(tmp_grad_k.stride(3))};
+      p.tmp_grad_v_strides = {
+          static_cast<int>(tmp_grad_v.stride(1)),
+          static_cast<int>(tmp_grad_v.stride(2)),
+          static_cast<int>(tmp_grad_v.stride(3))};
+    };
 
-        p.dropout_prob  = static_cast<float>(dropout_p);
-        p.philox_seed   = rng_seed;
-        p.philox_offset = rng_offset;
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
 
-        p.custom_mask_type = custom_mask_type;
+      p.has_attn_bias = true;
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
 
-        p.host_seqstart_q.resize(p.num_batches + 1);
-        p.host_seqstart_k.resize(p.num_batches + 1);
+    p.bias_has_grad = bias_requires_grad;
 
-        for(int i = 0; i < p.host_seqstart_q.size(); i++)
-            p.host_seqstart_q[i] = *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.philox_seed = rng_seed;
+    p.philox_offset = rng_offset;
 
-        for(int i = 0; i < p.host_seqstart_k.size(); i++)
-            p.host_seqstart_k[i] = *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
+    p.custom_mask_type = custom_mask_type;
 
-        if(seqlen_k.has_value())
-        {
-            TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-            TORCH_CHECK(seqlen_k->dim() == 1);
-            TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-            CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
 
-            p.host_seqlen_k.resize(p.num_batches);
+    for (int i = 0; i < p.host_seqstart_q.size(); i++)
+      p.host_seqstart_q[i] =
+          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
 
-            for(int i = 0; i < p.host_seqlen_k.size(); i++)
-                p.host_seqlen_k[i] = *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
-        }
+    for (int i = 0; i < p.host_seqstart_k.size(); i++)
+      p.host_seqstart_k[i] =
+          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
 
-        char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-        char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-        char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-        char* out_ptr      = reinterpret_cast<char*>(out.data_ptr());
-        char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
-        char* attn_bias_ptr =
-            bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-        char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-        char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
-        char* grad_k_ptr = is_mqa_gqa ? reinterpret_cast<char*>(tmp_grad_k.data_ptr())
-                                      : reinterpret_cast<char*>(grad_k.data_ptr());
-        char* grad_v_ptr = is_mqa_gqa ? reinterpret_cast<char*>(tmp_grad_v.data_ptr())
-                                      : reinterpret_cast<char*>(grad_v.data_ptr());
-        char* grad_bias_ptr =
-            bias_requires_grad ? reinterpret_cast<char*>(grad_bias.data_ptr()) : nullptr;
-
-        size_t multiplier = 1;
-
-        if(p.use_fp32_qkv_grad)
-            multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
-                         get_size_in_bytes(1, query.scalar_type());
-
-        std::cout << "qkv-grad precision multiplier is " << multiplier << std::endl;
-
-        for(int i = 0; i < p.num_batches; i++)
-        {
-            size_t tmp_q_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0], query.scalar_type());
-            size_t tmp_k_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0], key.scalar_type());
-            size_t tmp_v_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0], value.scalar_type());
-            size_t tmp_o_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0], out.scalar_type());
-            size_t tmp_logsumexp_offset = get_size_in_bytes(
-                static_cast<size_t>(i) * p.Hq * p.max_seqlen_q, logsumexp.scalar_type());
-
-            size_t tmp_grad_k_offset =
-                is_mqa_gqa ? get_size_in_bytes(static_cast<size_t>(p.host_seqstart_k[i]) *
-                                                   p.tmp_grad_k_strides[0],
-                                               tmp_grad_k.scalar_type())
-                           : tmp_k_offset;
-            size_t tmp_grad_v_offset =
-                is_mqa_gqa ? get_size_in_bytes(static_cast<size_t>(p.host_seqstart_k[i]) *
-                                                   p.tmp_grad_v_strides[0],
-                                               tmp_grad_v.scalar_type())
-                           : tmp_v_offset;
-
-            p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-            p.grad_q_ptrs.push_back(
-                reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
-
-            p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-            p.grad_k_ptrs.push_back(
-                reinterpret_cast<void*>(&grad_k_ptr[tmp_grad_k_offset * multiplier]));
-
-            p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-            p.grad_v_ptrs.push_back(
-                reinterpret_cast<void*>(&grad_v_ptr[tmp_grad_v_offset * multiplier]));
-
-            p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-            p.grad_out_ptrs.push_back(reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
-
-            p.logsumexp_ptrs.push_back(
-                reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-
-            if(bias.has_value())
-            {
-                size_t tmp_bias_offset = get_size_in_bytes(
-                    static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                        static_cast<size_t>(p.host_seqstart_k[i]) * p.attn_bias_strides[3],
-                    bias->scalar_type());
-
-                p.attn_bias_ptrs.push_back(
-                    reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-
-                if(bias_requires_grad)
-                {
-                    p.grad_bias_ptrs.push_back(
-                        reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
-                }
-            }
-
-            // ToDO: remove this after dev-op fix
-            p.randvals_ptrs.push_back(nullptr);
-        }
-    };
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
 
-    auto inDataType = query.scalar_type();
+      p.host_seqlen_k.resize(p.num_batches);
 
-    if(!seqstart_q.has_value())
-    { // input is batched
-        BatchedBackwardParams batched_backward_params;
-
-        set_batched_backward_params(batched_backward_params);
-
-        if(inDataType == at::ScalarType::Half)
-        {
-            batched_backward_fp16(batched_backward_params, stream);
-        }
-        else if(inDataType == at::ScalarType::BFloat16)
-        {
-            batched_backward_bp16(batched_backward_params, stream);
-        }
-        else
-            throw std::runtime_error("input data-type is not supported");
+      for (int i = 0; i < p.host_seqlen_k.size(); i++)
+        p.host_seqlen_k[i] =
+            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
     }
-    else
-    { // input is grouped
-        GroupedBackwardParams grouped_backward_params;
 
-        set_grouped_backward_params(grouped_backward_params);
-
-        if(inDataType == at::ScalarType::Half)
-        {
-            grouped_backward_fp16(grouped_backward_params, stream);
-        }
-        else if(inDataType == at::ScalarType::BFloat16)
-        {
-            grouped_backward_bp16(grouped_backward_params, stream);
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
+    char* attn_bias_ptr =
+        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
+
+    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+
+    char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
+    char* grad_k_ptr = is_mqa_gqa
+        ? reinterpret_cast<char*>(tmp_grad_k.data_ptr())
+        : reinterpret_cast<char*>(grad_k.data_ptr());
+    char* grad_v_ptr = is_mqa_gqa
+        ? reinterpret_cast<char*>(tmp_grad_v.data_ptr())
+        : reinterpret_cast<char*>(grad_v.data_ptr());
+    char* grad_bias_ptr = bias_requires_grad
+        ? reinterpret_cast<char*>(grad_bias.data_ptr())
+        : nullptr;
+
+    size_t multiplier = 1;
+
+    if (p.use_fp32_qkv_grad)
+      multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
+          get_size_in_bytes(1, query.scalar_type());
+
+    std::cout << "qkv-grad precision multiplier is " << multiplier << std::endl;
+
+    for (int i = 0; i < p.num_batches; i++) {
+      size_t tmp_q_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
+          query.scalar_type());
+      size_t tmp_k_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
+          key.scalar_type());
+      size_t tmp_v_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
+          value.scalar_type());
+      size_t tmp_o_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
+          out.scalar_type());
+      size_t tmp_logsumexp_offset = get_size_in_bytes(
+          static_cast<size_t>(i) * p.Hq * p.max_seqlen_q,
+          logsumexp.scalar_type());
+
+      size_t tmp_grad_k_offset = is_mqa_gqa
+          ? get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.tmp_grad_k_strides[0],
+                tmp_grad_k.scalar_type())
+          : tmp_k_offset;
+      size_t tmp_grad_v_offset = is_mqa_gqa
+          ? get_size_in_bytes(
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.tmp_grad_v_strides[0],
+                tmp_grad_v.scalar_type())
+          : tmp_v_offset;
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
+      p.grad_q_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
+
+      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
+      p.grad_k_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_k_ptr[tmp_grad_k_offset * multiplier]));
+
+      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
+      p.grad_v_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_v_ptr[tmp_grad_v_offset * multiplier]));
+
+      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
+      p.grad_out_ptrs.push_back(
+          reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
+
+      p.logsumexp_ptrs.push_back(
+          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+
+      if (bias.has_value()) {
+        size_t tmp_bias_offset = get_size_in_bytes(
+            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(
+            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+
+        if (bias_requires_grad) {
+          p.grad_bias_ptrs.push_back(
+              reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
         }
-        else
-            throw std::runtime_error("input data-type is not supported");
-    }
+      }
 
-    if(is_mqa_gqa)
-    {
-        auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
-        auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
-        grad_k               = tmp_grad_k_view.sum(3);
-        grad_v               = tmp_grad_v_view.sum(3);
+      // ToDO: remove this after dev-op fix
+      p.randvals_ptrs.push_back(nullptr);
     }
-
-    return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
+  };
+
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedBackwardParams batched_backward_params;
+
+    set_batched_backward_params(batched_backward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      batched_backward_fp16(batched_backward_params, stream);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      batched_backward_bp16(batched_backward_params, stream);
+    } else
+      throw std::runtime_error("input data-type is not supported");
+  } else { // input is grouped
+    GroupedBackwardParams grouped_backward_params;
+
+    set_grouped_backward_params(grouped_backward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      grouped_backward_fp16(grouped_backward_params, stream);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      grouped_backward_bp16(grouped_backward_params, stream);
+    } else
+      throw std::runtime_error("input data-type is not supported");
+  }
+
+  if (is_mqa_gqa) {
+    auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
+    auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
+    grad_k = tmp_grad_k_view.sum(3);
+    grad_v = tmp_grad_v_view.sum(3);
+  }
+
+  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 #endif
 } // namespace
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m)
-{
-    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
-           TORCH_FN(efficient_attention_backward_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
+      TORCH_FN(efficient_attention_backward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index a4282834ac..ecf73c09b0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -26,91 +26,100 @@ namespace {
  * generate a tensor with random uniform values. only used for testing, not much
  * attention is paid to performance
  */
-at::Tensor
-rand_uniform_int(double dropout_prob,
-                 const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
+at::Tensor rand_uniform_int(
+    double dropout_prob,
+    const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
 {
-    int B         = out_pattern.size(0);
-    int num_heads = out_pattern.size(1);
-    int M         = out_pattern.size(2);
-    int N         = out_pattern.size(3);
-
-    // at::cuda::CUDAGuard device_guard(out_pattern.device());
-    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-    at::CUDAGeneratorImpl* gen = at::get_generator_or_default<at::CUDAGeneratorImpl>(
-        c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-    at::PhiloxCudaState rng_engine_inputs;
-    {
-        std::lock_guard<std::mutex> lock(gen->mutex_);
-        rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
-    }
-
-    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-    int64_t philox_seed   = std::get<0>(seeds);
-    int64_t philox_offset = std::get<1>(seeds);
-
-    at::Tensor randvals;
-
-    randvals = at::empty({B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-
-    static constexpr auto TensorSpecA = ck::tensor_operation::device::TensorSpecialization::Default;
-    static constexpr auto TensorSpecB0 =
-        ck::tensor_operation::device::TensorSpecialization::Default;
-    static constexpr auto TensorSpecB1 =
-        ck::tensor_operation::device::TensorSpecialization::Default;
-    static constexpr auto TensorSpecC = ck::tensor_operation::device::TensorSpecialization::Default;
-
-    using DeviceOpInstance = ck::tensor_operation::device::DeviceBatchedDropout<2, // NumDimG
-                                                                                ck::half_t,
-                                                                                int,
-                                                                                ck::half_t,
-                                                                                GemmSpec,
-                                                                                TensorSpecA,
-                                                                                TensorSpecB0,
-                                                                                TensorSpecB1,
-                                                                                TensorSpecC,
-                                                                                256, // BlockSize
-                                                                                64,  // MPerBlock
-                                                                                128, // NPerBlock
-                                                                                32,  // KPerBlock
-                                                                                8,   // AK1
-                                                                                8,   // BK1
-                                                                                32,  // MPerXDL
-                                                                                32,  // NPerXDL
-                                                                                2,   // MXdlPerWave
-                                                                                1>;  // NXdlPerWave
-
-    const uint64_t seed   = 1;
-    const uint64_t offset = 0;
-
-    std::vector<ck::index_t> z_gs_ms_ns_lengths = {B, num_heads, M, N};
-    std::vector<ck::index_t> z_gs_ms_ns_strides = {static_cast<int>(randvals.stride(0)),
-                                                   static_cast<int>(randvals.stride(1)),
-                                                   static_cast<int>(randvals.stride(2)),
-                                                   static_cast<int>(randvals.stride(3))};
-
-    auto dropout_op      = DeviceOpInstance();
-    auto dropout_invoker = dropout_op.MakeInvoker();
-
-    auto dropout_arg = dropout_op.MakeArgument(static_cast<int*>(randvals.data_ptr()),
-                                               z_gs_ms_ns_lengths,
-                                               z_gs_ms_ns_strides,
-                                               {philox_seed, philox_offset});
-
-    dropout_invoker.Run(dropout_arg, StreamConfig{stream, false});
-    (void)hipStreamSynchronize(stream);
-
-    return randvals;
+  int B = out_pattern.size(0);
+  int num_heads = out_pattern.size(1);
+  int M = out_pattern.size(2);
+  int N = out_pattern.size(3);
+
+  // at::cuda::CUDAGuard device_guard(out_pattern.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  at::CUDAGeneratorImpl* gen =
+      at::get_generator_or_default<at::CUDAGeneratorImpl>(
+          c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+  at::PhiloxCudaState rng_engine_inputs;
+  {
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+  }
+
+  const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+  int64_t philox_seed = std::get<0>(seeds);
+  int64_t philox_offset = std::get<1>(seeds);
+
+  at::Tensor randvals;
+
+  randvals = at::empty(
+      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+
+  using DeviceOpInstance = ck::tensor_operation::device::DeviceBatchedDropout<
+      2, // NumDimG
+      ck::half_t,
+      int,
+      ck::half_t,
+      GemmSpec,
+      TensorSpecA,
+      TensorSpecB0,
+      TensorSpecB1,
+      TensorSpecC,
+      256, // BlockSize
+      64, // MPerBlock
+      128, // NPerBlock
+      32, // KPerBlock
+      8, // AK1
+      8, // BK1
+      32, // MPerXDL
+      32, // NPerXDL
+      2, // MXdlPerWave
+      1>; // NXdlPerWave
+
+  const uint64_t seed = 1;
+  const uint64_t offset = 0;
+
+  std::vector<ck::index_t> z_gs_ms_ns_lengths = {B, num_heads, M, N};
+  std::vector<ck::index_t> z_gs_ms_ns_strides = {
+      static_cast<int>(randvals.stride(0)),
+      static_cast<int>(randvals.stride(1)),
+      static_cast<int>(randvals.stride(2)),
+      static_cast<int>(randvals.stride(3))};
+
+  auto dropout_op = DeviceOpInstance();
+  auto dropout_invoker = dropout_op.MakeInvoker();
+
+  auto dropout_arg = dropout_op.MakeArgument(
+      static_cast<int*>(randvals.data_ptr()),
+      z_gs_ms_ns_lengths,
+      z_gs_ms_ns_strides,
+      {philox_seed, philox_offset});
+
+  dropout_invoker.Run(dropout_arg, StreamConfig{stream, false});
+  (void)hipStreamSynchronize(stream);
+
+  return randvals;
 } // namespace
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m)
-{
-    m.impl(TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"), TORCH_FN(rand_uniform_int));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"),
+      TORCH_FN(rand_uniform_int));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 99de91741e..6fe0137b03 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -15,8 +15,8 @@
 
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock  = 16;
-constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
 } // namespace
 
 namespace {
@@ -24,129 +24,135 @@ namespace {
 template <typename c10_t>
 struct c10_to_data_t;
 template <>
-struct c10_to_data_t<float>
-{
-    using type = float;
+struct c10_to_data_t<float> {
+  using type = float;
 };
 
 template <>
-struct c10_to_data_t<c10::Half>
-{
-    using type = ck::half_t;
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
 };
 
 template <>
-struct c10_to_data_t<c10::BFloat16>
-{
-    using type = ck::bhalf_t;
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
 };
 } // namespace
 
 namespace {
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-    AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                         \
-    AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                         \
-    AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-    AT_DISPATCH_SWITCH(                                                              \
-        TYPE, NAME, AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <int32_t ThreadsPerWavefront,
-          int32_t WavefrontsPerBlock,
-          int32_t KV_M_MAX = 8192,
-          int32_t K_MAX    = 256>
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock,
+    int32_t KV_M_MAX = 8192,
+    int32_t K_MAX = 256>
 at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
-    at::Tensor& O)
-{
-    static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-    static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-    at::OptionalDeviceGuard guard(XQ.device());
-    TORCH_CHECK(XQ.is_cuda());
-    TORCH_CHECK(cache_K.is_cuda());
-    TORCH_CHECK(cache_V.is_cuda());
-
-    TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-    TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-    TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-    constexpr auto rank = 5;
-
-    auto B = XQ.size(0);
-    auto M = XQ.size(1);
-    auto G = XQ.size(2);
-    auto H = XQ.size(3);
-
-    TORCH_CHECK(B <= 1024);
-    TORCH_CHECK(M <= 1024);
-    TORCH_CHECK(H <= 1024);
-
-    dim3 blocks(B * H * M * G);
-    dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-    int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-    int32_t smem_output  = K_MAX * sizeof(float) *
-                          threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-    const size_t lds_bytes = max(smem_softmax, smem_output);
-    auto stream            = at::cuda::getCurrentHIPStream().stream();
-
-    AT_DISPATCH_SWITCH_3(
-        at::ScalarType::Half,
-        at::ScalarType::BFloat16,
-        at::ScalarType::Float,
-        XQ.scalar_type(),
-        "efficient_attention_forward_decoder_ck",
-        [&] {
-            using ck_data_t   = c10_to_data_t<scalar_t>::type;
-            using device_op_t = ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-            auto op           = device_op_t{};
-
-            auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto K_acc  = cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-            auto V_acc  = cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-            auto O_acc  = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto seq_acc =
-                seq_kv_lens
-                    ? seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data()
-                    : nullptr;
-            auto arg = device_op_t::Argument(
-                reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-                reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-                reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-                seq_acc,
-                XQ_acc.stride(0),
-                XQ_acc.stride(1),
-                XQ_acc.stride(2),
-                XQ_acc.stride(3),
-                K_acc.stride(0),
-                K_acc.stride(1),
-                K_acc.stride(2),
-                K_acc.stride(3),
-                XQ_acc.size(1),
-                XQ_acc.size(2),
-                XQ_acc.size(3),
-                XQ_acc.size(4),
-                K_acc.size(1),
-                K_acc.size(3) == 1,
-                qk_scale,
-                blocks,
-                threads,
-                lds_bytes);
-
-            auto invoker = device_op_t::Invoker{};
-            (void)invoker.Run(arg, {stream});
-        });
-
-    return O;
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+
+  return O;
 }
 
 #undef AT_DISPATCH_CASE_3
@@ -154,34 +160,34 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, H or 1, D]
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale)
-{
-    auto O = at::empty_like(XQ);
-    efficient_attention_forward_decoder_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
-        XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-    return O;
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  efficient_attention_forward_decoder_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
+  return O;
 }
 
-at::Tensor
-efficient_attention_forward_decoder_ck(const at::Tensor& XQ,      // [B, 1, G, H, D]
-                                       const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-                                       const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-                                       at::optional<at::Tensor> seq_kv_lens, // [B]
-                                       double qk_scale)
-{
-    return efficient_attention_forward_decoder_ck_impl<kThreadsPerWavefront, kWavefrontsPerBlock>(
-        XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+at::Tensor efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  return efficient_attention_forward_decoder_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
 }
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m)
-{
-    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-           TORCH_FN(efficient_attention_forward_decoder_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
 }
 
 #ifdef ATTN_FWD_DECODER_MAIN
@@ -217,109 +223,111 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m)
 
 // clang-format on
 
-static void do_correctness_check()
-{
-    const int32_t D = 4 * kThreadsPerWavefront;
-    const int32_t B = 1;
-    const int32_t H = 4;
-    const int32_t G = 1;
-    auto options    = torch::TensorOptions()
-                       .dtype(torch::kFloat32)
-                       .layout(torch::kStrided)
-                       .device(torch::kCUDA, 1)
-                       .requires_grad(false);
-    auto int_options = options.dtype(torch::kInt);
-    auto XQ          = at::randn({B, 1, G, H, D}, options);
-    auto K           = at::randn({B, 4096, G, H, D}, options);
-    auto V           = at::randn({B, 4096, G, H, D}, options);
-    auto seq         = at::randint(63, 128, {B}, int_options);
-    double qk_scale  = 1. / sqrt(D);
-
-    auto result      = efficient_attention_forward_decoder_ck_impl<64, 1>(XQ, K, V, seq, qk_scale);
-    auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(XQ, K, V, seq, qk_scale);
-    auto mask = at::isclose(result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    printf("Mismatched elements percentage: %.2f\n", 1. - percent_match.item<float>());
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t H = 4;
+  const int32_t G = 1;
+  auto options = torch::TensorOptions()
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, G, H, D}, options);
+  auto K = at::randn({B, 4096, G, H, D}, options);
+  auto V = at::randn({B, 4096, G, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
+  double qk_scale = 1. / sqrt(D);
+
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
 }
 
-int main(int argc, char** argv)
-{
-    if(argc == 1)
-    {
-        do_correctness_check();
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+             "n_wavefronts_per_block"
+          << std::endl;
+      return 0;
     }
-    else
-    {
-        const auto args = std::vector<std::string>(argv + 1, argv + argc);
-        if(args.size() != 7)
-        {
-            std::cout << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-                         "n_wavefronts_per_block"
-                      << std::endl;
-            return 0;
-        }
-        const int32_t n_keys     = std::stoi(args[0]);
-        const int32_t padding    = std::stoi(args[1]);
-        const int32_t batch_size = std::stoi(args[2]);
-        const int32_t n_heads    = std::stoi(args[3]);
-        const int32_t n_groups   = 1;
-        const int32_t multiquery = (args[4] == "mq");
-        const auto dtype         = (args[5] == "f32")
-                               ? torch::kFloat32
-                               : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
-        const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-        const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-        const auto options = torch::TensorOptions()
-                                 .dtype(dtype)
-                                 .layout(torch::kStrided)
-                                 .device(torch::kCUDA, 1)
-                                 .requires_grad(false);
-
-        const auto int_options = options.dtype(torch::kInt);
-        const auto Q = at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-        const auto K =
-            multiquery ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-                             .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-                       : at::rand({batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-        const auto V = at::rand_like(K);
-        auto O       = at::empty_like(Q);
-
-        const auto seq        = at::randint(1, n_keys, {batch_size}, int_options);
-        const double qk_scale = 1. / sqrt(dim_per_head);
-        auto call_ptr =
-            decltype(&efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront,
-                                                                      kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                                              \
-    case(n):                                                                                    \
-        call_ptr = &efficient_attention_forward_decoder_ck_out_impl<kThreadsPerWavefront, (n)>; \
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t n_groups = 1;
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32")
+        ? torch::kFloat32
+        : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q =
+        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+        : at::rand(
+              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::empty_like(Q);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
         break;
-
-        switch(n_wavefronts_per_block)
-        {
-            SWITCH_CASE_SET_CALLPTR(1);
-            SWITCH_CASE_SET_CALLPTR(2);
-            SWITCH_CASE_SET_CALLPTR(4);
-            SWITCH_CASE_SET_CALLPTR(8);
-            SWITCH_CASE_SET_CALLPTR(16);
-
-        default: call_ptr = nullptr; break;
-        }
+    }
 #undef SWITCH_CASE_SET_CALLPTR
 
-        if(call_ptr)
-        {
-            call_ptr(Q, K, V, seq, qk_scale, O);
-        }
-        else
-        {
-            std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                      << n_wavefronts_per_block << std::endl;
-        }
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
     }
-    return 0;
+  }
+  return 0;
 }
 
 #endif // MAIN
\ No newline at end of file
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
index c4bbc72ebe..5060b03c8b 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
@@ -24,10 +24,18 @@
 #include "ck_fmha_params.h"
 #include "ck_fmha_util.h"
 
-extern void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream);
-extern void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream);
-extern void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream);
-extern void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream);
+extern void batched_forward_fp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void batched_forward_bp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_fp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_bp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
 extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
@@ -41,10 +49,11 @@ namespace {
   (Mode BMHK) With all the heads having the same seqlen
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward_ck(
-    const at::Tensor& query,               // [b, seqlen, num_heads_q, K]
-    const at::Tensor& key,                 // [b, seqlen, num_heads_kv, K]
-    const at::Tensor& value,               // [b, seqlen, num_heads_kv, Kv]
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+efficient_attention_forward_ck(
+    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
+    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
+    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
     const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
@@ -59,380 +68,358 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
     int64_t custom_mask_type,
     c10::optional<double> scale,
     const c10::optional<at::Tensor>& seqlen_k,
-    const c10::optional<int64_t> window_size)
-{
-    std::ignore = window_size;
-
-    TORCH_CHECK(query.dim() == 4);
-    TORCH_CHECK(key.dim() == 4);
-    TORCH_CHECK(value.dim() == 4);
-
-    // Batch sizes
-    TORCH_CHECK(query.size(0) == key.size(0));
-    TORCH_CHECK(query.size(0) == value.size(0));
-
-    // Sequence length
-    TORCH_CHECK(key.size(1) == value.size(1));
-
-    // Num heads
-    TORCH_CHECK(query.size(2) % key.size(2) == 0);
-    TORCH_CHECK(key.size(2) == value.size(2));
-
-    // Embedding per head
-    TORCH_CHECK(query.size(3) == key.size(3));
-
-    TORCH_CHECK(query.scalar_type() == key.scalar_type());
-    TORCH_CHECK(query.scalar_type() == value.scalar_type());
-
-    TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-    if(seqstart_q.has_value())
-    {
-        TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-        TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-        TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-        CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-        TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-        TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-        TORCH_CHECK(max_seqlen_q_.has_value());
-    };
-
-    // last dim is contiguous, device is kCUDA
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-    // at::cuda::CUDAGuard device_guard(query.device());
-    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-    int64_t B   = query.size(0);
-    int64_t M   = query.size(1);
-    int64_t N   = key.size(1);
-    int64_t Hq  = query.size(-2);
-    int64_t Hkv = key.size(-2);
-    int64_t K   = query.size(-1);
-    int64_t Kv  = value.size(-1);
-
-    auto opts = query.options();
-
-    at::Tensor logsumexp;
-
-    at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
-
-    const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-    int64_t philox_seed;
-    int64_t philox_offset;
-
-    if(use_dropout)
-    {
-        at::PhiloxCudaState rng_engine_inputs;
-        at::CUDAGeneratorImpl* gen = at::get_generator_or_default<at::CUDAGeneratorImpl>(
+    const c10::optional<int64_t> window_size) {
+  std::ignore = window_size;
+
+  TORCH_CHECK(query.dim() == 4);
+  TORCH_CHECK(key.dim() == 4);
+  TORCH_CHECK(value.dim() == 4);
+
+  // Batch sizes
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // Sequence length
+  TORCH_CHECK(key.size(1) == value.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+
+  TORCH_CHECK(query.scalar_type() == key.scalar_type());
+  TORCH_CHECK(query.scalar_type() == value.scalar_type());
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
+  };
+
+  // last dim is contiguous, device is kCUDA
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t Hq = query.size(-2);
+  int64_t Hkv = key.size(-2);
+  int64_t K = query.size(-1);
+  int64_t Kv = value.size(-1);
+
+  auto opts = query.options();
+
+  at::Tensor logsumexp;
+
+  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
+
+  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  if (use_dropout) {
+    at::PhiloxCudaState rng_engine_inputs;
+    at::CUDAGeneratorImpl* gen =
+        at::get_generator_or_default<at::CUDAGeneratorImpl>(
             c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
 
-        std::lock_guard<std::mutex> lock(gen->mutex_);
-        // if using dropout, we produce 1 random number for each element of the
-        // attention tensor
-        rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    // if using dropout, we produce 1 random number for each element of the
+    // attention tensor
+    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
+
+    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+    philox_seed = std::get<0>(seeds);
+    philox_offset = std::get<1>(seeds);
+  }
+
+  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
 
-        const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.custom_mask_type = custom_mask_type;
+
+    p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
+    p.compute_logsumexp = compute_logsumexp;
+
+    // the following parameters are only used by training forward
+    if (p.use_dropout)
+      p.dropout_prob = static_cast<float>(dropout_p);
+    else
+      p.dropout_prob = 0.0f;
+
+    if (p.compute_logsumexp) {
+      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
+      p.logsumexp_ptr = logsumexp.data_ptr();
+    } else
+      p.logsumexp_ptr = nullptr;
+  };
+
+  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
 
-        philox_seed   = std::get<0>(seeds);
-        philox_offset = std::get<1>(seeds);
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.custom_mask_type = custom_mask_type;
+
+    // max_seqlen_q is used to create logsumexp tensor
+    p.max_seqlen_q = *max_seqlen_q_;
+
+    p.host_seqstart_q.resize(p.num_batches + 1);
+    p.host_seqstart_k.resize(p.num_batches + 1);
+
+    for (int i = 0; i < p.host_seqstart_q.size(); i++)
+      p.host_seqstart_q[i] =
+          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
+
+    for (int i = 0; i < p.host_seqstart_k.size(); i++)
+      p.host_seqstart_k[i] =
+          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
+
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
+
+      p.host_seqlen_k.resize(p.num_batches);
+
+      for (int i = 0; i < p.host_seqlen_k.size(); i++)
+        p.host_seqlen_k[i] =
+            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
     }
 
-    auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-        p.B   = B;
-        p.M   = M;
-        p.N   = N;
-        p.Hq  = Hq;
-        p.Hkv = Hkv;
-        p.K   = K;
-        p.Kv  = Kv;
-
-        if(scale.has_value())
-        {
-            p.scale = float(*scale);
-        }
-        else
-        {
-            p.scale = float(1.0 / std::sqrt(float(K)));
-        }
-
-        p.q_ptr   = query.data_ptr();
-        p.k_ptr   = key.data_ptr();
-        p.v_ptr   = value.data_ptr();
-        p.out_ptr = out.data_ptr();
-
-        p.q_strides   = {static_cast<int>(query.stride(0)),
-                       static_cast<int>(query.stride(1)),
-                       static_cast<int>(query.stride(2)),
-                       static_cast<int>(query.stride(3))};
-        p.k_strides   = {static_cast<int>(key.stride(0)),
-                       static_cast<int>(key.stride(1)),
-                       static_cast<int>(key.stride(2)),
-                       static_cast<int>(key.stride(3))};
-        p.v_strides   = {static_cast<int>(value.stride(0)),
-                       static_cast<int>(value.stride(1)),
-                       static_cast<int>(value.stride(2)),
-                       static_cast<int>(value.stride(3))};
-        p.out_strides = {static_cast<int>(out.stride(0)),
-                         static_cast<int>(out.stride(1)),
-                         static_cast<int>(out.stride(2)),
-                         static_cast<int>(out.stride(3))};
-
-        if(bias.has_value())
-        {
-            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-            p.has_attn_bias = true;
-            p.attn_bias_ptr = bias->data_ptr();
-
-            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
-                                   static_cast<int>(bias_4d_view.stride(1)),
-                                   static_cast<int>(bias_4d_view.stride(2)),
-                                   static_cast<int>(bias_4d_view.stride(3))};
-        }
-        else
-            p.has_attn_bias = false;
-
-        p.custom_mask_type = custom_mask_type;
-
-        p.use_dropout       = use_dropout;
-        p.philox_seed       = philox_seed;
-        p.philox_offset     = philox_offset;
-        p.compute_logsumexp = compute_logsumexp;
-
-        // the following parameters are only used by training forward
-        if(p.use_dropout)
-            p.dropout_prob = static_cast<float>(dropout_p);
-        else
-            p.dropout_prob = 0.0f;
-
-        if(p.compute_logsumexp)
-        {
-            logsumexp       = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
-            p.logsumexp_ptr = logsumexp.data_ptr();
-        }
-        else
-            p.logsumexp_ptr = nullptr;
-    };
+    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
+    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
+    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
+
+    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
+    char* attn_bias_ptr =
+        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
+
+    for (int i = 0; i < p.num_batches; i++) {
+      size_t tmp_q_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
+          query.scalar_type());
+      size_t tmp_k_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
+          key.scalar_type());
+      size_t tmp_v_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
+          value.scalar_type());
+      size_t tmp_o_offset = get_size_in_bytes(
+          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
+          out.scalar_type());
+
+      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
+      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
+      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
+      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
+
+      if (bias.has_value()) {
+        size_t tmp_bias_offset = get_size_in_bytes(
+            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
+                static_cast<size_t>(p.host_seqstart_k[i]) *
+                    p.attn_bias_strides[3],
+            bias->scalar_type());
+
+        p.attn_bias_ptrs.push_back(
+            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
+      };
+
+      // ToDO: remove this after dev-op fix
+      p.randvals_ptrs.push_back(nullptr);
+    }
 
-    auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-        p.num_batches = seqstart_q->size(0) - 1;
-        p.M           = M;
-        p.N           = N;
-        p.Hq          = Hq;
-        p.Hkv         = Hkv;
-        p.K           = K;
-        p.Kv          = Kv;
-
-        if(scale.has_value())
-        {
-            p.scale = float(*scale);
-        }
-        else
-        {
-            p.scale = float(1.0 / std::sqrt(float(K)));
-        }
-
-        p.q_strides   = {static_cast<int>(query.stride(1)),
-                       static_cast<int>(query.stride(2)),
-                       static_cast<int>(query.stride(3))};
-        p.k_strides   = {static_cast<int>(key.stride(1)),
-                       static_cast<int>(key.stride(2)),
-                       static_cast<int>(key.stride(3))};
-        p.v_strides   = {static_cast<int>(value.stride(1)),
-                       static_cast<int>(value.stride(2)),
-                       static_cast<int>(value.stride(3))};
-        p.out_strides = {static_cast<int>(out.stride(1)),
-                         static_cast<int>(out.stride(2)),
-                         static_cast<int>(out.stride(3))};
-
-        if(bias.has_value())
-        {
-            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-            p.has_attn_bias               = true;
-            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
-                                   static_cast<int>(bias_4d_view.stride(1)),
-                                   static_cast<int>(bias_4d_view.stride(2)),
-                                   static_cast<int>(bias_4d_view.stride(3))};
-        }
-        else
-            p.has_attn_bias = false;
-
-        p.custom_mask_type = custom_mask_type;
-
-        // max_seqlen_q is used to create logsumexp tensor
-        p.max_seqlen_q = *max_seqlen_q_;
-
-        p.host_seqstart_q.resize(p.num_batches + 1);
-        p.host_seqstart_k.resize(p.num_batches + 1);
-
-        for(int i = 0; i < p.host_seqstart_q.size(); i++)
-            p.host_seqstart_q[i] = *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
-
-        for(int i = 0; i < p.host_seqstart_k.size(); i++)
-            p.host_seqstart_k[i] = *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
-
-        if(seqlen_k.has_value())
-        {
-            TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-            TORCH_CHECK(seqlen_k->dim() == 1);
-            TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-            CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
-
-            p.host_seqlen_k.resize(p.num_batches);
-
-            for(int i = 0; i < p.host_seqlen_k.size(); i++)
-                p.host_seqlen_k[i] = *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
-        }
-
-        char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-        char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-        char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-        char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-        char* attn_bias_ptr =
-            bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-        for(int i = 0; i < p.num_batches; i++)
-        {
-            size_t tmp_q_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0], query.scalar_type());
-            size_t tmp_k_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0], key.scalar_type());
-            size_t tmp_v_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0], value.scalar_type());
-            size_t tmp_o_offset = get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0], out.scalar_type());
-
-            p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-            p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-            p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-            p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-
-            if(bias.has_value())
-            {
-                size_t tmp_bias_offset = get_size_in_bytes(
-                    static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                        static_cast<size_t>(p.host_seqstart_k[i]) * p.attn_bias_strides[3],
-                    bias->scalar_type());
-
-                p.attn_bias_ptrs.push_back(
-                    reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-            };
-
-            // ToDO: remove this after dev-op fix
-            p.randvals_ptrs.push_back(nullptr);
-        }
-
-        p.use_dropout       = use_dropout;
-        p.philox_seed       = philox_seed;
-        p.philox_offset     = philox_offset;
-        p.compute_logsumexp = compute_logsumexp;
-
-        // the following parameters are only used by training forward
-        if(p.use_dropout)
-            p.dropout_prob = static_cast<float>(dropout_p);
-        else
-            p.dropout_prob = 0.0f;
-
-        if(p.compute_logsumexp)
-        {
-            logsumexp = at::empty({p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
-            char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-            for(int i = 0; i < p.num_batches; i++)
-            {
-                size_t tmp_logsumexp_offset = get_size_in_bytes(
-                    static_cast<size_t>(i) * Hq * p.max_seqlen_q, logsumexp.scalar_type());
-                p.logsumexp_ptrs.push_back(
-                    reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-            };
-        };
-    };
+    p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
+    p.compute_logsumexp = compute_logsumexp;
 
-    auto inDataType = query.scalar_type();
-
-    if(!seqstart_q.has_value())
-    { // input is batched
-        BatchedForwardParams batched_forward_params;
-
-        set_batched_forward_params(batched_forward_params);
-
-        if(!batched_forward_params.use_dropout && !batched_forward_params.compute_logsumexp)
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                batched_infer_fp16(batched_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                batched_infer_bp16(batched_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-        }
-        else
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                batched_forward_fp16(batched_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                batched_forward_bp16(batched_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-        };
-    }
+    // the following parameters are only used by training forward
+    if (p.use_dropout)
+      p.dropout_prob = static_cast<float>(dropout_p);
     else
-    { // input is grouped
-        GroupedForwardParams grouped_forward_params;
-
-        set_grouped_forward_params(grouped_forward_params);
-
-        if(!grouped_forward_params.use_dropout && !grouped_forward_params.compute_logsumexp)
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                grouped_infer_fp16(grouped_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                grouped_infer_bp16(grouped_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-        }
-        else
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                grouped_forward_fp16(grouped_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                grouped_forward_bp16(grouped_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-        };
+      p.dropout_prob = 0.0f;
+
+    if (p.compute_logsumexp) {
+      logsumexp = at::empty(
+          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+      char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
+
+      for (int i = 0; i < p.num_batches; i++) {
+        size_t tmp_logsumexp_offset = get_size_in_bytes(
+            static_cast<size_t>(i) * Hq * p.max_seqlen_q,
+            logsumexp.scalar_type());
+        p.logsumexp_ptrs.push_back(
+            reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
+      };
+    };
+  };
+
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedForwardParams batched_forward_params;
+
+    set_batched_forward_params(batched_forward_params);
+
+    if (!batched_forward_params.use_dropout &&
+        !batched_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        batched_infer_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_infer_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      if (inDataType == at::ScalarType::Half) {
+        batched_forward_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_forward_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    };
+  } else { // input is grouped
+    GroupedForwardParams grouped_forward_params;
+
+    set_grouped_forward_params(grouped_forward_params);
+
+    if (!grouped_forward_params.use_dropout &&
+        !grouped_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_infer_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_infer_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_forward_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_forward_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
     };
+  };
 
-    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m)
-{
-    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
-           TORCH_FN(efficient_attention_forward_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
+      TORCH_FN(efficient_attention_forward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 9db1cd2574..a56b87f737 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -21,10 +21,18 @@
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_params.h"
 
-extern void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream);
-extern void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream);
-extern void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream);
-extern void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream);
+extern void batched_forward_fp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void batched_forward_bp16(
+    BatchedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_fp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
+extern void grouped_forward_bp16(
+    GroupedForwardParams& param,
+    hipStream_t stream);
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
 extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
@@ -38,10 +46,11 @@ namespace {
   (Mode BMHK) With all the heads having the same seqlen
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward_ck(
-    const at::Tensor& query,               // [b, seqlen, num_heads_q, K]
-    const at::Tensor& key,                 // [b, seqlen, num_heads_kv, K]
-    const at::Tensor& value,               // [b, seqlen, num_heads_kv, Kv]
+std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+efficient_attention_forward_ck(
+    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
+    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
+    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
     const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
     // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
     // position of the first query token for batch $b
@@ -56,390 +65,357 @@ std::tuple<at::Tensor, at::Tensor, int64_t, int64_t> efficient_attention_forward
     int64_t custom_mask_type,
     c10::optional<double> scale,
     const c10::optional<at::Tensor>& seqlen_k,
-    const c10::optional<int64_t> window_size)
-{
-    TORCH_CHECK(query.dim() == 4);
-    TORCH_CHECK(key.dim() == 4);
-    TORCH_CHECK(value.dim() == 4);
-
-    // Batch sizes
-    TORCH_CHECK(query.size(0) == key.size(0));
-    TORCH_CHECK(query.size(0) == value.size(0));
-
-    // Sequence length
-    TORCH_CHECK(key.size(1) == value.size(1));
-
-    // Num heads
-    TORCH_CHECK(query.size(2) % key.size(2) == 0);
-    TORCH_CHECK(key.size(2) == value.size(2));
-
-    // Embedding per head
-    TORCH_CHECK(query.size(3) == key.size(3));
-
-    TORCH_CHECK(query.scalar_type() == key.scalar_type());
-    TORCH_CHECK(query.scalar_type() == value.scalar_type());
-
-    TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-    if(seqstart_q.has_value())
-    {
-        TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-        TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-        TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-        TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-        TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-        TORCH_CHECK(max_seqlen_q_.has_value());
-    };
-
-    // last dim is contiguous, device is kCUDA
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-    CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-    // at::cuda::CUDAGuard device_guard(query.device());
-    hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-    int64_t B   = query.size(0);
-    int64_t M   = query.size(1);
-    int64_t N   = key.size(1);
-    int64_t Hq  = query.size(-2);
-    int64_t Hkv = key.size(-2);
-    int64_t K   = query.size(-1);
-    int64_t Kv  = value.size(-1);
-
-    auto opts = query.options();
-
-    at::Tensor logsumexp;
-
-    at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
-
-    const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-    int64_t philox_seed;
-    int64_t philox_offset;
-
-    if(use_dropout)
-    {
-        /*
-        at::PhiloxCudaState rng_engine_inputs;
-        at::CUDAGeneratorImpl* gen =
-            at::get_generator_or_default<at::CUDAGeneratorImpl>(
-                c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-        std::lock_guard<std::mutex> lock(gen->mutex_);
-        // if using dropout, we produce 1 random number for each element of the
-        // attention tensor
-        rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
-
-        const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-        philox_seed = std::get<0>(seeds);
-        philox_offset = std::get<1>(seeds);
-        */
-        throw std::runtime_error("drop-out is currently not implemented by ck-tiled!");
+    const c10::optional<int64_t> window_size) {
+  TORCH_CHECK(query.dim() == 4);
+  TORCH_CHECK(key.dim() == 4);
+  TORCH_CHECK(value.dim() == 4);
+
+  // Batch sizes
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // Sequence length
+  TORCH_CHECK(key.size(1) == value.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+
+  TORCH_CHECK(query.scalar_type() == key.scalar_type());
+  TORCH_CHECK(query.scalar_type() == value.scalar_type());
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
+  };
+
+  // last dim is contiguous, device is kCUDA
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t Hq = query.size(-2);
+  int64_t Hkv = key.size(-2);
+  int64_t K = query.size(-1);
+  int64_t Kv = value.size(-1);
+
+  auto opts = query.options();
+
+  at::Tensor logsumexp;
+
+  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
+
+  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  if (use_dropout) {
+    /*
+    at::PhiloxCudaState rng_engine_inputs;
+    at::CUDAGeneratorImpl* gen =
+        at::get_generator_or_default<at::CUDAGeneratorImpl>(
+            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    // if using dropout, we produce 1 random number for each element of the
+    // attention tensor
+    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
+
+    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+    philox_seed = std::get<0>(seeds);
+    philox_offset = std::get<1>(seeds);
+    */
+    throw std::runtime_error(
+        "drop-out is currently not implemented by ck-tiled!");
+  }
+
+  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
     }
 
-    auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-        p.B   = B;
-        p.M   = M;
-        p.N   = N;
-        p.Hq  = Hq;
-        p.Hkv = Hkv;
-        p.K   = K;
-        p.Kv  = Kv;
-
-        if(scale.has_value())
-        {
-            p.scale = float(*scale);
-        }
-        else
-        {
-            p.scale = float(1.0 / std::sqrt(float(K)));
-        }
-
-        p.q_ptr   = query.data_ptr();
-        p.k_ptr   = key.data_ptr();
-        p.v_ptr   = value.data_ptr();
-        p.out_ptr = out.data_ptr();
-
-        p.q_strides   = {static_cast<int>(query.stride(0)),
-                       static_cast<int>(query.stride(1)),
-                       static_cast<int>(query.stride(2)),
-                       static_cast<int>(query.stride(3))};
-        p.k_strides   = {static_cast<int>(key.stride(0)),
-                       static_cast<int>(key.stride(1)),
-                       static_cast<int>(key.stride(2)),
-                       static_cast<int>(key.stride(3))};
-        p.v_strides   = {static_cast<int>(value.stride(0)),
-                       static_cast<int>(value.stride(1)),
-                       static_cast<int>(value.stride(2)),
-                       static_cast<int>(value.stride(3))};
-        p.out_strides = {static_cast<int>(out.stride(0)),
-                         static_cast<int>(out.stride(1)),
-                         static_cast<int>(out.stride(2)),
-                         static_cast<int>(out.stride(3))};
-
-        if(bias.has_value())
-        {
-            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-            p.has_attn_bias = true;
-            p.attn_bias_ptr = bias->data_ptr();
-
-            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
-                                   static_cast<int>(bias_4d_view.stride(1)),
-                                   static_cast<int>(bias_4d_view.stride(2)),
-                                   static_cast<int>(bias_4d_view.stride(3))};
-        }
-        else
-            p.has_attn_bias = false;
-
-        p.custom_mask_type = custom_mask_type;
-        p.window_size      = window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
-
-        p.use_dropout       = use_dropout;
-        p.philox_seed       = philox_seed;
-        p.philox_offset     = philox_offset;
-        p.compute_logsumexp = compute_logsumexp;
-
-        // the following parameters are only used by training forward
-        if(p.use_dropout)
-        {
-            // p.dropout_prob = static_cast<float>(dropout_p);
-            throw std::runtime_error("drop-out is currently not implemented by ck-tiled!");
-        }
-        else
-            p.dropout_prob = 0.0f;
-
-        if(p.compute_logsumexp)
-        {
-            logsumexp       = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
-            p.logsumexp_ptr = logsumexp.data_ptr();
-        }
-        else
-            p.logsumexp_ptr = nullptr;
-    };
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.custom_mask_type = custom_mask_type;
+    p.window_size =
+        window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
+
+    p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
+    p.compute_logsumexp = compute_logsumexp;
+
+    // the following parameters are only used by training forward
+    if (p.use_dropout) {
+      // p.dropout_prob = static_cast<float>(dropout_p);
+      throw std::runtime_error(
+          "drop-out is currently not implemented by ck-tiled!");
+    } else
+      p.dropout_prob = 0.0f;
+
+    if (p.compute_logsumexp) {
+      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
+      p.logsumexp_ptr = logsumexp.data_ptr();
+    } else
+      p.logsumexp_ptr = nullptr;
+  };
+
+  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
 
-    auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-        p.num_batches = seqstart_q->size(0) - 1;
-        p.M           = M;
-        p.N           = N;
-        p.Hq          = Hq;
-        p.Hkv         = Hkv;
-        p.K           = K;
-        p.Kv          = Kv;
-
-        if(scale.has_value())
-        {
-            p.scale = float(*scale);
-        }
-        else
-        {
-            p.scale = float(1.0 / std::sqrt(float(K)));
-        }
-
-        p.q_ptr   = query.data_ptr();
-        p.k_ptr   = key.data_ptr();
-        p.v_ptr   = value.data_ptr();
-        p.out_ptr = out.data_ptr();
-
-        p.q_strides   = {static_cast<int>(query.stride(1)),
-                       static_cast<int>(query.stride(2)),
-                       static_cast<int>(query.stride(3))};
-        p.k_strides   = {static_cast<int>(key.stride(1)),
-                       static_cast<int>(key.stride(2)),
-                       static_cast<int>(key.stride(3))};
-        p.v_strides   = {static_cast<int>(value.stride(1)),
-                       static_cast<int>(value.stride(2)),
-                       static_cast<int>(value.stride(3))};
-        p.out_strides = {static_cast<int>(out.stride(1)),
-                         static_cast<int>(out.stride(2)),
-                         static_cast<int>(out.stride(3))};
-
-        if(bias.has_value())
-        {
-            CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-            TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-            p.has_attn_bias = true;
-            p.attn_bias_ptr = bias->data_ptr();
-
-            const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-            p.attn_bias_strides           = {static_cast<int>(bias_4d_view.stride(0)),
-                                   static_cast<int>(bias_4d_view.stride(1)),
-                                   static_cast<int>(bias_4d_view.stride(2)),
-                                   static_cast<int>(bias_4d_view.stride(3))};
-        }
-        else
-            p.has_attn_bias = false;
-
-        p.custom_mask_type = custom_mask_type;
-        p.window_size      = window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
-
-        // max_seqlen_q is used to create logsumexp tensor
-        p.max_seqlen_q = *max_seqlen_q_;
-
-        // interesting: the tensors have to be defined here, moving to more local scope will
-        // cause issue
-        at::Tensor dev_seqstart_q;
-        at::Tensor dev_seqstart_k;
-        at::Tensor dev_seqlen_k;
-
-        if(seqstart_q->is_cpu())
-        {
-            dev_seqstart_q       = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-            p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
-            HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_q_dev_ptr,
-                                          seqstart_q->data_ptr(),
-                                          (p.num_batches + 1) * sizeof(int),
-                                          hipMemcpyHostToDevice,
-                                          stream));
-        }
-        else
-            p.seqstart_q_dev_ptr = seqstart_q->data_ptr();
-
-        if(seqstart_k->is_cpu())
-        {
-            dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-
-            p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
-            HIP_CALL_CHECK(hipMemcpyAsync(p.seqstart_k_dev_ptr,
-                                          seqstart_k->data_ptr(),
-                                          (p.num_batches + 1) * sizeof(int),
-                                          hipMemcpyHostToDevice,
-                                          stream));
-        }
-        else
-            p.seqstart_k_dev_ptr = seqstart_k->data_ptr();
-
-        if(seqlen_k.has_value())
-        {
-            TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-            TORCH_CHECK(seqlen_k->dim() == 1);
-            TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-
-            if(seqlen_k->is_cpu())
-            {
-                dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
-
-                p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
-                HIP_CALL_CHECK(hipMemcpyAsync(p.seqlen_k_dev_ptr,
-                                              seqlen_k->data_ptr(),
-                                              p.num_batches * sizeof(int),
-                                              hipMemcpyHostToDevice,
-                                              stream));
-            }
-            else
-                p.seqlen_k_dev_ptr = seqlen_k->data_ptr();
-        }
-        else
-            p.seqlen_k_dev_ptr = nullptr;
-
-        p.use_dropout       = use_dropout;
-        p.philox_seed       = philox_seed;
-        p.philox_offset     = philox_offset;
-        p.compute_logsumexp = compute_logsumexp;
-
-        // the following parameters are only used by training forward
-        if(p.use_dropout)
-        {
-            // p.dropout_prob = static_cast<float>(dropout_p);
-            throw std::runtime_error("drop-out is currently not implemented by ck-tiled!");
-        }
-        else
-            p.dropout_prob = 0.0f;
-
-        if(p.compute_logsumexp)
-        {
-            logsumexp = at::empty({p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
-            p.logsumexp_ptr = logsumexp.data_ptr();
-        }
-        else
-            p.logsumexp_ptr = nullptr;
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.custom_mask_type = custom_mask_type;
+    p.window_size =
+        window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
+
+    // max_seqlen_q is used to create logsumexp tensor
+    p.max_seqlen_q = *max_seqlen_q_;
+
+    // interesting: the tensors have to be defined here, moving to more local
+    // scope will cause issue
+    at::Tensor dev_seqstart_q;
+    at::Tensor dev_seqstart_k;
+    at::Tensor dev_seqlen_k;
+
+    if (seqstart_q->is_cpu()) {
+      dev_seqstart_q = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+      p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
+      HIP_CALL_CHECK(hipMemcpyAsync(
+          p.seqstart_q_dev_ptr,
+          seqstart_q->data_ptr(),
+          (p.num_batches + 1) * sizeof(int),
+          hipMemcpyHostToDevice,
+          stream));
+    } else
+      p.seqstart_q_dev_ptr = seqstart_q->data_ptr();
+
+    if (seqstart_k->is_cpu()) {
+      dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+
+      p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
+      HIP_CALL_CHECK(hipMemcpyAsync(
+          p.seqstart_k_dev_ptr,
+          seqstart_k->data_ptr(),
+          (p.num_batches + 1) * sizeof(int),
+          hipMemcpyHostToDevice,
+          stream));
+    } else
+      p.seqstart_k_dev_ptr = seqstart_k->data_ptr();
+
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+
+      if (seqlen_k->is_cpu()) {
+        dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
+
+        p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
+        HIP_CALL_CHECK(hipMemcpyAsync(
+            p.seqlen_k_dev_ptr,
+            seqlen_k->data_ptr(),
+            p.num_batches * sizeof(int),
+            hipMemcpyHostToDevice,
+            stream));
+      } else
+        p.seqlen_k_dev_ptr = seqlen_k->data_ptr();
+    } else
+      p.seqlen_k_dev_ptr = nullptr;
+
+    p.use_dropout = use_dropout;
+    p.philox_seed = philox_seed;
+    p.philox_offset = philox_offset;
+    p.compute_logsumexp = compute_logsumexp;
+
+    // the following parameters are only used by training forward
+    if (p.use_dropout) {
+      // p.dropout_prob = static_cast<float>(dropout_p);
+      throw std::runtime_error(
+          "drop-out is currently not implemented by ck-tiled!");
+    } else
+      p.dropout_prob = 0.0f;
+
+    if (p.compute_logsumexp) {
+      logsumexp = at::empty(
+          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+      p.logsumexp_ptr = logsumexp.data_ptr();
+    } else
+      p.logsumexp_ptr = nullptr;
+  };
+
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedForwardParams batched_forward_params;
+
+    set_batched_forward_params(batched_forward_params);
+
+    if (!batched_forward_params.use_dropout &&
+        !batched_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        batched_infer_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_infer_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      if (inDataType == at::ScalarType::Half) {
+        batched_forward_fp16(batched_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        batched_forward_bp16(batched_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+
+      throw std::runtime_error(
+          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
     };
-
-    auto inDataType = query.scalar_type();
-
-    if(!seqstart_q.has_value())
-    { // input is batched
-        BatchedForwardParams batched_forward_params;
-
-        set_batched_forward_params(batched_forward_params);
-
-        if(!batched_forward_params.use_dropout && !batched_forward_params.compute_logsumexp)
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                batched_infer_fp16(batched_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                batched_infer_bp16(batched_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-        }
-        else
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                batched_forward_fp16(batched_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                batched_forward_bp16(batched_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-
-            throw std::runtime_error(
-                "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
-        };
-    }
-    else
-    { // input is grouped
-        GroupedForwardParams grouped_forward_params;
-
-        set_grouped_forward_params(grouped_forward_params);
-
-        if(!grouped_forward_params.use_dropout && !grouped_forward_params.compute_logsumexp)
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                grouped_infer_fp16(grouped_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                grouped_infer_bp16(grouped_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-        }
-        else
-        {
-            if(inDataType == at::ScalarType::Half)
-            {
-                grouped_forward_fp16(grouped_forward_params, stream);
-            }
-            else if(inDataType == at::ScalarType::BFloat16)
-            {
-                grouped_forward_bp16(grouped_forward_params, stream);
-            }
-            else
-                throw std::runtime_error("input data-type is not supported!");
-
-            throw std::runtime_error(
-                "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
-        };
+  } else { // input is grouped
+    GroupedForwardParams grouped_forward_params;
+
+    set_grouped_forward_params(grouped_forward_params);
+
+    if (!grouped_forward_params.use_dropout &&
+        !grouped_forward_params.compute_logsumexp) {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_infer_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_infer_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+    } else {
+      if (inDataType == at::ScalarType::Half) {
+        grouped_forward_fp16(grouped_forward_params, stream);
+      } else if (inDataType == at::ScalarType::BFloat16) {
+        grouped_forward_bp16(grouped_forward_params, stream);
+      } else
+        throw std::runtime_error("input data-type is not supported!");
+
+      throw std::runtime_error(
+          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
     };
+  };
 
-    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m)
-{
-    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
-           TORCH_FN(efficient_attention_forward_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
+      TORCH_FN(efficient_attention_forward_ck));
 }
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 833b152ebd..a7ddb148c4 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -8,8 +8,8 @@
 
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock  = 16;
-constexpr int32_t K_MAX                = 4 * kThreadsPerWavefront;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
 } // namespace
 
 namespace {
@@ -17,195 +17,216 @@ namespace {
 template <typename c10_t>
 struct c10_to_data_t;
 template <>
-struct c10_to_data_t<float>
-{
-    using type = float;
+struct c10_to_data_t<float> {
+  using type = float;
 };
 
 template <>
-struct c10_to_data_t<c10::Half>
-{
-    using type = ck::half_t;
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
 };
 
 template <>
-struct c10_to_data_t<c10::BFloat16>
-{
-    using type = ck::bhalf_t;
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
 };
 } // namespace
 
 #define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-    AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                         \
-    AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                         \
-    AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
 
-#define AT_DISPATCH_SWITCH_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-    AT_DISPATCH_SWITCH(                                                              \
-        TYPE, NAME, AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
 
 namespace {
 
-template <int32_t ThreadsPerWavefront,
-          int32_t WavefrontsPerBlock,
-          int32_t KV_M_MAX = 8192,
-          int32_t K_MAX    = 256>
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock,
+    int32_t KV_M_MAX = 8192,
+    int32_t K_MAX = 256>
 at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int64_t split_k,
     at::Tensor& split_max,
     at::Tensor& split_sumexp,
     at::Tensor& split_O,
-    at::Tensor& O)
-{
-    static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-    static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-    at::OptionalDeviceGuard guard(XQ.device());
-    TORCH_CHECK(XQ.is_cuda());
-    TORCH_CHECK(cache_K.is_cuda());
-    TORCH_CHECK(cache_V.is_cuda());
-
-    TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-    TORCH_CHECK(cache_K.size(1) / split_k <= KV_M_MAX);
-    TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-    constexpr auto rank = 5;
-
-    auto B = XQ.size(0);
-    auto M = XQ.size(1);
-    auto G = XQ.size(2);
-    auto H = XQ.size(3);
-
-    TORCH_CHECK(B <= 1024);
-    TORCH_CHECK(M <= 1024);
-    TORCH_CHECK(H <= 1024);
-
-    dim3 blocks(B * H * M * G, split_k);
-    dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-    int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-    int32_t smem_output  = K_MAX * sizeof(float) *
-                          threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-    const size_t lds_bytes = max(smem_softmax, smem_output);
-    auto stream            = at::cuda::getCurrentHIPStream().stream();
-
-    AT_DISPATCH_SWITCH_3(
-        at::ScalarType::Half,
-        at::ScalarType::BFloat16,
-        at::ScalarType::Float,
-        XQ.scalar_type(),
-        "efficient_attention_forward_decoder_splitk_ck",
-        [&] {
-            using ck_data_t   = c10_to_data_t<scalar_t>::type;
-            using device_op_t = ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t>;
-            auto op           = device_op_t{};
-
-            auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto K_acc  = cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-            auto V_acc  = cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-            auto split_O_acc =
-                split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-            auto O_acc = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto seq_acc_ptr =
-                seq_kv_lens
-                    ? seq_kv_lens->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>().data()
-                    : nullptr;
-            auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-            auto split_sumexp_acc =
-                split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-            auto arg = device_op_t::Argument(
-                reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-                reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-                reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-                reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-                split_max_acc.data(),
-                split_sumexp_acc.data(),
-                seq_acc_ptr,
-                XQ_acc.stride(0),
-                XQ_acc.stride(1),
-                XQ_acc.stride(2),
-                XQ_acc.stride(3),
-                K_acc.stride(0),
-                K_acc.stride(1),
-                K_acc.stride(2),
-                K_acc.stride(3),
-                split_O_acc.stride(0),
-                XQ_acc.size(1),
-                XQ_acc.size(2),
-                XQ_acc.size(3),
-                XQ_acc.size(4),
-                K_acc.size(1),
-                K_acc.size(3) == 1,
-                qk_scale,
-                split_k,
-                blocks,
-                threads,
-                lds_bytes);
-
-            auto invoker = device_op_t::Invoker{};
-            (void)invoker.Run(arg, {stream});
-        });
-
-    return O;
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) / split_k <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_splitk_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc_ptr = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc_ptr,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+
+  return O;
 }
 
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, H or 1, D]
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
-    int64_t split_k)
-{
-    auto O              = at::empty_like(XQ);
-    constexpr auto rank = 5;
-
-    TORCH_CHECK(XQ.dim() == rank);
-    TORCH_CHECK(cache_K.dim() == rank);
-    TORCH_CHECK(cache_V.dim() == rank);
-
-    auto B = XQ.size(0);
-    auto M = XQ.size(1);
-    auto G = XQ.size(2);
-    auto H = XQ.size(3);
-    auto K = XQ.size(4);
-
-    auto O_splits     = at::empty({split_k, B, M, G, H, K}, XQ.options());
-    auto split_max    = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    efficient_attention_forward_decoder_splitk_ck_out_impl<ThreadsPerWavefront, WavefrontsPerBlock>(
-        XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
-
-    return O;
+    int64_t split_k) {
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+
+  TORCH_CHECK(XQ.dim() == rank);
+  TORCH_CHECK(cache_K.dim() == rank);
+  TORCH_CHECK(cache_V.dim() == rank);
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto K = XQ.size(4);
+
+  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  efficient_attention_forward_decoder_splitk_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(
+      XQ,
+      cache_K,
+      cache_V,
+      seq_kv_lens,
+      qk_scale,
+      split_k,
+      split_max,
+      split_sumexp,
+      O_splits,
+      O);
+
+  return O;
 }
 
 at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
-    int64_t split_k)
-{
-    return efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront,
-                                                              kWavefrontsPerBlock>(
-        XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+    int64_t split_k) {
+  return efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(
+      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
 }
 } // namespace
 
-TORCH_LIBRARY_IMPL(xformers, CUDA, m)
-{
-    m.impl(TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_splitk_ck"),
-           TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME(
+          "xformers::efficient_attention_forward_decoder_splitk_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
 }
 
 #ifdef ATTN_FWD_SPLITK_DECODER_MAIN
@@ -241,120 +262,119 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m)
 
 // clang-format on
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor>
-split_attention_torch(const at::Tensor& Q,
-                      const at::Tensor& K,
-                      const at::Tensor& V,
-                      const at::Tensor& k_seqlens,
-                      const int32_t split_k,
-                      const int32_t block_size)
-{
-    auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-    std::vector<at::Tensor> O_splits;
-    std::vector<at::Tensor> m_splits;
-    std::vector<at::Tensor> l_splits;
-
-    for(int32_t split_idx = 0; split_idx < split_k; ++split_idx)
-    {
-        std::vector<at::Tensor> O_batch;
-        std::vector<at::Tensor> m_batch;
-        std::vector<at::Tensor> l_batch;
-
-        for(size_t b = 0; b < k_seqlens.numel(); ++b)
-        {
-            auto seqlen         = k_seqlens[b].item<int64_t>();
-            const int64_t t_low = split_idx * (seqlen / split_k / block_size) * block_size;
-            const int64_t t_high =
-                (split_idx + 1 < split_k)
-                    ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-                    : seqlen;
-
-            const bool empty = t_low == t_high;
-
-            auto S = at::einsum(
-                "mghk, nghk -> mghn",
-                {Q_scaled[b], at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-                /* einsum eval path */ at::nullopt);
-            auto m = empty ? at::empty_like(S)
-                           : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-            auto s = at::exp(at::sub(S, m));
-            auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-            auto O = at::einsum("mghn, nghk -> mghk",
-                                {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-                                /* einsum eval path */ at::nullopt);
-            if(empty)
-            {
-                m = at::empty_like(at::slice(O, -1, 0, 1));
-                l = at::zeros_like(m);
-                m.fill_(ck::NumericLimits<float>::Lowest());
-            }
-            O_batch.push_back(O);
-            m_batch.push_back(m);
-            l_batch.push_back(l);
-        }
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& k_seqlens,
+    const int32_t split_k,
+    const int32_t block_size) {
+  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+
+  std::vector<at::Tensor> O_splits;
+  std::vector<at::Tensor> m_splits;
+  std::vector<at::Tensor> l_splits;
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    std::vector<at::Tensor> O_batch;
+    std::vector<at::Tensor> m_batch;
+    std::vector<at::Tensor> l_batch;
+
+    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+      auto seqlen = k_seqlens[b].item<int64_t>();
+      const int64_t t_low =
+          split_idx * (seqlen / split_k / block_size) * block_size;
+      const int64_t t_high = (split_idx + 1 < split_k)
+          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
+          : seqlen;
+
+      const bool empty = t_low == t_high;
+
+      auto S = at::einsum(
+          "mghk, nghk -> mghn",
+          {Q_scaled[b],
+           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      auto m = empty
+          ? at::empty_like(S)
+          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+      auto s = at::exp(at::sub(S, m));
+      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+      auto O = at::einsum(
+          "mghn, nghk -> mghk",
+          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      if (empty) {
+        m = at::empty_like(at::slice(O, -1, 0, 1));
+        l = at::zeros_like(m);
+        m.fill_(ck::NumericLimits<float>::Lowest());
+      }
+      O_batch.push_back(O);
+      m_batch.push_back(m);
+      l_batch.push_back(l);
+    }
 
-        auto O_cat = at::stack(O_batch);
-        auto m_cat = at::stack(m_batch);
-        auto l_cat = at::stack(l_batch);
+    auto O_cat = at::stack(O_batch);
+    auto m_cat = at::stack(m_batch);
+    auto l_cat = at::stack(l_batch);
 
-        O_splits.push_back(O_cat);
-        m_splits.push_back(m_cat);
-        l_splits.push_back(l_cat);
-    }
+    O_splits.push_back(O_cat);
+    m_splits.push_back(m_cat);
+    l_splits.push_back(l_cat);
+  }
 
-    auto O_cat = at::stack(O_splits);
-    auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-    auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
+  auto O_cat = at::stack(O_splits);
+  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
 
-    return std::make_tuple(O_cat, m_cat, l_cat);
+  return std::make_tuple(O_cat, m_cat, l_cat);
 }
 
-static at::Tensor split_reduce_torch(const at::Tensor& O_splits,
-                                     const at::Tensor& m_splits,
-                                     const at::Tensor& l_splits,
-                                     int32_t split_k)
-{
-    auto O             = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-    auto global_max    = at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-    auto global_sumexp = at::zeros_like(global_max);
-
-    for(int32_t split_idx = 0; split_idx < split_k; ++split_idx)
-    {
-        auto local_O      = at::slice(O_splits, 0, split_idx, split_idx + 1);
-        auto local_max    = at::slice(m_splits, -1, split_idx, split_idx + 1);
-        auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-        auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-        auto alpha     = at::exp(log_alpha);
-        alpha.nan_to_num_(1.);
-
-        auto pick_new          = at::less(local_max, global_max);
-        auto pick_current_coef = at::where(pick_new, 1., alpha);
-        auto pick_new_coef     = at::where(pick_new, alpha, 1.);
-
-        O             = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-        global_sumexp = at::add(at::mul(pick_current_coef, global_sumexp),
-                                at::mul(pick_new_coef, local_sumexp));
-        global_max    = at::max(local_max, global_max);
-    }
-
-    return at::div(O, global_sumexp);
+static at::Tensor split_reduce_torch(
+    const at::Tensor& O_splits,
+    const at::Tensor& m_splits,
+    const at::Tensor& l_splits,
+    int32_t split_k) {
+  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+  auto global_max =
+      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+  auto global_sumexp = at::zeros_like(global_max);
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
+    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
+    auto alpha = at::exp(log_alpha);
+    alpha.nan_to_num_(1.);
+
+    auto pick_new = at::less(local_max, global_max);
+    auto pick_current_coef = at::where(pick_new, 1., alpha);
+    auto pick_new_coef = at::where(pick_new, alpha, 1.);
+
+    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+    global_sumexp = at::add(
+        at::mul(pick_current_coef, global_sumexp),
+        at::mul(pick_new_coef, local_sumexp));
+    global_max = at::max(local_max, global_max);
+  }
+
+  return at::div(O, global_sumexp);
 }
 
 static at::Tensor efficient_attention_forward_decoder_splitk_torch(
-    const at::Tensor& XQ,                 // [B, 1, G, H, D]
-    const at::Tensor& cache_K,            // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V,            // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int32_t split_k,
-    int32_t block_size)
-{
-    auto [O_split, m, l] =
-        split_attention_torch(XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-    auto O = split_reduce_torch(O_split, m, l, split_k);
-    return O.reshape_as(XQ);
+    int32_t block_size) {
+  auto [O_split, m, l] = split_attention_torch(
+      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
+  auto O = split_reduce_torch(O_split, m, l, split_k);
+  return O.reshape_as(XQ);
 }
 
 namespace ck {
@@ -362,769 +382,781 @@ namespace tensor_operation {
 namespace device {
 
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator
-{
-    using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
-    struct Argument : public BaseArgument
-    {
-        const scalar_t* __restrict__ XQ;
-        const scalar_t* __restrict__ cache_K;
-        const scalar_t* __restrict__ cache_V;
-        scalar_t* __restrict__ O;
-        scalar_t* __restrict__ split_O;
-        compute_t* __restrict__ split_max;
-        compute_t* __restrict__ split_sumexp;
-        const int32_t* __restrict__ seq_kv_lens;
-        const ptrdiff_t XQ_stride_b;
-        const ptrdiff_t XQ_stride_m;
-        const ptrdiff_t XQ_stride_g;
-        const ptrdiff_t XQ_stride_h;
-        const ptrdiff_t K_stride_b;
-        const ptrdiff_t K_stride_m;
-        const ptrdiff_t K_stride_g;
-        const ptrdiff_t K_stride_h;
-        const ptrdiff_t O_stride_split;
-        const int32_t Q_size_m;
-        const int32_t Q_size_g;
-        const int32_t Q_size_h;
-        const int32_t Q_size_k;
-        const int32_t K_size_m;
-        const bool multiquery;
-        const float qk_scale;
-        const int32_t split_k;
-
-        const dim3 grid_dim;
-        const dim3 block_dim;
-        const size_t lds_bytes;
-
-        Argument(const scalar_t* __restrict__ XQ,
-                 const scalar_t* __restrict__ cache_K,
-                 const scalar_t* __restrict__ cache_V,
-                 scalar_t* __restrict__ O,
-                 scalar_t* __restrict__ split_O,
-                 compute_t* __restrict__ split_max,
-                 compute_t* __restrict__ split_sumexp,
-                 const int32_t* __restrict__ seq_kv_lens,
-                 const ptrdiff_t XQ_stride_b,
-                 const ptrdiff_t XQ_stride_m,
-                 const ptrdiff_t XQ_stride_g,
-                 const ptrdiff_t XQ_stride_h,
-                 const ptrdiff_t K_stride_b,
-                 const ptrdiff_t K_stride_m,
-                 const ptrdiff_t K_stride_g,
-                 const ptrdiff_t K_stride_h,
-                 const ptrdiff_t O_stride_split,
-                 const int32_t Q_size_m,
-                 const int32_t Q_size_g,
-                 const int32_t Q_size_h,
-                 const int32_t Q_size_k,
-                 const int32_t K_size_m,
-                 const bool multiquery,
-                 const float qk_scale,
-                 const int32_t split_k,
-                 // launch params
-                 const dim3 grid_dim,
-                 const dim3 block_dim,
-                 const size_t lds_bytes)
-            : XQ(XQ),
-              cache_K(cache_K),
-              cache_V(cache_V),
-              O(O),
-              split_O(split_O),
-              split_max(split_max),
-              split_sumexp(split_sumexp),
-              seq_kv_lens(seq_kv_lens),
-              XQ_stride_b(XQ_stride_b),
-              XQ_stride_m(XQ_stride_m),
-              XQ_stride_g(XQ_stride_g),
-              XQ_stride_h(XQ_stride_h),
-              K_stride_b(K_stride_b),
-              K_stride_m(K_stride_m),
-              K_stride_g(K_stride_g),
-              K_stride_h(K_stride_h),
-              O_stride_split(O_stride_split),
-              Q_size_m(Q_size_m),
-              Q_size_g(Q_size_g),
-              Q_size_h(Q_size_h),
-              Q_size_k(Q_size_k),
-              K_size_m(K_size_m),
-              multiquery(multiquery),
-              qk_scale(qk_scale),
-              split_k(split_k),
-              // launch params
-              grid_dim(grid_dim),
-              block_dim(block_dim),
-              lds_bytes(lds_bytes)
-        {
-        }
-
-        std::string str() const
-        {
-            std::ostringstream oss;
-            oss << "Argument { " << std::endl
-                << "    XQ: " << XQ << std::endl
-                << "    cache_K: " << cache_K << std::endl
-                << "    cache_V: " << cache_V << std::endl
-                << "    O: " << O << std::endl
-                << "    split_O: " << split_O << std::endl
-                << "    split_max: " << split_max << std::endl
-                << "    split_sumexp: " << split_sumexp << std::endl
-                << "    seq_kv_lens: " << seq_kv_lens << std::endl
-                << "    XQ_stride_b: " << XQ_stride_b << std::endl
-                << "    XQ_stride_m: " << XQ_stride_m << std::endl
-                << "    XQ_stride_g: " << XQ_stride_g << std::endl
-                << "    XQ_stride_h: " << XQ_stride_h << std::endl
-                << "    K_stride_b: " << K_stride_b << std::endl
-                << "    K_stride_m: " << K_stride_m << std::endl
-                << "    K_stride_g: " << K_stride_g << std::endl
-                << "    K_stride_h: " << K_stride_h << std::endl
-                << "    O_stride_split: " << O_stride_split << std::endl
-                << "    Q_size_m: " << Q_size_m << std::endl
-                << "    Q_size_g: " << Q_size_g << std::endl
-                << "    Q_size_h: " << Q_size_h << std::endl
-                << "    Q_size_k: " << Q_size_k << std::endl
-                << "    K_size_m: " << K_size_m << std::endl
-                << "    multiquery: " << multiquery << std::endl
-                << "    qk_scale: " << qk_scale << std::endl
-                << "    split_k: " << split_k << std::endl
-                << std::endl
-                << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z
-                << std::endl
-                << "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z
-                << std::endl
-                << "    lds_bytes: " << lds_bytes << std::endl
-                << "}";
-            return oss.str();
-        }
-    };
-
-    struct Invoker : public BaseInvoker
-    {
-        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
-        {
-            auto threads_per_wavefront = arg.block_dim.x;
-            auto Q_size_k_alignment_necessary = 0;
-
-            for(auto vec_size : {4, 2, 1})
-            {
-                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
-                {
-                    Q_size_k_alignment_necessary = vec_size;
-                }
-            }
-
-            if(!Q_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported Q_size_k");
-            }
-
-            if(arg.Q_size_k % Q_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported alignment for Q_size_k");
-            }
-
-            float split_attention_result = launch_and_time_kernel(
-                stream_config,
-                Q_size_k_alignment_necessary == 4
-                    ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
-                    : Q_size_k_alignment_necessary == 2
-                          ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
-                          : Q_size_k_alignment_necessary == 1
-                                ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
-                                : nullptr,
-                arg.grid_dim,
-                arg.block_dim,
-                arg.lds_bytes,
-                arg.XQ,
-                arg.cache_K,
-                arg.cache_V,
-                arg.split_O,
-                arg.split_max,
-                arg.split_sumexp,
-                arg.seq_kv_lens,
-                arg.XQ_stride_b,
-                arg.XQ_stride_m,
-                arg.XQ_stride_g,
-                arg.XQ_stride_h,
-                arg.K_stride_b,
-                arg.K_stride_m,
-                arg.K_stride_g,
-                arg.K_stride_h,
-                arg.O_stride_split,
-                arg.Q_size_m,
-                arg.Q_size_g,
-                arg.Q_size_h,
-                arg.Q_size_k,
-                arg.K_size_m,
-                arg.multiquery,
-                arg.qk_scale,
-                arg.split_k);
-
-            return split_attention_result;
+struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
         }
-    };
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    4>
+              : Q_size_k_alignment_necessary == 2
+                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                        scalar_t,
+                        2>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+      return split_attention_result;
+    }
+  };
 };
 
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitReduceDeviceOp : public BaseOperator
-{
-    using DeviceOp = FMHADecoderSplitReduceDeviceOp;
-    struct Argument : public BaseArgument
-    {
-        const scalar_t* __restrict__ split_O;
-        const compute_t* __restrict__ split_max;
-        const compute_t* __restrict__ split_sumexp;
-        scalar_t* __restrict__ O;
-
-        const int32_t O_size_m;
-        const int32_t O_size_g;
-        const int32_t O_size_h;
-        const int32_t O_size_k;
-
-        const ptrdiff_t O_stride_split;
-        const ptrdiff_t O_stride_b;
-        const ptrdiff_t O_stride_m;
-        const ptrdiff_t O_stride_g;
-        const ptrdiff_t O_stride_h;
-
-        const int32_t split_k;
-
-        const dim3 grid_dim;
-        const dim3 block_dim;
-        const size_t lds_bytes;
-
-        Argument(const scalar_t* __restrict__ split_O,
-                 const compute_t* __restrict__ split_max,
-                 const compute_t* __restrict__ split_sumexp,
-                 scalar_t* __restrict__ O,
-                 const int32_t O_size_m,
-                 const int32_t O_size_g,
-                 const int32_t O_size_h,
-                 const int32_t O_size_k,
-                 const ptrdiff_t O_stride_split,
-                 const ptrdiff_t O_stride_b,
-                 const ptrdiff_t O_stride_m,
-                 const ptrdiff_t O_stride_g,
-                 const ptrdiff_t O_stride_h,
-                 const int32_t split_k,
-                 // launch params
-                 const dim3 grid_dim,
-                 const dim3 block_dim,
-                 const size_t lds_bytes)
-            : split_O(split_O),
-              split_max(split_max),
-              split_sumexp(split_sumexp),
-              O(O),
-              O_size_m(O_size_m),
-              O_size_g(O_size_g),
-              O_size_h(O_size_h),
-              O_size_k(O_size_k),
-              O_stride_split(O_stride_split),
-              O_stride_b(O_stride_b),
-              O_stride_m(O_stride_m),
-              O_stride_g(O_stride_g),
-              O_stride_h(O_stride_h),
-              split_k(split_k),
-              // launch params
-              grid_dim(grid_dim),
-              block_dim(block_dim),
-              lds_bytes(lds_bytes)
-        {
-        }
-
-        std::string str() const
-        {
-            std::ostringstream oss;
-            oss << "Argument { " << std::endl
-                << "    O: " << O << std::endl
-                << "    split_O: " << split_O << std::endl
-                << "    split_max: " << split_max << std::endl
-                << "    split_sumexp: " << split_sumexp << std::endl
-                << "    O_stride_b: " << O_stride_b << std::endl
-                << "    O_stride_m: " << O_stride_m << std::endl
-                << "    O_stride_g: " << O_stride_g << std::endl
-                << "    O_stride_h: " << O_stride_h << std::endl
-                << "    O_stride_split: " << O_stride_split << std::endl
-                << "    O_size_m: " << O_size_m << std::endl
-                << "    O_size_g: " << O_size_g << std::endl
-                << "    O_size_h: " << O_size_h << std::endl
-                << "    O_size_k: " << O_size_k << std::endl
-                << "    split_k: " << split_k << std::endl
-                << std::endl
-                << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z
-                << std::endl
-                << "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z
-                << std::endl
-                << "    lds_bytes: " << lds_bytes << std::endl
-                << "}";
-            return oss.str();
-        }
-    };
-
-    struct Invoker : public BaseInvoker
-    {
-        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
-        {
-            auto threads_per_wavefront = arg.block_dim.x;
-            auto O_size_k_alignment_necessary = 0;
-
-            for(auto vec_size : {4, 2, 1})
-            {
-                if(arg.O_size_k <= vec_size * threads_per_wavefront)
-                {
-                    O_size_k_alignment_necessary = vec_size;
-                }
-            }
-
-            if(!O_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported O_size_k");
-            }
-
-            if(arg.O_size_k % O_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported alignment for O_size_k");
-            }
-
-            const dim3 reduce_gridsize         = {arg.grid_dim.x};
-            const dim3 reduce_blocksize        = {arg.block_dim.x};
-            constexpr int32_t reduce_lds_bytes = 0;
-            float reduce_result                = launch_and_time_kernel(
-                stream_config,
-                O_size_k_alignment_necessary == 4
-                    ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
-                    : O_size_k_alignment_necessary == 2
-                          ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
-                          : O_size_k_alignment_necessary == 1
-                                ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                                      scalar_t,
-                                      1>
-                                : nullptr,
-                reduce_gridsize,
-                reduce_blocksize,
-                reduce_lds_bytes,
-                arg.split_O,
-                arg.split_max,
-                arg.split_sumexp,
-                arg.O,
-                arg.O_size_m,
-                arg.O_size_g,
-                arg.O_size_h,
-                arg.O_size_k,
-                arg.O_stride_split,
-                arg.O_stride_b,
-                arg.O_stride_m,
-                arg.O_stride_g,
-                arg.O_stride_h,
-                arg.split_k);
-            return reduce_result;
+struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ split_O;
+    const compute_t* __restrict__ split_max;
+    const compute_t* __restrict__ split_sumexp;
+    scalar_t* __restrict__ O;
+
+    const int32_t O_size_m;
+    const int32_t O_size_g;
+    const int32_t O_size_h;
+    const int32_t O_size_k;
+
+    const ptrdiff_t O_stride_split;
+    const ptrdiff_t O_stride_b;
+    const ptrdiff_t O_stride_m;
+    const ptrdiff_t O_stride_g;
+    const ptrdiff_t O_stride_h;
+
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ split_O,
+        const compute_t* __restrict__ split_max,
+        const compute_t* __restrict__ split_sumexp,
+        scalar_t* __restrict__ O,
+        const int32_t O_size_m,
+        const int32_t O_size_g,
+        const int32_t O_size_h,
+        const int32_t O_size_k,
+        const ptrdiff_t O_stride_split,
+        const ptrdiff_t O_stride_b,
+        const ptrdiff_t O_stride_m,
+        const ptrdiff_t O_stride_g,
+        const ptrdiff_t O_stride_h,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          O(O),
+          O_size_m(O_size_m),
+          O_size_g(O_size_g),
+          O_size_h(O_size_h),
+          O_size_k(O_size_k),
+          O_stride_split(O_stride_split),
+          O_stride_b(O_stride_b),
+          O_stride_m(O_stride_m),
+          O_stride_g(O_stride_g),
+          O_stride_h(O_stride_h),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    O_stride_b: " << O_stride_b << std::endl
+          << "    O_stride_m: " << O_stride_m << std::endl
+          << "    O_stride_g: " << O_stride_g << std::endl
+          << "    O_stride_h: " << O_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    O_size_m: " << O_size_m << std::endl
+          << "    O_size_g: " << O_size_g << std::endl
+          << "    O_size_h: " << O_size_h << std::endl
+          << "    O_size_k: " << O_size_k << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto O_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
+          O_size_k_alignment_necessary = vec_size;
         }
-    };
+      }
+
+      if (!O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported O_size_k");
+      }
+
+      if (arg.O_size_k % O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for O_size_k");
+      }
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          O_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : O_size_k_alignment_necessary == 2
+                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                        scalar_t,
+                        2>
+                  : O_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.O_size_m,
+          arg.O_size_g,
+          arg.O_size_h,
+          arg.O_size_k,
+          arg.O_stride_split,
+          arg.O_stride_b,
+          arg.O_stride_m,
+          arg.O_stride_g,
+          arg.O_stride_h,
+          arg.split_k);
+      return reduce_result;
+    }
+  };
 };
 } // namespace device
 } // namespace tensor_operation
 } // namespace ck
 
-static std::tuple<at::Tensor, at::Tensor, at::Tensor>
-split_attention_hip(const at::Tensor& XQ,
-                    const at::Tensor& K,
-                    const at::Tensor& V,
-                    const at::Tensor& seqlen,
-                    const int32_t split_k,
-                    const int32_t wavefronts_per_block)
-{
-
-    at::OptionalDeviceGuard guard(XQ.device());
-
-    auto B = XQ.size(0);
-    auto M = XQ.size(1);
-    auto G = XQ.size(2);
-    auto H = XQ.size(3);
-    auto D = XQ.size(4);
-
-    double qk_scale = 1. / sqrt(D);
-
-    auto O              = at::empty_like(XQ);
-    constexpr auto rank = 5;
-    auto split_O        = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-    auto split_max      = at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-                         .fill_(ck::NumericLimits<float>::Lowest());
-    auto split_sumexp = at::zeros_like(split_max);
-
-    dim3 blocks(B * H * M * G, split_k);
-    dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
-
-    constexpr int32_t KV_M_MAX = 8192;
-    constexpr int32_t K_MAX    = 4 * kThreadsPerWavefront;
-
-    int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-    int32_t smem_output  = K_MAX * sizeof(float) *
-                          threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-    const size_t lds_bytes = max(smem_softmax, smem_output);
-    auto stream            = at::cuda::getCurrentHIPStream().stream();
-
-    AT_DISPATCH_SWITCH_3(
-        at::ScalarType::Half,
-        at::ScalarType::BFloat16,
-        at::ScalarType::Float,
-        XQ.scalar_type(),
-        "efficient_attention_forward_decoder_split_attention_ck_test",
-        [&] {
-            using ck_data_t = c10_to_data_t<scalar_t>::type;
-            using device_op_t =
-                ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<ck_data_t>;
-            auto op = device_op_t{};
-
-            auto XQ_acc = XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto K_acc  = K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-            auto V_acc  = V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-            auto split_O_acc =
-                split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-            auto O_acc         = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto seq_acc       = seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-            auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-            auto split_sumexp_acc =
-                split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-            auto arg = device_op_t::Argument(
-                reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-                reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-                reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-                reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-                split_max_acc.data(),
-                split_sumexp_acc.data(),
-                seq_acc.data(),
-                XQ_acc.stride(0),
-                XQ_acc.stride(1),
-                XQ_acc.stride(2),
-                XQ_acc.stride(3),
-                K_acc.stride(0),
-                K_acc.stride(1),
-                K_acc.stride(2),
-                K_acc.stride(3),
-                split_O_acc.stride(0),
-                XQ_acc.size(1),
-                XQ_acc.size(2),
-                XQ_acc.size(3),
-                XQ_acc.size(4),
-                K_acc.size(1),
-                K_acc.size(3) == 1,
-                qk_scale,
-                split_k,
-                blocks,
-                threads,
-                lds_bytes);
-
-            auto invoker = device_op_t::Invoker{};
-            (void)invoker.Run(arg, {stream});
-        });
-    return std::make_tuple(split_O, split_max, split_sumexp);
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
+    const at::Tensor& XQ,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& seqlen,
+    const int32_t split_k,
+    const int32_t wavefronts_per_block) {
+  at::OptionalDeviceGuard guard(XQ.device());
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto D = XQ.size(4);
+
+  double qk_scale = 1. / sqrt(D);
+
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+          .fill_(ck::NumericLimits<float>::Lowest());
+  auto split_sumexp = at::zeros_like(split_max);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
+
+  constexpr int32_t KV_M_MAX = 8192;
+  constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_split_attention_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc =
+            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return std::make_tuple(split_O, split_max, split_sumexp);
 }
 
-static at::Tensor split_reduce_hip(const at::Tensor& split_O,
-                                   const at::Tensor& split_max,
-                                   const at::Tensor& split_sumexp,
-                                   const int32_t split_k)
-{
-    at::OptionalDeviceGuard guard(split_O.device());
-
-    auto B = split_O.size(1);
-    auto M = split_O.size(2);
-    auto G = split_O.size(3);
-    auto H = split_O.size(4);
-    auto D = split_O.size(5);
-
-    TORCH_CHECK_EQ(split_k, split_O.size(0));
-    TORCH_CHECK_EQ(split_k, split_max.size(-1));
-    TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
-
-    constexpr auto rank = 5;
-
-    TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
-    TORCH_CHECK_EQ(split_max.dim(), rank);
-    TORCH_CHECK_EQ(split_sumexp.dim(), rank);
-
-    auto O = at::zeros({B, M, G, H, D}, split_O.options());
-
-    auto stream    = at::cuda::getCurrentHIPStream().stream();
-    auto lds_bytes = 0;
-
-    dim3 blocks(B * H * M * G);
-    dim3 threads(kThreadsPerWavefront);
-
-    AT_DISPATCH_SWITCH_3(
-        at::ScalarType::Half,
-        at::ScalarType::BFloat16,
-        at::ScalarType::Float,
-        O.scalar_type(),
-        "efficient_attention_forward_decoder_split_reduce_ck_test",
-        [&] {
-            using ck_data_t = c10_to_data_t<scalar_t>::type;
-            using device_op_t =
-                ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<ck_data_t>;
-            auto op = device_op_t{};
-
-            auto split_O_acc =
-                split_O.packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-            auto O_acc         = O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-            auto split_max_acc = split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-            auto split_sumexp_acc =
-                split_sumexp.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-            auto arg = device_op_t::Argument(
-                reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
-                split_max_acc.data(),
-                split_sumexp_acc.data(),
-                reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-                O_acc.size(1),
-                O_acc.size(2),
-                O_acc.size(3),
-                O_acc.size(4),
-                split_O_acc.stride(0),
-                O_acc.stride(0),
-                O_acc.stride(1),
-                O_acc.stride(2),
-                O_acc.stride(3),
-                split_k,
-                blocks,
-                threads,
-                lds_bytes);
-
-            auto invoker = device_op_t::Invoker{};
-            (void)invoker.Run(arg, {stream});
-        });
-    return O;
+static at::Tensor split_reduce_hip(
+    const at::Tensor& split_O,
+    const at::Tensor& split_max,
+    const at::Tensor& split_sumexp,
+    const int32_t split_k) {
+  at::OptionalDeviceGuard guard(split_O.device());
+
+  auto B = split_O.size(1);
+  auto M = split_O.size(2);
+  auto G = split_O.size(3);
+  auto H = split_O.size(4);
+  auto D = split_O.size(5);
+
+  TORCH_CHECK_EQ(split_k, split_O.size(0));
+  TORCH_CHECK_EQ(split_k, split_max.size(-1));
+  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
+
+  constexpr auto rank = 5;
+
+  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
+  TORCH_CHECK_EQ(split_max.dim(), rank);
+  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
+
+  auto O = at::zeros({B, M, G, H, D}, split_O.options());
+
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto lds_bytes = 0;
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(kThreadsPerWavefront);
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      O.scalar_type(),
+      "efficient_attention_forward_decoder_split_reduce_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            O_acc.size(1),
+            O_acc.size(2),
+            O_acc.size(3),
+            O_acc.size(4),
+            split_O_acc.stride(0),
+            O_acc.stride(0),
+            O_acc.stride(1),
+            O_acc.stride(2),
+            O_acc.stride(3),
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return O;
 }
 
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
-generate_inputs(const int32_t padding,
-                const int32_t B,
-                const int32_t Hq,
-                const int32_t Hkv,
-                const decltype(torch::kFloat32) dtype = torch::kFloat32)
-{
-    const int32_t D           = 4 * kThreadsPerWavefront;
-    const int32_t G           = Hq / Hkv;
-    const int32_t num_queries = 1;
-
-    at::manual_seed(1);
-
-    auto options = torch::TensorOptions()
-                       .dtype(dtype)
-                       .layout(torch::kStrided)
-                       .device(torch::kCUDA, 1)
-                       .requires_grad(false);
-    auto int_options = options.dtype(torch::kInt);
-    auto XQ          = at::randn({B, num_queries, G, Hq, D}, options);
-    auto K           = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
-                      : at::randn({B, padding, G, 1, D}, options).expand({B, padding, G, Hq, D});
-    auto V      = at::randn_like(K);
-    auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
-
-    return std::make_tuple(XQ, K, V, seqlen);
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
+    const int32_t padding,
+    const int32_t B,
+    const int32_t Hq,
+    const int32_t Hkv,
+    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t G = Hq / Hkv;
+  const int32_t num_queries = 1;
+
+  at::manual_seed(1);
+
+  auto options = torch::TensorOptions()
+                     .dtype(dtype)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
+                    : at::randn({B, padding, G, 1, D}, options)
+                          .expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
+  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
+
+  return std::make_tuple(XQ, K, V, seqlen);
 }
 
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b)
-{
-    auto mask          = at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-    auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-    return 1. - percent_match.item<float>();
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
+  auto mask =
+      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  return 1. - percent_match.item<float>();
 }
 
-static void
-test_split_attention(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
-{
-    auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-    auto [O_ref, m_ref, l_ref] =
-        split_attention_torch(XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
-
-    auto [O_hip, m_hip, l_hip] =
-        split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-    auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
-    auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
-    auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
-
-    printf("[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
-           "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
-           "split_sumexp elements percentage: %.2f\n",
-           padding,
-           batch_size,
-           Hq,
-           Hkv,
-           split_k,
-           O_percent_mismatch,
-           m_percent_mismatch,
-           l_percent_mismatch);
+static void test_split_attention(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] = split_attention_torch(
+      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
+
+  auto [O_hip, m_hip, l_hip] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
+  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
+  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
+
+  printf(
+      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
+      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
+      "split_sumexp elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      O_percent_mismatch,
+      m_percent_mismatch,
+      l_percent_mismatch);
 }
 
-static void
-test_split_reduce(int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
-{
-    auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-    auto [O_ref, m_ref, l_ref] =
-        split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-    auto O_torch = split_reduce_torch(O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-    auto O_hip   = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
-
-    auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-    printf("[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
-           "percentage: %.2f \n",
-           padding,
-           batch_size,
-           Hq,
-           Hkv,
-           split_k,
-           hip_torch_mismatch);
+static void test_split_reduce(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_torch = split_reduce_torch(
+      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
+  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
+
+  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
+  printf(
+      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
+      "percentage: %.2f \n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      hip_torch_mismatch);
 }
 
 static void test_splitk_decoder_e2e_correctness(
-    int32_t padding, int32_t batch_size, int32_t Hq, int32_t Hkv, int32_t split_k)
-{
-    auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-    double qk_scale = 1. / sqrt(XQ.size(-1));
-
-    auto result = efficient_attention_forward_decoder_splitk_ck_impl<kThreadsPerWavefront,
-                                                                     kWavefrontsPerBlock>(
-        XQ, K, V, seqlen, qk_scale, split_k);
-    auto gold_result = efficient_attention_forward_decoder_splitk_torch(
-        XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
-    auto e2e_mismatch = percent_mismatch(result, gold_result);
-    printf("[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
-           "elements percentage: %.2f\n",
-           padding,
-           batch_size,
-           Hq,
-           Hkv,
-           split_k,
-           e2e_mismatch);
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  double qk_scale = 1. / sqrt(XQ.size(-1));
+
+  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
+      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
+  auto e2e_mismatch = percent_mismatch(result, gold_result);
+  printf(
+      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
+      "elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      e2e_mismatch);
 }
 
-int main(int argc, char** argv)
-{
-    if(argc == 1)
-    {
-        for(auto padding : {32, 4096})
-        {
-            for(auto batch_size : {1, 8})
-            {
-                for(auto Hq : {16})
-                {
-                    for(auto Hkv : {16})
-                    {
-                        for(auto split_k : {1, 2, 4, 8, 16})
-                        {
-                            test_splitk_decoder_e2e_correctness(
-                                padding, batch_size, Hq, Hkv, split_k);
-                        }
-                    }
-                }
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_splitk_decoder_e2e_correctness(
+                  padding, batch_size, Hq, Hkv, split_k);
             }
+          }
         }
+      }
+    }
 
-        for(auto padding : {32, 4096})
-        {
-            for(auto batch_size : {1, 8})
-            {
-                for(auto Hq : {16})
-                {
-                    for(auto Hkv : {16})
-                    {
-                        for(auto split_k : {1, 2, 4, 8, 16})
-                        {
-                            test_split_attention(padding, batch_size, Hq, Hkv, split_k);
-                        }
-                    }
-                }
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
             }
+          }
         }
+      }
+    }
 
-        for(auto padding : {32, 4096})
-        {
-            for(auto batch_size : {1, 8})
-            {
-                for(auto Hq : {16})
-                {
-                    for(auto Hkv : {16})
-                    {
-                        for(auto split_k : {1, 2})
-                        {
-                            test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
-                        }
-                    }
-                }
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2}) {
+              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
             }
+          }
         }
+      }
     }
-    else
-    {
-        const auto args = std::vector<std::string>(argv + 1, argv + argc);
-        if(args.size() != 6)
-        {
-            std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
-                         "n_wavefronts_per_block"
-                      << std::endl;
-            return 0;
-        }
-        const int32_t padding    = std::stoi(args[0]);
-        const int32_t batch_size = std::stoi(args[1]);
-        const int32_t nq_heads   = std::stoi(args[2]);
-        const int32_t nkv_heads  = std::stoi(args[3]);
-        const auto dtype         = (args[4] == "f32")
-                               ? torch::kFloat32
-                               : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
-        const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-        auto [Q, K, V, seq] = generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-        auto O              = at::empty_like(Q);
-
-        constexpr auto splitk_dim = 0;
-        constexpr auto split_k    = 1;
-        auto O_splits             = at::stack(O, splitk_dim);
-
-        auto split_max    = at::empty({batch_size, padding, Q.size(2), Q.size(3), split_k},
-                                   Q.options().dtype(at::kFloat));
-        auto split_sumexp = at::empty_like(split_max);
-
-        const double qk_scale = 1. / sqrt(Q.size(-1));
-        auto call_ptr         = decltype(
-            &efficient_attention_forward_decoder_splitk_ck_out_impl<kThreadsPerWavefront,
-                                                                    kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                                              \
-    case(n):                                                                                    \
-        call_ptr =                                                                              \
-            &efficient_attention_forward_decoder_splitk_ck_out_impl<kThreadsPerWavefront, (n)>; \
-        break;
-
-        switch(n_wavefronts_per_block)
-        {
-            SWITCH_CASE_SET_CALLPTR(1);
-            SWITCH_CASE_SET_CALLPTR(2);
-            SWITCH_CASE_SET_CALLPTR(4);
-            SWITCH_CASE_SET_CALLPTR(8);
-            SWITCH_CASE_SET_CALLPTR(16);
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 6) {
+      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
+                   "n_wavefronts_per_block"
+                << std::endl;
+      return 0;
+    }
+    const int32_t padding = std::stoi(args[0]);
+    const int32_t batch_size = std::stoi(args[1]);
+    const int32_t nq_heads = std::stoi(args[2]);
+    const int32_t nkv_heads = std::stoi(args[3]);
+    const auto dtype = (args[4] == "f32")
+        ? torch::kFloat32
+        : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+    auto [Q, K, V, seq] =
+        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
+    auto O = at::empty_like(Q);
+
+    constexpr auto splitk_dim = 0;
+    constexpr auto split_k = 1;
+    auto O_splits = at::stack(O, splitk_dim);
+
+    auto split_max = at::empty(
+        {batch_size, padding, Q.size(2), Q.size(3), split_k},
+        Q.options().dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
 
-        default: call_ptr = nullptr; break;
-        }
+    const double qk_scale = 1. / sqrt(Q.size(-1));
+    auto call_ptr =
+        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
+                 kThreadsPerWavefront,
+                 kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                      \
+  case (n):                                                             \
+    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
+        kThreadsPerWavefront,                                           \
+        (n)>;                                                           \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
 #undef SWITCH_CASE_SET_CALLPTR
 
-        if(call_ptr)
-        {
-            call_ptr(Q, K, V, seq, qk_scale, split_k, split_max, split_sumexp, O_splits, O);
-        }
-        else
-        {
-            std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                      << n_wavefronts_per_block << std::endl;
-        }
+    if (call_ptr) {
+      call_ptr(
+          Q,
+          K,
+          V,
+          seq,
+          qk_scale,
+          split_k,
+          split_max,
+          split_sumexp,
+          O_splits,
+          O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
     }
-    return 0;
+  }
+  return 0;
 }
 
 #endif // MAIN
diff --git a/xformers/csrc/attention/hip_fmha/ck_align_switch.h b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
index f3dd9dbbe5..9e7228355a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_align_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
@@ -9,163 +9,143 @@
 #include <stdexcept>
 
 // assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_1(CONST_ALIGN_MAX1, CONST_ALIGN_NAME1, LENGTH1, ...)                       \
-    [&] {                                                                                       \
-        if constexpr(CONST_ALIGN_MAX1 > 0)                                                      \
-        {                                                                                       \
-            if(LENGTH1 % CONST_ALIGN_MAX1 == 0)                                                 \
-            {                                                                                   \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;                     \
-                __VA_ARGS__();                                                                  \
-            }                                                                                   \
-            else                                                                                \
-            {                                                                                   \
-                if constexpr(CONST_ALIGN_MAX1 / 2 > 0)                                          \
-                {                                                                               \
-                    if(LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0)                                   \
-                    {                                                                           \
-                        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;         \
-                        __VA_ARGS__();                                                          \
-                    }                                                                           \
-                    else                                                                        \
-                    {                                                                           \
-                        if constexpr(CONST_ALIGN_MAX1 / 4 > 0)                                  \
-                        {                                                                       \
-                            if(LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0)                           \
-                            {                                                                   \
-                                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 4; \
-                                __VA_ARGS__();                                                  \
-                            }                                                                   \
-                            else                                                                \
-                            {                                                                   \
-                                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                    \
-                                __VA_ARGS__();                                                  \
-                            };                                                                  \
-                        }                                                                       \
-                    };                                                                          \
-                }                                                                               \
-            };                                                                                  \
-        }                                                                                       \
-    }()
+#define ALIGN_SWITCH_1(CONST_ALIGN_MAX1, CONST_ALIGN_NAME1, LENGTH1, ...)   \
+  [&] {                                                                     \
+    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
+      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
+        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
+        __VA_ARGS__();                                                      \
+      } else {                                                              \
+        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
+          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
+            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
+            __VA_ARGS__();                                                  \
+          } else {                                                          \
+            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
+              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
+                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
+                    CONST_ALIGN_MAX1 / 4;                                   \
+                __VA_ARGS__();                                              \
+              } else {                                                      \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
+                __VA_ARGS__();                                              \
+              };                                                            \
+            }                                                               \
+          };                                                                \
+        }                                                                   \
+      };                                                                    \
+    }                                                                       \
+  }()
 
 // assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_2(CONST_ALIGN_MAX1,                                                          \
-                       CONST_ALIGN_NAME1,                                                         \
-                       LENGTH1,                                                                   \
-                       CONST_ALIGN_MAX2,                                                          \
-                       CONST_ALIGN_NAME2,                                                         \
-                       LENGTH2,                                                                   \
-                       ...)                                                                       \
-    [&] {                                                                                         \
-        if constexpr(CONST_ALIGN_MAX1 > 0)                                                        \
-        {                                                                                         \
-            if(LENGTH1 % CONST_ALIGN_MAX1 == 0)                                                   \
-            {                                                                                     \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;                       \
-                ALIGN_SWITCH_1(CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);      \
-            }                                                                                     \
-            else                                                                                  \
-            {                                                                                     \
-                if constexpr(CONST_ALIGN_MAX1 / 2 > 0)                                            \
-                {                                                                                 \
-                    if(LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0)                                     \
-                    {                                                                             \
-                        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;           \
-                        ALIGN_SWITCH_1(                                                           \
-                            CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);         \
-                    }                                                                             \
-                    else                                                                          \
-                    {                                                                             \
-                        if constexpr(CONST_ALIGN_MAX1 / 4 > 0)                                    \
-                        {                                                                         \
-                            if(LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0)                             \
-                            {                                                                     \
-                                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 4;   \
-                                ALIGN_SWITCH_1(                                                   \
-                                    CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
-                            }                                                                     \
-                            else                                                                  \
-                            {                                                                     \
-                                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                      \
-                                ALIGN_SWITCH_1(                                                   \
-                                    CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
-                            };                                                                    \
-                        }                                                                         \
-                    };                                                                            \
-                }                                                                                 \
-            };                                                                                    \
-        }                                                                                         \
-    }()
+#define ALIGN_SWITCH_2(                                                       \
+    CONST_ALIGN_MAX1,                                                         \
+    CONST_ALIGN_NAME1,                                                        \
+    LENGTH1,                                                                  \
+    CONST_ALIGN_MAX2,                                                         \
+    CONST_ALIGN_NAME2,                                                        \
+    LENGTH2,                                                                  \
+    ...)                                                                      \
+  [&] {                                                                       \
+    if constexpr (CONST_ALIGN_MAX1 > 0) {                                     \
+      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                  \
+        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;           \
+        ALIGN_SWITCH_1(                                                       \
+            CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);     \
+      } else {                                                                \
+        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                             \
+          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                        \
+            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;   \
+            ALIGN_SWITCH_1(                                                   \
+                CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
+          } else {                                                            \
+            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                         \
+              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                    \
+                constexpr ck::index_t CONST_ALIGN_NAME1 =                     \
+                    CONST_ALIGN_MAX1 / 4;                                     \
+                ALIGN_SWITCH_1(                                               \
+                    CONST_ALIGN_MAX2,                                         \
+                    CONST_ALIGN_NAME2,                                        \
+                    LENGTH2,                                                  \
+                    ##__VA_ARGS__);                                           \
+              } else {                                                        \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                  \
+                ALIGN_SWITCH_1(                                               \
+                    CONST_ALIGN_MAX2,                                         \
+                    CONST_ALIGN_NAME2,                                        \
+                    LENGTH2,                                                  \
+                    ##__VA_ARGS__);                                           \
+              };                                                              \
+            }                                                                 \
+          };                                                                  \
+        }                                                                     \
+      };                                                                      \
+    }                                                                         \
+  }()
 
 // assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_3(CONST_ALIGN_MAX1,                                                        \
-                       CONST_ALIGN_NAME1,                                                       \
-                       LENGTH1,                                                                 \
-                       CONST_ALIGN_MAX2,                                                        \
-                       CONST_ALIGN_NAME2,                                                       \
-                       LENGTH2,                                                                 \
-                       CONST_ALIGN_MAX3,                                                        \
-                       CONST_ALIGN_NAME3,                                                       \
-                       LENGTH3,                                                                 \
-                       ...)                                                                     \
-    [&] {                                                                                       \
-        if constexpr(CONST_ALIGN_MAX1 > 0)                                                      \
-        {                                                                                       \
-            if(LENGTH1 % CONST_ALIGN_MAX1 == 0)                                                 \
-            {                                                                                   \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;                     \
-                ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                                \
-                               CONST_ALIGN_NAME2,                                               \
-                               LENGTH2,                                                         \
-                               CONST_ALIGN_MAX3,                                                \
-                               CONST_ALIGN_NAME3,                                               \
-                               LENGTH3,                                                         \
-                               ##__VA_ARGS__);                                                  \
-            }                                                                                   \
-            else                                                                                \
-            {                                                                                   \
-                if constexpr(CONST_ALIGN_MAX1 / 2 > 0)                                          \
-                {                                                                               \
-                    if(LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0)                                   \
-                    {                                                                           \
-                        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;         \
-                        ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                        \
-                                       CONST_ALIGN_NAME2,                                       \
-                                       LENGTH2,                                                 \
-                                       CONST_ALIGN_MAX3,                                        \
-                                       CONST_ALIGN_NAME3,                                       \
-                                       LENGTH3,                                                 \
-                                       ##__VA_ARGS__);                                          \
-                    }                                                                           \
-                    else                                                                        \
-                    {                                                                           \
-                        if constexpr(CONST_ALIGN_MAX1 / 4 > 0)                                  \
-                        {                                                                       \
-                            if(LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0)                           \
-                            {                                                                   \
-                                constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 4; \
-                                ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                \
-                                               CONST_ALIGN_NAME2,                               \
-                                               LENGTH2,                                         \
-                                               CONST_ALIGN_MAX3,                                \
-                                               CONST_ALIGN_NAME3,                               \
-                                               LENGTH3,                                         \
-                                               ##__VA_ARGS__);                                  \
-                            }                                                                   \
-                            else                                                                \
-                            {                                                                   \
-                                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                    \
-                                ALIGN_SWITCH_2(CONST_ALIGN_MAX2,                                \
-                                               CONST_ALIGN_NAME2,                               \
-                                               LENGTH2,                                         \
-                                               CONST_ALIGN_MAX3,                                \
-                                               CONST_ALIGN_NAME3,                               \
-                                               LENGTH3,                                         \
-                                               ##__VA_ARGS__);                                  \
-                            };                                                                  \
-                        }                                                                       \
-                    };                                                                          \
-                }                                                                               \
-            };                                                                                  \
-        }                                                                                       \
-    }()
+#define ALIGN_SWITCH_3(                                                     \
+    CONST_ALIGN_MAX1,                                                       \
+    CONST_ALIGN_NAME1,                                                      \
+    LENGTH1,                                                                \
+    CONST_ALIGN_MAX2,                                                       \
+    CONST_ALIGN_NAME2,                                                      \
+    LENGTH2,                                                                \
+    CONST_ALIGN_MAX3,                                                       \
+    CONST_ALIGN_NAME3,                                                      \
+    LENGTH3,                                                                \
+    ...)                                                                    \
+  [&] {                                                                     \
+    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
+      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
+        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
+        ALIGN_SWITCH_2(                                                     \
+            CONST_ALIGN_MAX2,                                               \
+            CONST_ALIGN_NAME2,                                              \
+            LENGTH2,                                                        \
+            CONST_ALIGN_MAX3,                                               \
+            CONST_ALIGN_NAME3,                                              \
+            LENGTH3,                                                        \
+            ##__VA_ARGS__);                                                 \
+      } else {                                                              \
+        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
+          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
+            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
+            ALIGN_SWITCH_2(                                                 \
+                CONST_ALIGN_MAX2,                                           \
+                CONST_ALIGN_NAME2,                                          \
+                LENGTH2,                                                    \
+                CONST_ALIGN_MAX3,                                           \
+                CONST_ALIGN_NAME3,                                          \
+                LENGTH3,                                                    \
+                ##__VA_ARGS__);                                             \
+          } else {                                                          \
+            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
+              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
+                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
+                    CONST_ALIGN_MAX1 / 4;                                   \
+                ALIGN_SWITCH_2(                                             \
+                    CONST_ALIGN_MAX2,                                       \
+                    CONST_ALIGN_NAME2,                                      \
+                    LENGTH2,                                                \
+                    CONST_ALIGN_MAX3,                                       \
+                    CONST_ALIGN_NAME3,                                      \
+                    LENGTH3,                                                \
+                    ##__VA_ARGS__);                                         \
+              } else {                                                      \
+                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
+                ALIGN_SWITCH_2(                                             \
+                    CONST_ALIGN_MAX2,                                       \
+                    CONST_ALIGN_NAME2,                                      \
+                    LENGTH2,                                                \
+                    CONST_ALIGN_MAX3,                                       \
+                    CONST_ALIGN_NAME3,                                      \
+                    LENGTH3,                                                \
+                    ##__VA_ARGS__);                                         \
+              };                                                            \
+            }                                                               \
+          };                                                                \
+        }                                                                   \
+      };                                                                    \
+    }                                                                       \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 6a7c60c0a1..57d54eda2f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -17,363 +17,334 @@
 namespace {
 
 template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type
-scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc,
-                 typename ck::vector_type<data_t, vec_size>::type a,
-                 float b)
-{
-    union
-    {
-        decltype(acc) vec;
-        float arr[vec_size];
-    } acc_u{acc};
-    union
-    {
-        decltype(a) vec;
-        data_t arr[vec_size];
-    } a_u{a};
+__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
+    typename ck::vector_type<float, vec_size>::type acc,
+    typename ck::vector_type<data_t, vec_size>::type a,
+    float b) {
+  union {
+    decltype(acc) vec;
+    float arr[vec_size];
+  } acc_u{acc};
+  union {
+    decltype(a) vec;
+    data_t arr[vec_size];
+  } a_u{a};
 
 #pragma unroll
-    for(int32_t i = 0; i < vec_size; ++i)
-    {
-        acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-    }
+  for (int32_t i = 0; i < vec_size; ++i) {
+    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+  }
 
-    return acc_u.vec;
+  return acc_u.vec;
 }
 
 template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f)
-{
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
 #pragma unroll
-    for(int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1)
-    {
-        val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-    }
-    return val;
+  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
+    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+  }
+  return val;
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void
-load_v(const TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec* __restrict__ load_to)
-{
-    *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+__forceinline__ __device__ void load_v(
+    const TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec* __restrict__ load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void
-store_v(TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec value)
-{
-    *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+__forceinline__ __device__ void store_v(
+    TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
-template <typename scalar_t,
-          int32_t vec_size               = 4,
-          int32_t n_loop_unroll          = 16,
-          int32_t n_loop_unroll_tail     = 2,
-          int32_t KV_M_MAX               = 8192,
-          int32_t n_wavefronts_per_block = 16>
-__global__ void
-efficient_attention_forward_decoder_ck_kernel(const scalar_t* __restrict__ XQ,
-                                              const scalar_t* __restrict__ cache_K,
-                                              const scalar_t* __restrict__ cache_V,
-                                              scalar_t* __restrict__ O,
-                                              const int32_t* __restrict__ seq_kv_lens,
-                                              const ptrdiff_t XQ_stride_b,
-                                              const ptrdiff_t XQ_stride_m,
-                                              const ptrdiff_t XQ_stride_g,
-                                              const ptrdiff_t XQ_stride_h,
-                                              const ptrdiff_t K_stride_b,
-                                              const ptrdiff_t K_stride_m,
-                                              const ptrdiff_t K_stride_g,
-                                              const ptrdiff_t K_stride_h,
-                                              const int32_t Q_size_m,
-                                              const int32_t Q_size_g,
-                                              const int32_t Q_size_h,
-                                              const int32_t Q_size_k,
-                                              const int32_t K_size_m,
-                                              const bool multiquery,
-                                              const float qk_scale)
-{
-    static_assert(n_loop_unroll_tail < n_loop_unroll, "");
-
-    // Each block handles a single batch and head and query and group
-    const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-    const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-    const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-    const int32_t h = blockIdx.x % Q_size_h;
-
-    // Note: this is decoding case where we attend to current and all previous
-    // tokens.
-    const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-    const int32_t lane_idx              = threadIdx.x;
-    const int32_t wavefront_idx         = threadIdx.y;
-    const int32_t threads_per_wavefront = blockDim.x;
-    const int32_t wavefronts_per_block  = blockDim.y;
-    const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
-    const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
-    // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-    const auto XQO_base_offset =
-        b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-    const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-    const auto cache_KV_base_offset =
-        b * K_stride_b + 0 * K_stride_m + g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-    const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-    const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-    using data_t        = scalar_t;
-    using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
-    using compute_t     = float;
-    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-    const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-    extern __shared__ __align__(16) compute_t smem[];
-
-    data_vec_t q_thread = 0;
-    // Load Q into registers in all wavefronts.
-    // Each thread handles `vec_size` D dimensions
-    if(lane_active_for_io)
-    {
-        load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-    }
-
-    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-    // Compute S[0:t_max] =
-    // ```
-    // for t in range(t_max):
-    //   S[t] = dot(Q, K[t])
-    // ```
-    // Split the 0:t_max range across wavefronts in a block,
-    // unroll loads to expose more parallelism.
-    // Reduce the dot product with cross-lane operation;
-    // Q and K[t] are in the registers of threads in a single wavefront.
-
-    data_vec_t k_loads[n_loop_unroll] = {};
-
-    constexpr auto dtt         = n_wavefronts_per_block * n_loop_unroll;
-    const int32_t t_max_unroll = (t_max / dtt) * dtt;
-
-    for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
-    {
-        if(lane_active_for_io)
-        {
+template <
+    typename scalar_t,
+    int32_t vec_size = 4,
+    int32_t n_loop_unroll = 16,
+    int32_t n_loop_unroll_tail = 2,
+    int32_t KV_M_MAX = 8192,
+    int32_t n_wavefronts_per_block = 16>
+__global__ void efficient_attention_forward_decoder_ck_kernel(
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O,
+    const int32_t* __restrict__ seq_kv_lens,
+    const ptrdiff_t XQ_stride_b,
+    const ptrdiff_t XQ_stride_m,
+    const ptrdiff_t XQ_stride_g,
+    const ptrdiff_t XQ_stride_h,
+    const ptrdiff_t K_stride_b,
+    const ptrdiff_t K_stride_m,
+    const ptrdiff_t K_stride_g,
+    const ptrdiff_t K_stride_h,
+    const int32_t Q_size_m,
+    const int32_t Q_size_g,
+    const int32_t Q_size_h,
+    const int32_t Q_size_k,
+    const int32_t K_size_m,
+    const bool multiquery,
+    const float qk_scale) {
+  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
+
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
+
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
+  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+  const auto XQO_base_offset =
+      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
+  const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
+      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
+  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_t = float;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  extern __shared__ __align__(16) compute_t smem[];
+
+  data_vec_t q_thread = 0;
+  // Load Q into registers in all wavefronts.
+  // Each thread handles `vec_size` D dimensions
+  if (lane_active_for_io) {
+    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  }
+
+  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+  // Compute S[0:t_max] =
+  // ```
+  // for t in range(t_max):
+  //   S[t] = dot(Q, K[t])
+  // ```
+  // Split the 0:t_max range across wavefronts in a block,
+  // unroll loads to expose more parallelism.
+  // Reduce the dot product with cross-lane operation;
+  // Q and K[t] are in the registers of threads in a single wavefront.
+
+  data_vec_t k_loads[n_loop_unroll] = {};
+
+  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
+  const int32_t t_max_unroll = (t_max / dtt) * dtt;
+
+  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                // load the K[b][t][g][h|0][:] row into registers
-                load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-            }
-        }
-        compute_t qk_accs[n_loop_unroll] = {};
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the K[b][t][g][h|0][:] row into registers
+        load_v<data_t, data_vec_t>(
+            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+      }
+    }
+    compute_t qk_accs[n_loop_unroll] = {};
 #pragma unroll n_loop_unroll
-        for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-        {
-            ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                q_thread, k_loads[ttt], qk_accs[ttt]);
-            qk_accs[ttt] *= qk_scale;
-
-            qk_accs[ttt] = wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-            max_qk_acc   = ck::math::max(qk_accs[ttt], max_qk_acc);
-        }
-        if(lane_idx == 0)
-        {
-            auto* __restrict__ smem_base = smem + tt;
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+          q_thread, k_loads[ttt], qk_accs[ttt]);
+      qk_accs[ttt] *= qk_scale;
+
+      qk_accs[ttt] =
+          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
+      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
+    }
+    if (lane_idx == 0) {
+      auto* __restrict__ smem_base = smem + tt;
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                smem_base[ttt] = qk_accs[ttt];
-            }
-        }
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        smem_base[ttt] = qk_accs[ttt];
+      }
     }
+  }
 
-    // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-    for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-        tt += wavefronts_per_block * n_loop_unroll_tail)
-    {
-        if(lane_active_for_io)
-        {
+  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+       tt += wavefronts_per_block * n_loop_unroll_tail) {
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    // load the K[b][t][g][h|0][:] row into registers
-                    load_v<data_t, data_vec_t>(
-                        cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                }
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the K[b][t][g][h|0][:] row into registers
+          load_v<data_t, data_vec_t>(
+              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
         }
+      }
+    }
 #pragma unroll n_loop_unroll_tail
-        for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-        {
-            compute_t qk_acc = 0;
-            const int32_t t  = tt + ttt;
-            if(t < t_max)
-            {
-                ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                    q_thread, k_loads[ttt], qk_acc);
-                qk_acc *= qk_scale;
-
-                qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-                max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-                // write accumulated sums to smem.
-                if(lane_idx == 0)
-                {
-                    smem[t] = qk_acc;
-                }
-            }
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      compute_t qk_acc = 0;
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+            q_thread, k_loads[ttt], qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t] = qk_acc;
         }
+      }
     }
-
-    // Use shared reduction to compute max and compute softmax on shared memory.
-    // write max acc
-    if(lane_idx == 0)
-    {
-        smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-    }
-    __syncthreads();
-    if(lane_idx < wavefronts_per_block)
-    {
-        max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-    }
-    // shared across all threads in block
-    max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-    // each wavefront computes partial sum of exp.
-    compute_t softmax_denominator = 0.0f;
-    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
-    {
-        softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
-    }
-    softmax_denominator =
-        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
-
-    if(lane_idx == 0)
-    {
-        smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-    }
-    __syncthreads();
-
-    // now, compute sum of exp(x - max(x)) over all intermediate results.
-    softmax_denominator = 0.0;
-    if(lane_idx < wavefronts_per_block)
-    {
-        softmax_denominator = smem[KV_M_MAX + lane_idx];
-    }
-    softmax_denominator =
-        wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
-
-    const compute_t softmax_scale_factor = 1. / softmax_denominator;
-    // now, compute the normalization across all threads.
-    for(int32_t t = thread_linear_idx; t < t_max; t += threads_per_block)
-    {
-        smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
-    }
-    __syncthreads();
-
-    // Split T across wavefronts in a block
-    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-    // outputs are of size float[D]
-
-    compute_t ps[n_loop_unroll] = {};
-    compute_vec_t o_acc         = 0;
-    if(lane_active_for_io)
-    {
-        for(auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt)
-        {
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+  }
+  // shared across all threads in block
+  max_qk_acc =
+      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+  // each wavefront computes partial sum of exp.
+  compute_t softmax_denominator = 0.0f;
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](auto a, auto b) { return a + b; });
+
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+  }
+  __syncthreads();
+
+  // now, compute sum of exp(x - max(x)) over all intermediate results.
+  softmax_denominator = 0.0;
+  if (lane_idx < wavefronts_per_block) {
+    softmax_denominator = smem[KV_M_MAX + lane_idx];
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](auto a, auto b) { return a + b; });
+
+  const compute_t softmax_scale_factor = 1. / softmax_denominator;
+  // now, compute the normalization across all threads.
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+  }
+  __syncthreads();
+
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
+
+  compute_t ps[n_loop_unroll] = {};
+  compute_vec_t o_acc = 0;
+  if (lane_active_for_io) {
+    for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll;
+         tt += dtt) {
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                // load the V[b][t][g][h|0][:] row into registers, reusing K register
-                // storage
-                load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                ps[ttt] = smem[t];
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the V[b][t][g][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<data_t, data_vec_t>(
+            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        ps[ttt] = smem[t];
+      }
 
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-            }
-        }
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        o_acc =
+            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      }
+    }
 
-        for(auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-            tt += wavefronts_per_block * n_loop_unroll_tail)
-        {
+    for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
+         tt < t_max;
+         tt += wavefronts_per_block * n_loop_unroll_tail) {
 #pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    // load the V[b][t][g][h|0][:] row into registers, reusing K register
-                    // storage
-                    load_v<data_t, data_vec_t>(
-                        cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                    ps[ttt] = smem[t];
-                }
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the V[b][t][g][h|0][:] row into registers, reusing K register
+          // storage
+          load_v<data_t, data_vec_t>(
+              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+          ps[ttt] = smem[t];
+        }
+      }
 
 #pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-                }
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          o_acc =
+              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
         }
+      }
     }
-    // now, each thread has partial sums. Write to smem and get accumulated
-    // results back.
-    __syncthreads();
-
-    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-    if(lane_active_for_io)
-    {
-        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+  // now, each thread has partial sums. Write to smem and get accumulated
+  // results back.
+  __syncthreads();
+
+  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+  if (lane_active_for_io) {
+    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+
+  __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0 && lane_active_for_io) {
+    union {
+      compute_vec_t vec = 0;
+      compute_t arr[vec_size];
+    } r;
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      r.vec += partial_r;
     }
-
-    __syncthreads();
-    // sum up partial D rows from other wavefronts
-    if(wavefront_idx == 0 && lane_active_for_io)
-    {
-        union
-        {
-            compute_vec_t vec = 0;
-            compute_t arr[vec_size];
-        } r;
-        for(int32_t w = 0; w < wavefronts_per_block; ++w)
-        {
-            compute_vec_t partial_r;
-            load_v<compute_t, compute_vec_t>(
-                smem, w * threads_per_wavefront + lane_idx, &partial_r);
-            r.vec += partial_r;
-        }
-        // elementwise convert from compute_t result to data_t out to be written
-        union
-        {
-            data_vec_t vec;
-            data_t arr[vec_size];
-        } bf_r;
+    // elementwise convert from compute_t result to data_t out to be written
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } bf_r;
 #pragma unroll
-        for(int32_t i = 0; i < vec_size; ++i)
-        {
-            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-        }
-        // write output row O[b][m][g][h][:]
-        data_t* __restrict__ o_ = O + XQO_base_offset;
-        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+    for (int32_t i = 0; i < vec_size; ++i) {
+      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }
+    // write output row O[b][m][g][h][:]
+    data_t* __restrict__ o_ = O + XQO_base_offset;
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+  }
 }
 
 } // namespace
@@ -382,147 +353,142 @@ namespace ck {
 namespace tensor_operation {
 namespace device {
 template <typename scalar_t>
-struct FMHADecoderSeqlen1DeviceOp : public BaseOperator
-{
-    using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-    struct Argument : public BaseArgument
-    {
-        const scalar_t* __restrict__ XQ;
-        const scalar_t* __restrict__ cache_K;
-        const scalar_t* __restrict__ cache_V;
-        scalar_t* __restrict__ O;
-        const int32_t* __restrict__ seq_kv_lens;
-        const ptrdiff_t XQ_stride_b;
-        const ptrdiff_t XQ_stride_m;
-        const ptrdiff_t XQ_stride_g;
-        const ptrdiff_t XQ_stride_h;
-        const ptrdiff_t K_stride_b;
-        const ptrdiff_t K_stride_m;
-        const ptrdiff_t K_stride_g;
-        const ptrdiff_t K_stride_h;
-        const int32_t Q_size_m;
-        const int32_t Q_size_g;
-        const int32_t Q_size_h;
-        const int32_t Q_size_k;
-        const int32_t K_size_m;
-        const bool multiquery;
-        const float qk_scale;
-
-        const dim3 grid_dim;
-        const dim3 block_dim;
-        const size_t lds_bytes;
-
-        Argument(const scalar_t* __restrict__ XQ,
-                 const scalar_t* __restrict__ cache_K,
-                 const scalar_t* __restrict__ cache_V,
-                 scalar_t* __restrict__ O,
-                 const int32_t* __restrict__ seq_kv_lens,
-                 const ptrdiff_t XQ_stride_b,
-                 const ptrdiff_t XQ_stride_m,
-                 const ptrdiff_t XQ_stride_g,
-                 const ptrdiff_t XQ_stride_h,
-                 const ptrdiff_t K_stride_b,
-                 const ptrdiff_t K_stride_m,
-                 const ptrdiff_t K_stride_g,
-                 const ptrdiff_t K_stride_h,
-                 const int32_t Q_size_m,
-                 const int32_t Q_size_g,
-                 const int32_t Q_size_h,
-                 const int32_t Q_size_k,
-                 const int32_t K_size_m,
-                 const bool multiquery,
-                 const float qk_scale,
-                 const dim3 grid_dim,
-                 const dim3 block_dim,
-                 const size_t lds_bytes)
-            : XQ(XQ),
-              cache_K(cache_K),
-              cache_V(cache_V),
-              O(O),
-              seq_kv_lens(seq_kv_lens),
-              XQ_stride_b(XQ_stride_b),
-              XQ_stride_m(XQ_stride_m),
-              XQ_stride_g(XQ_stride_g),
-              XQ_stride_h(XQ_stride_h),
-              K_stride_b(K_stride_b),
-              K_stride_m(K_stride_m),
-              K_stride_g(K_stride_g),
-              K_stride_h(K_stride_h),
-              Q_size_m(Q_size_m),
-              Q_size_g(Q_size_g),
-              Q_size_h(Q_size_h),
-              Q_size_k(Q_size_k),
-              K_size_m(K_size_m),
-              multiquery(multiquery),
-              qk_scale(qk_scale),
-              grid_dim(grid_dim),
-              block_dim(block_dim),
-              lds_bytes(lds_bytes)
-        {
-        }
-    };
-
-    struct Invoker : public BaseInvoker
-    {
-        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
-        {
-            auto threads_per_wavefront = arg.block_dim.x;
-
-            auto Q_size_k_alignment_necessary = 0;
-
-            for(auto vec_size : {4, 2, 1})
-            {
-                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
-                {
-                    Q_size_k_alignment_necessary = vec_size;
-                }
-            }
-
-            if(!Q_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported Q_size_k");
-            }
-
-            if(arg.Q_size_k % Q_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported alignment for Q_size_k");
-            }
-
-            return launch_and_time_kernel(
-                stream_config,
-                Q_size_k_alignment_necessary == 4
-                    ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-                    : Q_size_k_alignment_necessary == 2
-                          ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                          : Q_size_k_alignment_necessary == 1
-                                ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-                                : nullptr,
-                arg.grid_dim,
-                arg.block_dim,
-                arg.lds_bytes,
-                arg.XQ,
-                arg.cache_K,
-                arg.cache_V,
-                arg.O,
-                arg.seq_kv_lens,
-                arg.XQ_stride_b,
-                arg.XQ_stride_m,
-                arg.XQ_stride_g,
-                arg.XQ_stride_h,
-                arg.K_stride_b,
-                arg.K_stride_m,
-                arg.K_stride_g,
-                arg.K_stride_h,
-                arg.Q_size_m,
-                arg.Q_size_g,
-                arg.Q_size_h,
-                arg.Q_size_k,
-                arg.K_size_m,
-                arg.multiquery,
-                arg.qk_scale);
+struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
         }
-    };
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      return launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+              : Q_size_k_alignment_necessary == 2
+                  ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.O,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale);
+    }
+  };
 };
 } // namespace device
 } // namespace tensor_operation
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index cd25f4ce6b..acb1a0154b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -11,54 +11,50 @@
 namespace {
 
 template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type
-scalar_scale_acc(typename ck::vector_type<float, vec_size>::type acc,
-                 typename ck::vector_type<data_t, vec_size>::type a,
-                 float b)
-{
-    union
-    {
-        decltype(acc) vec;
-        float arr[vec_size];
-    } acc_u{acc};
-    union
-    {
-        decltype(a) vec;
-        data_t arr[vec_size];
-    } a_u{a};
+__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
+    typename ck::vector_type<float, vec_size>::type acc,
+    typename ck::vector_type<data_t, vec_size>::type a,
+    float b) {
+  union {
+    decltype(acc) vec;
+    float arr[vec_size];
+  } acc_u{acc};
+  union {
+    decltype(a) vec;
+    data_t arr[vec_size];
+  } a_u{a};
 
 #pragma unroll
-    for(int32_t i = 0; i < vec_size; ++i)
-    {
-        acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-    }
+  for (int32_t i = 0; i < vec_size; ++i) {
+    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+  }
 
-    return acc_u.vec;
+  return acc_u.vec;
 }
 
 template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f)
-{
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
 #pragma unroll
-    for(int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1)
-    {
-        val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-    }
-    return val;
+  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
+    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+  }
+  return val;
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void
-load_v(const TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec* __restrict__ load_to)
-{
-    *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+__forceinline__ __device__ void load_v(
+    const TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec* __restrict__ load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
 }
 
 template <typename TData, typename TDataVec>
-__forceinline__ __device__ void
-store_v(TData* __restrict__ data_ptr, int32_t vector_offset, TDataVec value)
-{
-    *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+__forceinline__ __device__ void store_v(
+    TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
 template <typename scalar_t, int32_t vec_size = 4, typename compute_t = float>
@@ -76,404 +72,378 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
     const ptrdiff_t O_stride_m,
     const ptrdiff_t O_stride_g,
     const ptrdiff_t O_stride_h,
-    const int32_t split_k)
-{
-
-    // Each block handles a single batch and head and query and group
-    const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-    const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-    const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-    const int32_t h = blockIdx.x % Q_size_h;
-
-    using data_t        = scalar_t;
-    using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
-    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-    union
-    {
-        data_vec_t vec;
-        data_t arr[vec_size];
-    } O_split_data;
-    union
-    {
-        compute_vec_t vec;
-        compute_t arr[vec_size];
-    } O_split_compute;
-    union
-    {
-        data_vec_t vec;
-        data_t arr[vec_size];
-    } global_O_data;
-    union
-    {
-        compute_vec_t vec;
-        compute_t arr[vec_size];
-    } global_O_compute;
-
-    global_O_compute.vec = 0;
-
-    const int32_t lane_idx        = threadIdx.x;
-    const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-    if(!lane_active_for_io)
-    {
-        return;
-    }
-
-    compute_t global_sumexp = 0;
-    compute_t global_max    = ck::NumericLimits<compute_t>::Lowest();
-
-    for(int32_t split_idx = 0; split_idx < split_k; ++split_idx)
-    {
-        load_v<data_t, data_vec_t>(O_splits + b * O_stride_b + m * O_stride_m + g * O_stride_g +
-                                       h * O_stride_h + split_idx * O_stride_split,
-                                   lane_idx,
-                                   &O_split_data.vec);
+    const int32_t split_k) {
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  union {
+    data_vec_t vec;
+    data_t arr[vec_size];
+  } O_split_data;
+  union {
+    compute_vec_t vec;
+    compute_t arr[vec_size];
+  } O_split_compute;
+  union {
+    data_vec_t vec;
+    data_t arr[vec_size];
+  } global_O_data;
+  union {
+    compute_vec_t vec;
+    compute_t arr[vec_size];
+  } global_O_compute;
+
+  global_O_compute.vec = 0;
+
+  const int32_t lane_idx = threadIdx.x;
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  if (!lane_active_for_io) {
+    return;
+  }
+
+  compute_t global_sumexp = 0;
+  compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    load_v<data_t, data_vec_t>(
+        O_splits + b * O_stride_b + m * O_stride_m + g * O_stride_g +
+            h * O_stride_h + split_idx * O_stride_split,
+        lane_idx,
+        &O_split_data.vec);
 #pragma unroll
-        for(int32_t i = 0; i < vec_size; ++i)
-        {
-            O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
-        }
-        compute_t local_max    = *(split_max + blockIdx.x * split_k + split_idx);
-        compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx);
-
-        compute_t log_alpha = -std::abs(local_max - global_max);
-        compute_t alpha     = isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
-
-        bool pick_new               = local_max < global_max;
-        compute_t pick_current_coef = pick_new ? 1. : alpha;
-        compute_t pick_new_coef     = pick_new ? alpha : 1.;
-
-        global_sumexp = pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
-        global_O_compute.vec =
-            pick_current_coef * global_O_compute.vec + pick_new_coef * O_split_compute.vec;
-        global_max = ck::math::max(local_max, global_max);
+    for (int32_t i = 0; i < vec_size; ++i) {
+      O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
     }
-    global_O_compute.vec /= global_sumexp;
+    compute_t local_max = *(split_max + blockIdx.x * split_k + split_idx);
+    compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx);
+
+    compute_t log_alpha = -std::abs(local_max - global_max);
+    compute_t alpha =
+        isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+
+    bool pick_new = local_max < global_max;
+    compute_t pick_current_coef = pick_new ? 1. : alpha;
+    compute_t pick_new_coef = pick_new ? alpha : 1.;
+
+    global_sumexp =
+        pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
+    global_O_compute.vec = pick_current_coef * global_O_compute.vec +
+        pick_new_coef * O_split_compute.vec;
+    global_max = ck::math::max(local_max, global_max);
+  }
+  global_O_compute.vec /= global_sumexp;
 #pragma unroll
-    for(int32_t i = 0; i < vec_size; ++i)
-    {
-        global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
-    }
-    store_v<data_t, data_vec_t>(O + b * O_stride_b + m * O_stride_m + g * O_stride_g +
-                                    h * O_stride_h,
-                                lane_idx,
-                                global_O_data.vec);
+  for (int32_t i = 0; i < vec_size; ++i) {
+    global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+  }
+  store_v<data_t, data_vec_t>(
+      O + b * O_stride_b + m * O_stride_m + g * O_stride_g + h * O_stride_h,
+      lane_idx,
+      global_O_data.vec);
 }
 
-template <typename scalar_t,
-          int32_t vec_size           = 4,
-          int32_t n_loop_unroll      = 16,
-          int32_t n_loop_unroll_tail = 2,
-          int32_t KV_M_MAX           = 8192,
-          typename compute_t         = float>
-__global__ void
-efficient_attention_forward_decoder_splitk_ck_kernel(const scalar_t* __restrict__ XQ,
-                                                     const scalar_t* __restrict__ cache_K,
-                                                     const scalar_t* __restrict__ cache_V,
-                                                     scalar_t* __restrict__ O_splits,
-                                                     compute_t* __restrict__ split_max,
-                                                     compute_t* __restrict__ split_sumexp,
-                                                     const int32_t* __restrict__ seq_kv_lens,
-                                                     const ptrdiff_t XQ_stride_b,
-                                                     const ptrdiff_t XQ_stride_m,
-                                                     const ptrdiff_t XQ_stride_g,
-                                                     const ptrdiff_t XQ_stride_h,
-                                                     const ptrdiff_t K_stride_b,
-                                                     const ptrdiff_t K_stride_m,
-                                                     const ptrdiff_t K_stride_g,
-                                                     const ptrdiff_t K_stride_h,
-                                                     const ptrdiff_t O_stride_split,
-                                                     const int32_t Q_size_m,
-                                                     const int32_t Q_size_g,
-                                                     const int32_t Q_size_h,
-                                                     const int32_t Q_size_k,
-                                                     const int32_t K_size_m,
-                                                     const bool multiquery,
-                                                     const float qk_scale,
-                                                     const int32_t split_k)
-{
-    static_assert(n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
-                  "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
-                  "(and tail is no-op)");
-
-    // Each block handles a single batch and head and query and group
-    const int32_t b         = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-    const int32_t m         = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-    const int32_t g         = (blockIdx.x / Q_size_h) % Q_size_g;
-    const int32_t h         = blockIdx.x % Q_size_h;
-    const int32_t split_idx = blockIdx.y;
-
-    // Note: this is decoding case where we attend to current and all previous
-    // tokens.
-    const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-    const int32_t lane_idx      = threadIdx.x;
-    const int32_t wavefront_idx = threadIdx.y;
-    // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile time constants;
-    // investigate when optimizing
-    const int32_t threads_per_wavefront = blockDim.x;
-    const int32_t wavefronts_per_block  = blockDim.y;
-    const int32_t threads_per_block     = threads_per_wavefront * wavefronts_per_block;
-    const int32_t thread_linear_idx     = lane_idx + wavefront_idx * threads_per_wavefront;
-    // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-    const auto XQO_base_offset =
-        b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-    const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-    const auto cache_KV_base_offset =
-        b * K_stride_b + 0 * K_stride_m + g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-    const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-    const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-    using data_t        = scalar_t;
-    using data_vec_t    = typename ck::vector_type<data_t, vec_size>::type;
-    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-    const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-    extern __shared__ __align__(16) compute_t smem[];
-
-    data_vec_t q_thread = 0;
-    // Load Q into registers in all wavefronts.
-    // Each thread handles `vec_size` D dimensions
-    if(lane_active_for_io)
-    {
-        load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-    }
-
-    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-    // Compute S[0:t_max] =
-    // ```
-    // for t in range(t_max):
-    //   S[t] = dot(Q, K[t])
-    // ```
-    // Split the 0:t_max range across wavefronts in a block,
-    // unroll loads to expose more parallelism.
-    // Reduce the dot product with cross-lane operation;
-    // Q and K[t] are in the registers of threads in a single wavefront.
-
-    data_vec_t k_loads[n_loop_unroll] = {};
-
-    const auto dtt = wavefronts_per_block * n_loop_unroll;
-    // only last split gets the tail.
-    // the first (split_k - 1) splits have a number of iterations divisible by `dtt`
-    const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
-    const int32_t tt_low = wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
-    const int32_t tt_high =
-        wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
-    const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
-    const int32_t tt_tail_low =
-        wavefront_idx * n_loop_unroll_tail + n_unrolled_loops * dtt * (split_idx + 1);
-    const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
-
-    for(auto tt = tt_low; tt < tt_high; tt += dtt)
-    {
-        if(lane_active_for_io)
-        {
+template <
+    typename scalar_t,
+    int32_t vec_size = 4,
+    int32_t n_loop_unroll = 16,
+    int32_t n_loop_unroll_tail = 2,
+    int32_t KV_M_MAX = 8192,
+    typename compute_t = float>
+__global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O_splits,
+    compute_t* __restrict__ split_max,
+    compute_t* __restrict__ split_sumexp,
+    const int32_t* __restrict__ seq_kv_lens,
+    const ptrdiff_t XQ_stride_b,
+    const ptrdiff_t XQ_stride_m,
+    const ptrdiff_t XQ_stride_g,
+    const ptrdiff_t XQ_stride_h,
+    const ptrdiff_t K_stride_b,
+    const ptrdiff_t K_stride_m,
+    const ptrdiff_t K_stride_g,
+    const ptrdiff_t K_stride_h,
+    const ptrdiff_t O_stride_split,
+    const int32_t Q_size_m,
+    const int32_t Q_size_g,
+    const int32_t Q_size_h,
+    const int32_t Q_size_k,
+    const int32_t K_size_m,
+    const bool multiquery,
+    const float qk_scale,
+    const int32_t split_k) {
+  static_assert(
+      n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
+      "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
+      "(and tail is no-op)");
+
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+  const int32_t split_idx = blockIdx.y;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
+
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile
+  // time constants; investigate when optimizing
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
+  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+  const auto XQO_base_offset =
+      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
+  const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
+      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
+  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  extern __shared__ __align__(16) compute_t smem[];
+
+  data_vec_t q_thread = 0;
+  // Load Q into registers in all wavefronts.
+  // Each thread handles `vec_size` D dimensions
+  if (lane_active_for_io) {
+    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  }
+
+  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+  // Compute S[0:t_max] =
+  // ```
+  // for t in range(t_max):
+  //   S[t] = dot(Q, K[t])
+  // ```
+  // Split the 0:t_max range across wavefronts in a block,
+  // unroll loads to expose more parallelism.
+  // Reduce the dot product with cross-lane operation;
+  // Q and K[t] are in the registers of threads in a single wavefront.
+
+  data_vec_t k_loads[n_loop_unroll] = {};
+
+  const auto dtt = wavefronts_per_block * n_loop_unroll;
+  // only last split gets the tail.
+  // the first (split_k - 1) splits have a number of iterations divisible by
+  // `dtt`
+  const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
+  const int32_t tt_low =
+      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
+  const int32_t tt_high =
+      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
+  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail +
+      n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
+
+  for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                // load the K[b][t][g][h|0][:] row into registers
-                load_v<data_t, data_vec_t>(cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-            }
-        }
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the K[b][t][g][h|0][:] row into registers
+        load_v<data_t, data_vec_t>(
+            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+      }
+    }
 #pragma unroll n_loop_unroll
-        for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-        {
-            compute_t qk_acc = 0;
-            ck::inner_product<data_vec_t, data_vec_t, compute_t>(q_thread, k_loads[ttt], qk_acc);
-            qk_acc *= qk_scale;
-
-            qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-            max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-            if(lane_idx == 0)
-            {
-                smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
-            }
-        }
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      compute_t qk_acc = 0;
+      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+          q_thread, k_loads[ttt], qk_acc);
+      qk_acc *= qk_scale;
+
+      qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+      max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+      if (lane_idx == 0) {
+        smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
+      }
     }
+  }
 
-    for(auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail)
-    {
-        if(lane_active_for_io)
-        {
+  for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+    if (lane_active_for_io) {
 #pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    // load the K[b][t][g][h|0][:] row into registers
-                    load_v<data_t, data_vec_t>(
-                        cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                }
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the K[b][t][g][h|0][:] row into registers
+          load_v<data_t, data_vec_t>(
+              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
         }
+      }
+    }
 #pragma unroll n_loop_unroll_tail
-        for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-        {
-            compute_t qk_acc = 0;
-            const int32_t t  = tt + ttt;
-            if(t < t_max)
-            {
-                ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-                    q_thread, k_loads[ttt], qk_acc);
-                qk_acc *= qk_scale;
-
-                qk_acc     = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-                max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-                // write accumulated sums to smem.
-                if(lane_idx == 0)
-                {
-                    smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
-                }
-            }
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      compute_t qk_acc = 0;
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+            q_thread, k_loads[ttt], qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
         }
+      }
     }
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+  }
+  // shared across all threads in block
+  max_qk_acc =
+      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+  if (wavefront_idx == 0 && lane_idx == 0) {
+    split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+  }
+
+  // each wavefront computes partial sum of exp.
+  { // softmax reduce begin
+    compute_t softmax_denominator = 0.0f;
+    const int32_t t_low = n_unrolled_loops * dtt * split_idx;
+    const int32_t t_high = (split_idx + 1 < split_k)
+        ? n_unrolled_loops * dtt * (split_idx + 1)
+        : t_max;
+    for (int32_t t = t_low + thread_linear_idx; t < t_high;
+         t += threads_per_block) {
+      const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
+      softmax_denominator += s;
+      smem[t - t_low] = s;
+    }
+    softmax_denominator = wavefrontReduce(
+        softmax_denominator, [](auto a, auto b) { return a + b; });
 
-    // Use shared reduction to compute max and compute softmax on shared memory.
-    // write max acc
-    if(lane_idx == 0)
-    {
-        smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+    if (lane_idx == 0) {
+      smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
     }
     __syncthreads();
-    if(lane_idx < wavefronts_per_block)
-    {
-        max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-    }
-    // shared across all threads in block
-    max_qk_acc = wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
 
-    if(wavefront_idx == 0 && lane_idx == 0)
-    {
-        split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+    // now, compute sum of exp(x - max(x)) over all intermediate results.
+    softmax_denominator = 0.0;
+    if (lane_idx < wavefronts_per_block) {
+      softmax_denominator = smem[KV_M_MAX + lane_idx];
     }
+    softmax_denominator = wavefrontReduce(
+        softmax_denominator, [](auto a, auto b) { return a + b; });
 
-    // each wavefront computes partial sum of exp.
-    { // softmax reduce begin
-        compute_t softmax_denominator = 0.0f;
-        const int32_t t_low           = n_unrolled_loops * dtt * split_idx;
-        const int32_t t_high =
-            (split_idx + 1 < split_k) ? n_unrolled_loops * dtt * (split_idx + 1) : t_max;
-        for(int32_t t = t_low + thread_linear_idx; t < t_high; t += threads_per_block)
-        {
-            const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
-            softmax_denominator += s;
-            smem[t - t_low] = s;
-        }
-        softmax_denominator =
-            wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
+    if (wavefront_idx == 0 && lane_idx == 0) {
+      split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+    }
+  } // softmax reduce end
 
-        if(lane_idx == 0)
-        {
-            smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-        }
-        __syncthreads();
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
 
-        // now, compute sum of exp(x - max(x)) over all intermediate results.
-        softmax_denominator = 0.0;
-        if(lane_idx < wavefronts_per_block)
-        {
-            softmax_denominator = smem[KV_M_MAX + lane_idx];
-        }
-        softmax_denominator =
-            wavefrontReduce(softmax_denominator, [](auto a, auto b) { return a + b; });
-
-        if(wavefront_idx == 0 && lane_idx == 0)
-        {
-            split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
-        }
-    } // softmax reduce end
-
-    // Split T across wavefronts in a block
-    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-    // outputs are of size float[D]
-
-    compute_t ps[n_loop_unroll] = {};
-    compute_vec_t o_acc         = 0;
-    if(lane_active_for_io)
-    {
-        for(auto tt = tt_low; tt < tt_high; tt += dtt)
-        {
+  compute_t ps[n_loop_unroll] = {};
+  compute_vec_t o_acc = 0;
+  if (lane_active_for_io) {
+    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                // load the V[b][t][g][h|0][:] row into registers, reusing K register
-                // storage
-                load_v<data_t, data_vec_t>(cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the V[b][t][g][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<data_t, data_vec_t>(
+            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+      }
 
 #pragma unroll n_loop_unroll
-            for(auto ttt = 0; ttt < n_loop_unroll; ++ttt)
-            {
-                o_acc = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-            }
-        }
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        o_acc =
+            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      }
+    }
 
-        for(auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail)
-        {
+    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
 #pragma unroll n_loop_unroll_tail
-            for(auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt)
-            {
-                const int32_t t = tt + ttt;
-                if(t < t_max)
-                {
-                    // load the V[b][t][g][h|0][:] row into registers, reusing K register
-                    // storage
-                    load_v<data_t, data_vec_t>(
-                        cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-                    ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
-                    o_acc   = scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-                }
-            }
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the V[b][t][g][h|0][:] row into registers, reusing K register
+          // storage
+          load_v<data_t, data_vec_t>(
+              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+          ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+          o_acc =
+              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
         }
+      }
     }
-    __syncthreads();
-
-    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-    if(lane_active_for_io)
-    {
-        store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+  __syncthreads();
+
+  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+  if (lane_active_for_io) {
+    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+
+  __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0 && lane_active_for_io) {
+    union {
+      compute_vec_t vec = 0;
+      compute_t arr[vec_size];
+    } r;
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      r.vec += partial_r;
     }
-
-    __syncthreads();
-    // sum up partial D rows from other wavefronts
-    if(wavefront_idx == 0 && lane_active_for_io)
-    {
-        union
-        {
-            compute_vec_t vec = 0;
-            compute_t arr[vec_size];
-        } r;
-        for(int32_t w = 0; w < wavefronts_per_block; ++w)
-        {
-            compute_vec_t partial_r;
-            load_v<compute_t, compute_vec_t>(
-                smem, w * threads_per_wavefront + lane_idx, &partial_r);
-            r.vec += partial_r;
-        }
-        // elementwise convert from compute_t result to data_t out to be written
-        union
-        {
-            data_vec_t vec;
-            data_t arr[vec_size];
-        } bf_r;
+    // elementwise convert from compute_t result to data_t out to be written
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } bf_r;
 #pragma unroll
-        for(int32_t i = 0; i < vec_size; ++i)
-        {
-            bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-        }
-        // write output row O[b][m][g][h][:]
-        data_t* __restrict__ o_ = O_splits + XQO_base_offset + split_idx * O_stride_split;
-        store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+    for (int32_t i = 0; i < vec_size; ++i) {
+      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
     }
+    // write output row O[b][m][g][h][:]
+    data_t* __restrict__ o_ =
+        O_splits + XQO_base_offset + split_idx * O_stride_split;
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+  }
 }
 
 } // namespace
@@ -482,239 +452,241 @@ namespace ck {
 namespace tensor_operation {
 namespace device {
 template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitKDeviceOp : public BaseOperator
-{
-    using DeviceOp = FMHADecoderSplitKDeviceOp;
-    struct Argument : public BaseArgument
-    {
-        const scalar_t* __restrict__ XQ;
-        const scalar_t* __restrict__ cache_K;
-        const scalar_t* __restrict__ cache_V;
-        scalar_t* __restrict__ O;
-        scalar_t* __restrict__ split_O;
-        compute_t* __restrict__ split_max;
-        compute_t* __restrict__ split_sumexp;
-        const int32_t* __restrict__ seq_kv_lens;
-        const ptrdiff_t XQ_stride_b;
-        const ptrdiff_t XQ_stride_m;
-        const ptrdiff_t XQ_stride_g;
-        const ptrdiff_t XQ_stride_h;
-        const ptrdiff_t K_stride_b;
-        const ptrdiff_t K_stride_m;
-        const ptrdiff_t K_stride_g;
-        const ptrdiff_t K_stride_h;
-        const ptrdiff_t O_stride_split;
-        const int32_t Q_size_m;
-        const int32_t Q_size_g;
-        const int32_t Q_size_h;
-        const int32_t Q_size_k;
-        const int32_t K_size_m;
-        const bool multiquery;
-        const float qk_scale;
-        const int32_t split_k;
-
-        const dim3 grid_dim;
-        const dim3 block_dim;
-        const size_t lds_bytes;
-
-        Argument(const scalar_t* __restrict__ XQ,
-                 const scalar_t* __restrict__ cache_K,
-                 const scalar_t* __restrict__ cache_V,
-                 scalar_t* __restrict__ O,
-                 scalar_t* __restrict__ split_O,
-                 compute_t* __restrict__ split_max,
-                 compute_t* __restrict__ split_sumexp,
-                 const int32_t* __restrict__ seq_kv_lens,
-                 const ptrdiff_t XQ_stride_b,
-                 const ptrdiff_t XQ_stride_m,
-                 const ptrdiff_t XQ_stride_g,
-                 const ptrdiff_t XQ_stride_h,
-                 const ptrdiff_t K_stride_b,
-                 const ptrdiff_t K_stride_m,
-                 const ptrdiff_t K_stride_g,
-                 const ptrdiff_t K_stride_h,
-                 const ptrdiff_t O_stride_split,
-                 const int32_t Q_size_m,
-                 const int32_t Q_size_g,
-                 const int32_t Q_size_h,
-                 const int32_t Q_size_k,
-                 const int32_t K_size_m,
-                 const bool multiquery,
-                 const float qk_scale,
-                 const int32_t split_k,
-                 // launch params
-                 const dim3 grid_dim,
-                 const dim3 block_dim,
-                 const size_t lds_bytes)
-            : XQ(XQ),
-              cache_K(cache_K),
-              cache_V(cache_V),
-              O(O),
-              split_O(split_O),
-              split_max(split_max),
-              split_sumexp(split_sumexp),
-              seq_kv_lens(seq_kv_lens),
-              XQ_stride_b(XQ_stride_b),
-              XQ_stride_m(XQ_stride_m),
-              XQ_stride_g(XQ_stride_g),
-              XQ_stride_h(XQ_stride_h),
-              K_stride_b(K_stride_b),
-              K_stride_m(K_stride_m),
-              K_stride_g(K_stride_g),
-              K_stride_h(K_stride_h),
-              O_stride_split(O_stride_split),
-              Q_size_m(Q_size_m),
-              Q_size_g(Q_size_g),
-              Q_size_h(Q_size_h),
-              Q_size_k(Q_size_k),
-              K_size_m(K_size_m),
-              multiquery(multiquery),
-              qk_scale(qk_scale),
-              split_k(split_k),
-              // launch params
-              grid_dim(grid_dim),
-              block_dim(block_dim),
-              lds_bytes(lds_bytes)
-        {
-        }
-
-        std::string str() const
-        {
-            std::ostringstream oss;
-            oss << "Argument { " << std::endl
-                << "    XQ: " << XQ << std::endl
-                << "    cache_K: " << cache_K << std::endl
-                << "    cache_V: " << cache_V << std::endl
-                << "    O: " << O << std::endl
-                << "    split_O: " << split_O << std::endl
-                << "    split_max: " << split_max << std::endl
-                << "    split_sumexp: " << split_sumexp << std::endl
-                << "    seq_kv_lens: " << seq_kv_lens << std::endl
-                << "    XQ_stride_b: " << XQ_stride_b << std::endl
-                << "    XQ_stride_m: " << XQ_stride_m << std::endl
-                << "    XQ_stride_g: " << XQ_stride_g << std::endl
-                << "    XQ_stride_h: " << XQ_stride_h << std::endl
-                << "    K_stride_b: " << K_stride_b << std::endl
-                << "    K_stride_m: " << K_stride_m << std::endl
-                << "    K_stride_g: " << K_stride_g << std::endl
-                << "    K_stride_h: " << K_stride_h << std::endl
-                << "    O_stride_split: " << O_stride_split << std::endl
-                << "    Q_size_m: " << Q_size_m << std::endl
-                << "    Q_size_g: " << Q_size_g << std::endl
-                << "    Q_size_h: " << Q_size_h << std::endl
-                << "    Q_size_k: " << Q_size_k << std::endl
-                << "    K_size_m: " << K_size_m << std::endl
-                << "    multiquery: " << multiquery << std::endl
-                << "    qk_scale: " << qk_scale << std::endl
-                << "    split_k: " << split_k << std::endl
-                << std::endl
-                << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "." << grid_dim.z
-                << std::endl
-                << "    block_dim: " << block_dim.x << "." << block_dim.y << "." << block_dim.z
-                << std::endl
-                << "    lds_bytes: " << lds_bytes << std::endl
-                << "}";
-            return oss.str();
-        }
-    };
-
-    struct Invoker : public BaseInvoker
-    {
-        using Argument = DeviceOp::Argument;
-        float Run(const Argument& arg, const StreamConfig& stream_config = StreamConfig{})
-        {
-            auto threads_per_wavefront        = arg.block_dim.x;
-            auto Q_size_k_alignment_necessary = 0;
-
-            for(auto vec_size : {4, 2, 1})
-            {
-                if(arg.Q_size_k <= vec_size * threads_per_wavefront)
-                {
-                    Q_size_k_alignment_necessary = vec_size;
-                }
-            }
-
-            if(!Q_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported Q_size_k");
-            }
-
-            if(arg.Q_size_k % Q_size_k_alignment_necessary)
-            {
-                throw std::runtime_error("Unsupported alignment for Q_size_k");
-            }
-
-            float split_attention_result = launch_and_time_kernel(
-                stream_config,
-                Q_size_k_alignment_necessary == 4
-                    ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 4>
-                    : Q_size_k_alignment_necessary == 2
-                          ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 2>
-                          : Q_size_k_alignment_necessary == 1
-                                ? efficient_attention_forward_decoder_splitk_ck_kernel<scalar_t, 1>
-                                : nullptr,
-                arg.grid_dim,
-                arg.block_dim,
-                arg.lds_bytes,
-                arg.XQ,
-                arg.cache_K,
-                arg.cache_V,
-                arg.split_O,
-                arg.split_max,
-                arg.split_sumexp,
-                arg.seq_kv_lens,
-                arg.XQ_stride_b,
-                arg.XQ_stride_m,
-                arg.XQ_stride_g,
-                arg.XQ_stride_h,
-                arg.K_stride_b,
-                arg.K_stride_m,
-                arg.K_stride_g,
-                arg.K_stride_h,
-                arg.O_stride_split,
-                arg.Q_size_m,
-                arg.Q_size_g,
-                arg.Q_size_h,
-                arg.Q_size_k,
-                arg.K_size_m,
-                arg.multiquery,
-                arg.qk_scale,
-                arg.split_k);
-
-            const dim3 reduce_gridsize         = {arg.grid_dim.x};
-            const dim3 reduce_blocksize        = {arg.block_dim.x};
-            constexpr int32_t reduce_lds_bytes = 0;
-            float reduce_result                = launch_and_time_kernel(
-                stream_config,
-                Q_size_k_alignment_necessary == 4
-                    ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 4>
-                    : Q_size_k_alignment_necessary == 2
-                          ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<scalar_t, 2>
-                          : Q_size_k_alignment_necessary == 1
-                                ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                                      scalar_t,
-                                      1>
-                                : nullptr,
-                reduce_gridsize,
-                reduce_blocksize,
-                reduce_lds_bytes,
-                arg.split_O,
-                arg.split_max,
-                arg.split_sumexp,
-                arg.O,
-                arg.Q_size_m,
-                arg.Q_size_g,
-                arg.Q_size_h,
-                arg.Q_size_k,
-                arg.O_stride_split,
-                arg.XQ_stride_b,
-                arg.XQ_stride_m,
-                arg.XQ_stride_g,
-                arg.XQ_stride_h,
-                arg.split_k);
-            return split_attention_result + reduce_result;
+struct FMHADecoderSplitKDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitKDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
         }
-    };
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    4>
+              : Q_size_k_alignment_necessary == 2
+                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                        scalar_t,
+                        2>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : Q_size_k_alignment_necessary == 2
+                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                        scalar_t,
+                        2>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.O_stride_split,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.split_k);
+      return split_attention_result + reduce_result;
+    }
+  };
 };
 } // namespace device
 } // namespace tensor_operation
diff --git a/xformers/csrc/attention/hip_fmha/ck_bool_switch.h b/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
index 4b92dd95a4..1a062d3e3e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
@@ -6,30 +6,24 @@
  */
 #pragma once
 
-#define BOOL_SWITCH_1(COND1, CONST_NAME1, ...)  \
-    [&] {                                       \
-        if(COND1)                               \
-        {                                       \
-            constexpr bool CONST_NAME1 = true;  \
-            __VA_ARGS__();                      \
-        }                                       \
-        else                                    \
-        {                                       \
-            constexpr bool CONST_NAME1 = false; \
-            __VA_ARGS__();                      \
-        }                                       \
-    }()
+#define BOOL_SWITCH_1(COND1, CONST_NAME1, ...) \
+  [&] {                                        \
+    if (COND1) {                               \
+      constexpr bool CONST_NAME1 = true;       \
+      __VA_ARGS__();                           \
+    } else {                                   \
+      constexpr bool CONST_NAME1 = false;      \
+      __VA_ARGS__();                           \
+    }                                          \
+  }()
 
 #define BOOL_SWITCH_2(COND1, CONST_NAME1, COND2, CONST_NAME2, ...) \
-    [&] {                                                          \
-        if(COND1)                                                  \
-        {                                                          \
-            constexpr bool CONST_NAME1 = true;                     \
-            BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);      \
-        }                                                          \
-        else                                                       \
-        {                                                          \
-            constexpr bool CONST_NAME1 = false;                    \
-            BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);      \
-        }                                                          \
-    }()
+  [&] {                                                            \
+    if (COND1) {                                                   \
+      constexpr bool CONST_NAME1 = true;                           \
+      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);            \
+    } else {                                                       \
+      constexpr bool CONST_NAME1 = false;                          \
+      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);            \
+    }                                                              \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
index b7de4dbf83..49122fd740 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
@@ -11,190 +11,186 @@
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedBackward_V1
-{
-    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-    static constexpr ck::index_t BlockSize             = 256;
-    static constexpr ck::index_t MPerBlock             = 128;
-    static constexpr ck::index_t NPerBlock             = 128;
-    // static constexpr ck::index_t KPerBlock;
-    // static constexpr ck::index_t Gemm1NPerBlock;
-    static constexpr ck::index_t Gemm1KPerBlock = 32;
-    static constexpr ck::index_t Gemm2KPerBlock = 32;
-    static constexpr ck::index_t AK1            = 8;
-    static constexpr ck::index_t BK1            = 8;
-    static constexpr ck::index_t B1K1           = 2;
-    static constexpr ck::index_t MPerXDL        = 32;
-    static constexpr ck::index_t NPerXDL        = 32;
-    static constexpr ck::index_t MXdlPerWave    = 4;
-    static constexpr ck::index_t NXdlPerWave    = 1;
-    // static constexpr ck::index_t Gemm1NXdlPerWave;
-    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
-    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
-    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
-    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
-    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-    static constexpr bool ABlockLdsExtraM                             = true;
-    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
-    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
-    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
-    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
-    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-    static constexpr bool BBlockLdsExtraN                             = true;
-    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-    // using
-    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-    // static constexpr ck::index_t
-    // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsBatchedBackward_V1 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  // static constexpr ck::index_t KPerBlock;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 4;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedBackward_V2
-{
-    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-    static constexpr ck::index_t BlockSize             = 256;
-    static constexpr ck::index_t MPerBlock             = 64;
-    static constexpr ck::index_t NPerBlock             = 128;
-    static constexpr ck::index_t KPerBlock             = 128;
-    // static constexpr ck::index_t Gemm1NPerBlock;
-    static constexpr ck::index_t Gemm1KPerBlock = 32;
-    static constexpr ck::index_t Gemm2KPerBlock = 64;
-    static constexpr ck::index_t AK1            = 8;
-    static constexpr ck::index_t BK1            = 8;
-    static constexpr ck::index_t B1K1           = 2;
-    static constexpr ck::index_t MPerXDL        = 32;
-    static constexpr ck::index_t NPerXDL        = 32;
-    static constexpr ck::index_t MXdlPerWave    = 2;
-    static constexpr ck::index_t NXdlPerWave    = 1;
-    // static constexpr ck::index_t Gemm1NXdlPerWave;
-    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
-    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
-    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
-    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
-    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-    static constexpr bool ABlockLdsExtraM                             = true;
-    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
-    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
-    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
-    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
-    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-    static constexpr bool BBlockLdsExtraN                             = true;
-    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-    using B1BlockTransferThreadClusterLengths_BK0_N_BK1      = S<8, 32, 1>;
-    using B1BlockTransferThreadClusterArrangeOrder           = S<0, 2, 1>;
-    using B1BlockTransferSrcAccessOrder                      = S<0, 2, 1>;
-    static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-    // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-    static constexpr bool B1BlockLdsExtraN                             = false;
-    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle         = 1;
-    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-    // using
-    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-    // static constexpr ck::index_t
-    // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsBatchedBackward_V2 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 64;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 128;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 64;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 2;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedBackward_V1
-{
-    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-    static constexpr ck::index_t BlockSize             = 256;
-    static constexpr ck::index_t MPerBlock             = 128;
-    static constexpr ck::index_t NPerBlock             = 128;
-    // static constexpr ck::index_t KPerBlock;
-    // static constexpr ck::index_t Gemm1NPerBlock;
-    static constexpr ck::index_t Gemm1KPerBlock = 32;
-    static constexpr ck::index_t Gemm2KPerBlock = 32;
-    static constexpr ck::index_t AK1            = 8;
-    static constexpr ck::index_t BK1            = 8;
-    static constexpr ck::index_t B1K1           = 2;
-    static constexpr ck::index_t MPerXDL        = 32;
-    static constexpr ck::index_t NPerXDL        = 32;
-    static constexpr ck::index_t MXdlPerWave    = 4;
-    static constexpr ck::index_t NXdlPerWave    = 1;
-    // static constexpr ck::index_t Gemm1NXdlPerWave;
-    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
-    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
-    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
-    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
-    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-    static constexpr bool ABlockLdsExtraM                             = true;
-    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
-    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
-    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
-    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
-    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-    static constexpr bool BBlockLdsExtraN                             = true;
-    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-    // using
-    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-    // static constexpr ck::index_t
-    // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsGroupedBackward_V1 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 128;
+  static constexpr ck::index_t NPerBlock = 128;
+  // static constexpr ck::index_t KPerBlock;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 32;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 4;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
 
 // list the template parameters that will not be tuned,
 // the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedBackward_V2
-{
-    static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-    static constexpr ck::index_t BlockSize             = 256;
-    static constexpr ck::index_t MPerBlock             = 64;
-    static constexpr ck::index_t NPerBlock             = 128;
-    static constexpr ck::index_t KPerBlock             = 128;
-    // static constexpr ck::index_t Gemm1NPerBlock;
-    static constexpr ck::index_t Gemm1KPerBlock = 32;
-    static constexpr ck::index_t Gemm2KPerBlock = 64;
-    static constexpr ck::index_t AK1            = 8;
-    static constexpr ck::index_t BK1            = 8;
-    static constexpr ck::index_t B1K1           = 2;
-    static constexpr ck::index_t MPerXDL        = 32;
-    static constexpr ck::index_t NPerXDL        = 32;
-    static constexpr ck::index_t MXdlPerWave    = 2;
-    static constexpr ck::index_t NXdlPerWave    = 1;
-    // static constexpr ck::index_t Gemm1NXdlPerWave;
-    static constexpr ck::index_t Gemm2NXdlPerWave           = 1;
-    using ABlockTransferThreadClusterLengths_AK0_M_AK1      = S<4, 64, 1>;
-    using ABlockTransferThreadClusterArrangeOrder           = S<1, 0, 2>;
-    using ABlockTransferSrcAccessOrder                      = S<1, 0, 2>;
-    static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-    // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-    static constexpr bool ABlockLdsExtraM                             = true;
-    using BBlockTransferThreadClusterLengths_BK0_N_BK1                = S<4, 64, 1>;
-    using BBlockTransferThreadClusterArrangeOrder                     = S<1, 0, 2>;
-    using BBlockTransferSrcAccessOrder                                = S<1, 0, 2>;
-    static constexpr ck::index_t BBlockTransferSrcVectorDim           = 2;
-    // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-    static constexpr bool BBlockLdsExtraN                             = true;
-    // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-    using B1BlockTransferThreadClusterLengths_BK0_N_BK1      = S<8, 32, 1>;
-    using B1BlockTransferThreadClusterArrangeOrder           = S<0, 2, 1>;
-    using B1BlockTransferSrcAccessOrder                      = S<0, 2, 1>;
-    static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-    // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-    static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-    static constexpr bool B1BlockLdsExtraN                             = false;
-    static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle         = 1;
-    // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-    // using
-    // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-    // static constexpr ck::index_t
-    // CShuffleBlockTransferScalarPerVector_NPerBlock;
+struct GemmOpConstantsGroupedBackward_V2 {
+  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
+  static constexpr ck::index_t BlockSize = 256;
+  static constexpr ck::index_t MPerBlock = 64;
+  static constexpr ck::index_t NPerBlock = 128;
+  static constexpr ck::index_t KPerBlock = 128;
+  // static constexpr ck::index_t Gemm1NPerBlock;
+  static constexpr ck::index_t Gemm1KPerBlock = 32;
+  static constexpr ck::index_t Gemm2KPerBlock = 64;
+  static constexpr ck::index_t AK1 = 8;
+  static constexpr ck::index_t BK1 = 8;
+  static constexpr ck::index_t B1K1 = 2;
+  static constexpr ck::index_t MPerXDL = 32;
+  static constexpr ck::index_t NPerXDL = 32;
+  static constexpr ck::index_t MXdlPerWave = 2;
+  static constexpr ck::index_t NXdlPerWave = 1;
+  // static constexpr ck::index_t Gemm1NXdlPerWave;
+  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
+  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
+  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
+  static constexpr bool ABlockLdsExtraM = true;
+  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
+  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
+  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
+  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
+  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
+  static constexpr bool BBlockLdsExtraN = true;
+  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
+  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
+  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
+  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
+  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
+  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
+  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
+  static constexpr bool B1BlockLdsExtraN = false;
+  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
+  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
+  // using
+  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
+  // static constexpr ck::index_t
+  // CShuffleBlockTransferScalarPerVector_NPerBlock;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
index 3c5fdffc2c..d0cccf2b35 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
@@ -22,56 +22,60 @@
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
-struct batched_backward_masktype_attnbias_dispatched
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-    using Scale       = ck::tensor_operation::element_wise::Scale;
-
-    using QKVElementOp = PassThrough;
-    using YElementOp   = PassThrough;
-
-    using InputDataType    = scalar_t;
-    using OutputDataType   = typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
-    using GemmDataType     = scalar_t;
-    using AccDataType      = F32;
-    using ShuffleDataType  = F32;
-    using LSEDataType      = F32;
-    using ZDataType        = unsigned short;
-    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
-    using Acc1BiasDataType = void;
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-    static constexpr auto MaskingSpec =
-        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
-
-    static constexpr bool Deterministic = true;
-
-    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
+struct batched_backward_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+  using Scale = ck::tensor_operation::element_wise::Scale;
+
+  using QKVElementOp = PassThrough;
+  using YElementOp = PassThrough;
+
+  using InputDataType = scalar_t;
+  using OutputDataType =
+      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
+  using GemmDataType = scalar_t;
+  using AccDataType = F32;
+  using ShuffleDataType = F32;
+  using LSEDataType = F32;
+  using ZDataType = unsigned short;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr bool Deterministic = true;
+
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_BACKWARD_V1_HEADDIM_SWITCH
-#define BATCHED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)              \
-    [&] {                                                                          \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                                     \
-        {                                                                          \
-            constexpr ck::index_t kGemm1NPerBlock                = 32;             \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 1;              \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;              \
-            using kCShuffleBlockTransferClusterLengths           = S<1, 64, 1, 4>; \
-            __VA_ARGS__();                                                         \
-        }                                                                          \
-        else                                                                       \
-        {                                                                          \
-            constexpr ck::index_t kGemm1NPerBlock                = 64;             \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 2;              \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;              \
-            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>; \
-            __VA_ARGS__();                                                         \
-        };                                                                         \
-    }()
+#define BATCHED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                               \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
+      __VA_ARGS__();                                                  \
+    } else {                                                          \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
+      __VA_ARGS__();                                                  \
+    };                                                                \
+  }()
 #endif
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -142,9 +146,9 @@ struct batched_backward_masktype_attnbias_dispatched
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-    // clang-format on
+  // clang-format on
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -223,276 +227,299 @@ struct batched_backward_masktype_attnbias_dispatched
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-    // clang-format on
-
-    static constexpr auto I1 = ck::Number<1>{};
-    static constexpr auto I2 = ck::Number<2>{};
-    static constexpr auto I3 = ck::Number<3>{};
-
-    static void Run(BatchedBackwardParams& param, hipStream_t stream)
-    {
-        using ck::math::min;
-
-        if(param.K <= 64 && param.Kv <= 64)
-        {
-            // compile-time constants which don't depend on head-dim switching
-            constexpr ck::index_t thread_slice_length_ak1 =
-                GemmOpConstantsBatchedBackward_V1::AK1 /
-                GemmOpConstantsBatchedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
-                    I2);
-            constexpr ck::index_t thread_slice_length_bk1 =
-                GemmOpConstantsBatchedBackward_V1::BK1 /
-                GemmOpConstantsBatchedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
-                    I2);
-
-            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-                          "and ThreadClusterLengths!");
-
-            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_ak1);
-
-            BATCHED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-                constexpr ck::index_t thread_slice_length_cshuflle_n =
-                    (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                    kCShuffleBlockTransferClusterLengths::At(I3);
-
-                constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                    min(2, thread_slice_length_cshuflle_n);
-
-                ALIGN_SWITCH_2(
-                    kABBlockTransferSrcScalarPerVector_max,
-                    kABBlockTransferSrcScalarPerVector,
-                    param.K,
-                    kCShuffleBlockTransferScalarPerVector_max,
-                    kCShuffleBlockTransferScalarPerVector,
-                    param.Kv,
-                    [&] {
-                        using DeviceOpInstance =
-                            DeviceOpInstanceTemp_V1<kGemm1NPerBlock,
-                                                    kGemm1NXdlPerWave,
-                                                    kCShuffleNXdlPerWavePerShuffle,
-                                                    kCShuffleBlockTransferClusterLengths,
-                                                    kABBlockTransferSrcScalarPerVector,
-                                                    kCShuffleBlockTransferScalarPerVector>;
-
-                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                    });
+  // clang-format on
+
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
+  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    if (param.K <= 64 && param.Kv <= 64) {
+      // compile-time constants which don't depend on head-dim switching
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedBackward_V1::AK1 /
+          GemmOpConstantsBatchedBackward_V1::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedBackward_V1::BK1 /
+          GemmOpConstantsBatchedBackward_V1::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+          "and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      BATCHED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+        constexpr ck::index_t thread_slice_length_cshuflle_n =
+            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+             kGemm1NXdlPerWave) /
+            kCShuffleBlockTransferClusterLengths::At(I3);
+
+        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+            min(2, thread_slice_length_cshuflle_n);
+
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
             });
-        }
-        else
-        {
-            constexpr ck::index_t kGemm1NPerBlock                = 128;
-            constexpr ck::index_t kGemm1NXdlPerWave              = 4;
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>;
-
-            constexpr ck::index_t thread_slice_length_ak1 =
-                GemmOpConstantsBatchedBackward_V2::AK1 /
-                GemmOpConstantsBatchedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
-                    I2);
-            constexpr ck::index_t thread_slice_length_bk1 =
-                GemmOpConstantsBatchedBackward_V2::BK1 /
-                GemmOpConstantsBatchedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
-                    I2);
-
-            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-                          "and ThreadClusterLengths!");
-
-            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_ak1);
-
-            constexpr ck::index_t thread_slice_length_gemm1n =
-                kGemm1NPerBlock / GemmOpConstantsBatchedBackward_V2::
-                                      B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_gemm1n);
-
-            constexpr ck::index_t thread_slice_length_cshuflle_n =
-                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                kCShuffleBlockTransferClusterLengths::At(I3);
-
-            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                min(2, thread_slice_length_cshuflle_n);
-
-            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
-                         kCShuffleBlockTransferScalarPerVector_max)
-            {
-                ALIGN_SWITCH_2(
-                    kABBlockTransferSrcScalarPerVector_max,
-                    kABBlockTransferSrcScalarPerVector,
-                    param.K,
-                    kB1BlockTransferSrcScalarPerVector_max,
-                    kB1BlockTransferSrcScalarPerVector,
-                    param.Kv,
-                    [&] {
-                        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                            min(kB1BlockTransferSrcScalarPerVector,
-                                kCShuffleBlockTransferScalarPerVector_max);
-
-                        static_assert(kB1BlockTransferSrcScalarPerVector > 0,
-                                      "kB1BlockTransferSrcScalarPerVector must be positive");
-
-                        using DeviceOpInstance =
-                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
-                                                    kGemm1NXdlPerWave,
-                                                    kCShuffleNXdlPerWavePerShuffle,
-                                                    kCShuffleBlockTransferClusterLengths,
-                                                    kABBlockTransferSrcScalarPerVector,
-                                                    kB1BlockTransferSrcScalarPerVector,
-                                                    kCShuffleBlockTransferScalarPerVector>;
-
-                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                    });
-            }
-            else
-            {
-                ALIGN_SWITCH_2(
-                    kABBlockTransferSrcScalarPerVector_max,
-                    kABBlockTransferSrcScalarPerVector,
-                    param.K,
-                    kCShuffleBlockTransferScalarPerVector_max,
-                    kCShuffleBlockTransferScalarPerVector,
-                    param.Kv,
-                    [&] {
-                        constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                            min(kCShuffleBlockTransferScalarPerVector,
-                                kB1BlockTransferSrcScalarPerVector_max);
-
-                        static_assert(kB1BlockTransferSrcScalarPerVector > 0,
-                                      "kB1BlockTransferSrcScalarPerVector must be positive");
-
-                        using DeviceOpInstance =
-                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
-                                                    kGemm1NXdlPerWave,
-                                                    kCShuffleNXdlPerWavePerShuffle,
-                                                    kCShuffleBlockTransferClusterLengths,
-                                                    kABBlockTransferSrcScalarPerVector,
-                                                    kB1BlockTransferSrcScalarPerVector,
-                                                    kCShuffleBlockTransferScalarPerVector>;
-
-                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                    });
-            };
-        };
+      });
+    } else {
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsBatchedBackward_V2::AK1 /
+          GemmOpConstantsBatchedBackward_V2::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsBatchedBackward_V2::BK1 /
+          GemmOpConstantsBatchedBackward_V2::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+          "and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsBatchedBackward_V2::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          kCShuffleBlockTransferClusterLengths::At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(2, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+
+              static_assert(
+                  kB1BlockTransferSrcScalarPerVector > 0,
+                  "kB1BlockTransferSrcScalarPerVector must be positive");
+
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+
+              static_assert(
+                  kB1BlockTransferSrcScalarPerVector > 0,
+                  "kB1BlockTransferSrcScalarPerVector must be positive");
+
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
     };
-
-    template <typename DeviceOpInstance>
-    static void RunWithDeviceOp(BatchedBackwardParams& param, hipStream_t stream)
-    {
-        std::vector<ck::index_t> q_gs_ms_ks_lengths{param.B, param.Hq, param.M, param.K};
-        std::vector<ck::index_t> q_gs_ms_ks_strides{
-            param.q_strides[0], param.q_strides[2], param.q_strides[1], param.q_strides[3]};
-
-        std::vector<ck::index_t> k_gs_ns_ks_lengths{param.B, param.Hkv, param.N, param.K};
-        std::vector<ck::index_t> k_gs_ns_ks_strides{
-            param.k_strides[0], param.k_strides[2], param.k_strides[1], param.k_strides[3]};
-
-        std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {param.B, param.Hq, param.N, param.K};
-        std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {param.tmp_grad_k_strides[0],
-                                                           param.tmp_grad_k_strides[2],
-                                                           param.tmp_grad_k_strides[1],
-                                                           param.tmp_grad_k_strides[3]};
-
-        std::vector<ck::index_t> v_gs_os_ns_lengths{param.B, param.Hkv, param.Kv, param.N};
-        std::vector<ck::index_t> v_gs_os_ns_strides{
-            param.v_strides[0], param.v_strides[2], param.v_strides[3], param.v_strides[1]};
-
-        std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {param.B, param.Hq, param.Kv, param.N};
-        std::vector<ck::index_t> vgrad_gs_os_ns_strides = {param.tmp_grad_v_strides[0],
-                                                           param.tmp_grad_v_strides[2],
-                                                           param.tmp_grad_v_strides[3],
-                                                           param.tmp_grad_v_strides[1]};
-
-        std::vector<ck::index_t> y_gs_ms_os_lengths{param.B, param.Hq, param.M, param.Kv};
-        std::vector<ck::index_t> y_gs_ms_os_strides{
-            param.out_strides[0], param.out_strides[2], param.out_strides[1], param.out_strides[3]};
-
-        std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-        std::vector<ck::index_t> d_gs_ms_ns_lengths;
-        std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-        if constexpr(has_attn_bias)
-        {
-            d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-            d_gs_ms_ns_strides = {param.attn_bias_strides[0],
-                                  param.attn_bias_strides[1],
-                                  param.attn_bias_strides[2],
-                                  param.attn_bias_strides[3]};
-        }
-        else
-        {
-            d_gs_ms_ns_lengths = {1, 1, 1, 1};
-            d_gs_ms_ns_strides = {0, 0, 0, 0};
-        };
-
-        float alpha = param.scale;
-
-        auto op      = DeviceOpInstance{};
-        auto invoker = op.MakeInvoker();
-
-        auto arg_ptr = op.MakeArgumentPointer(
-            param.q_ptr,
-            param.k_ptr,
-            nullptr, // p_z_grid
-            param.v_ptr,
-            param.out_ptr,
-            param.logsumexp_ptr,
-            param.grad_out_ptr,
-            param.grad_q_ptr,
-            param.grad_k_ptr,
-            param.grad_v_ptr,
-            param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-            nullptr, // p_acc1_bias
-            param.bias_has_grad ? param.grad_bias_ptr : nullptr,
-            nullptr,
-            q_gs_ms_ks_lengths, // q, dQ should have same shape
-            q_gs_ms_ks_strides,
-            k_gs_ns_ks_lengths, // k, dK should have same shape
-            k_gs_ns_ks_strides,
-            {1, 1, 1, 1},       // z_gs_ms_ns_lengths
-            {0, 0, 0, 0},       // z_gs_ms_ns_strides
-            v_gs_os_ns_lengths, // v, dV should have same shape
-            v_gs_os_ns_strides,
-            y_gs_ms_os_lengths, // y, dY should have same shape
-            y_gs_ms_os_strides,
-            lse_gs_ms_lengths,
-            param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
-            param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
-            param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
-            param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
-            d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-            d_gs_ms_ns_strides,
-            {}, // acc1_biases_gs_ms_os_lengths
-            {}, // acc1_biases_gs_ms_os_strides
-            QKVElementOp{},
-            QKVElementOp{},
-            Scale{alpha},
-            QKVElementOp{},
-            YElementOp{},
-            param.dropout_prob,
-            std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-        if(!op.IsSupportedArgument(arg_ptr.get()))
-        {
-            std::ostringstream ostr;
-            ostr << op.GetTypeString() << " does not support this problem";
-
-            throw std::runtime_error(ostr.str());
-        }
-
-        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(
+      BatchedBackwardParams& param,
+      hipStream_t stream) {
+    std::vector<ck::index_t> q_gs_ms_ks_lengths{
+        param.B, param.Hq, param.M, param.K};
+    std::vector<ck::index_t> q_gs_ms_ks_strides{
+        param.q_strides[0],
+        param.q_strides[2],
+        param.q_strides[1],
+        param.q_strides[3]};
+
+    std::vector<ck::index_t> k_gs_ns_ks_lengths{
+        param.B, param.Hkv, param.N, param.K};
+    std::vector<ck::index_t> k_gs_ns_ks_strides{
+        param.k_strides[0],
+        param.k_strides[2],
+        param.k_strides[1],
+        param.k_strides[3]};
+
+    std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {
+        param.B, param.Hq, param.N, param.K};
+    std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
+        param.tmp_grad_k_strides[0],
+        param.tmp_grad_k_strides[2],
+        param.tmp_grad_k_strides[1],
+        param.tmp_grad_k_strides[3]};
+
+    std::vector<ck::index_t> v_gs_os_ns_lengths{
+        param.B, param.Hkv, param.Kv, param.N};
+    std::vector<ck::index_t> v_gs_os_ns_strides{
+        param.v_strides[0],
+        param.v_strides[2],
+        param.v_strides[3],
+        param.v_strides[1]};
+
+    std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {
+        param.B, param.Hq, param.Kv, param.N};
+    std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
+        param.tmp_grad_v_strides[0],
+        param.tmp_grad_v_strides[2],
+        param.tmp_grad_v_strides[3],
+        param.tmp_grad_v_strides[1]};
+
+    std::vector<ck::index_t> y_gs_ms_os_lengths{
+        param.B, param.Hq, param.M, param.Kv};
+    std::vector<ck::index_t> y_gs_ms_os_strides{
+        param.out_strides[0],
+        param.out_strides[2],
+        param.out_strides[1],
+        param.out_strides[3]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
+
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
+      d_gs_ms_ns_strides = {
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
     };
+
+    float alpha = param.scale;
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptr,
+        param.k_ptr,
+        nullptr, // p_z_grid
+        param.v_ptr,
+        param.out_ptr,
+        param.logsumexp_ptr,
+        param.grad_out_ptr,
+        param.grad_q_ptr,
+        param.grad_k_ptr,
+        param.grad_v_ptr,
+        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+        nullptr, // p_acc1_bias
+        param.bias_has_grad ? param.grad_bias_ptr : nullptr,
+        nullptr,
+        q_gs_ms_ks_lengths, // q, dQ should have same shape
+        q_gs_ms_ks_strides,
+        k_gs_ns_ks_lengths, // k, dK should have same shape
+        k_gs_ns_ks_strides,
+        {1, 1, 1, 1}, // z_gs_ms_ns_lengths
+        {0, 0, 0, 0}, // z_gs_ms_ns_strides
+        v_gs_os_ns_lengths, // v, dV should have same shape
+        v_gs_os_ns_strides,
+        y_gs_ms_os_lengths, // y, dY should have same shape
+        y_gs_ms_os_strides,
+        lse_gs_ms_lengths,
+        param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
+        param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
+        param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
+        param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
+        d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides
+        QKVElementOp{},
+        QKVElementOp{},
+        Scale{alpha},
+        QKVElementOp{},
+        YElementOp{},
+        param.dropout_prob,
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
-void run_batched_backward_masktype_attnbias_dispatched(BatchedBackwardParams& param,
-                                                       hipStream_t stream)
-{
-    batched_backward_masktype_attnbias_dispatched<scalar_t,
-                                                  custom_mask_type,
-                                                  has_attn_bias,
-                                                  use_fp32_qkv_grad>::Run(param, stream);
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
+void run_batched_backward_masktype_attnbias_dispatched(
+    BatchedBackwardParams& param,
+    hipStream_t stream) {
+  batched_backward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias,
+      use_fp32_qkv_grad>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
index 774c3000c7..4a589ae02f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
@@ -10,65 +10,104 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_backward.h"
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void
-run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_2(
-        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
-            if(param.custom_mask_type == 0)
-                run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t,
-                                                                  0,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            else if(param.custom_mask_type == 1)
-                run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t,
-                                                                  1,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            else if(param.custom_mask_type == 2)
-                run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t,
-                                                                  2,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0)
+          run_batched_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        else if (param.custom_mask_type == 1)
+          run_batched_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        else if (param.custom_mask_type == 2)
+          run_batched_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
index 3ffb862500..b218809be2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
@@ -10,62 +10,104 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_backward.h"
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
 
-void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_2(
-        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
-            if(param.custom_mask_type == 0)
-                run_batched_backward_masktype_attnbias_dispatched<ck::half_t,
-                                                                  0,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            else if(param.custom_mask_type == 1)
-                run_batched_backward_masktype_attnbias_dispatched<ck::half_t,
-                                                                  1,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            else if(param.custom_mask_type == 2)
-                run_batched_backward_masktype_attnbias_dispatched<ck::half_t,
-                                                                  2,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0)
+          run_batched_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        else if (param.custom_mask_type == 1)
+          run_batched_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        else if (param.custom_mask_type == 2)
+          run_batched_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
index 56dbb65233..f96a52d56b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
@@ -24,68 +24,65 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_forward_masktype_attnbias_dispatched
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-    using GemmDataType     = scalar_t;
-    using ADataType        = scalar_t;
-    using B0DataType       = scalar_t;
-    using B1DataType       = scalar_t;
-    using AccDataType      = F32;
-    using CShuffleDataType = F32;
-    using CDataType        = scalar_t;
-    using ZDataType        = unsigned short;
-    using LSEDataType      = F32;
-    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
-    using Acc1BiasDataType = void;
-
-    static constexpr ck::index_t NumDimG = 2;
-    static constexpr ck::index_t NumDimM = 1;
-    static constexpr ck::index_t NumDimN = 1;
-    static constexpr ck::index_t NumDimK = 1;
-    static constexpr ck::index_t NumDimO = 1;
-
-    using AElementOp    = PassThrough;
-    using B0ElementOp   = PassThrough;
-    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-    using B1ElementOp   = PassThrough;
-    using CElementOp    = PassThrough;
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-    static constexpr auto MaskingSpec =
-        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
-
-    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct batched_forward_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_FORWARD_HEADDIM_SWITCH
-#define BATCHED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)       \
-    [&] {                                                               \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else                                                            \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 128; \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-    }()
+#define BATCHED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                           \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+      __VA_ARGS__();                                              \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+      __VA_ARGS__();                                              \
+    } else {                                                      \
+      constexpr ck::index_t kGemm1NPerBlock = 128;                \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+      __VA_ARGS__();                                              \
+    }                                                             \
+  }()
 #endif
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -164,201 +161,219 @@ struct batched_forward_masktype_attnbias_dispatched
           kCShuffleBlockTransferScalarPerVector,
           GemmOpConstantsBatchedForward::Acc1BiasTransferSrcScalarPerVector,
           MaskingSpec>;
-    // clang-format on
-
-    static constexpr auto I1 = ck::Number<1>{};
-    static constexpr auto I2 = ck::Number<2>{};
-    static constexpr auto I3 = ck::Number<3>{};
-
-    static void Run(BatchedForwardParams& param, hipStream_t stream)
-    {
-        using ck::math::min;
-
-        // compile-time constants which don't depend on head-dim switching
-        constexpr ck::index_t thread_slice_length_ak1 =
-            GemmOpConstantsBatchedForward::AK1 /
-            GemmOpConstantsBatchedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-        constexpr ck::index_t thread_slice_length_bk1 =
-            GemmOpConstantsBatchedForward::BK1 /
-            GemmOpConstantsBatchedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-                      "ThreadClusterLengths!");
-
-        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-            min(8, thread_slice_length_ak1);
-
-        BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-            constexpr ck::index_t thread_slice_length_gemm1n =
-                kGemm1NPerBlock /
-                GemmOpConstantsBatchedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(
-                    I1);
-            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_gemm1n);
-
-            constexpr ck::index_t thread_slice_length_cshuflle_n =
-                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                GemmOpConstantsBatchedForward::
-                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
-
-            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                min(4, thread_slice_length_cshuflle_n);
-
-            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
-                         kCShuffleBlockTransferScalarPerVector_max)
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kB1BlockTransferSrcScalarPerVector_max,
-                               kB1BlockTransferSrcScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                                       min(kB1BlockTransferSrcScalarPerVector,
-                                           kCShuffleBlockTransferScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            }
-            else
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kCShuffleBlockTransferScalarPerVector_max,
-                               kCShuffleBlockTransferScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                                       min(kCShuffleBlockTransferScalarPerVector,
-                                           kB1BlockTransferSrcScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            };
-        });
+  // clang-format on
+
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsBatchedForward::AK1 /
+        GemmOpConstantsBatchedForward::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsBatchedForward::BK1 /
+        GemmOpConstantsBatchedForward::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+        "ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(8, thread_slice_length_ak1);
+
+    BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsBatchedForward::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedForward::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
+    std::vector<ck::index_t> a_gs_ms_ks_lengths{
+        param.B, param.Hq, param.M, param.K};
+    std::vector<ck::index_t> a_gs_ms_ks_strides{
+        param.q_strides[0],
+        param.q_strides[2],
+        param.q_strides[1],
+        param.q_strides[3]};
+
+    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
+        param.B, param.Hkv, param.N, param.K};
+    std::vector<ck::index_t> b0_gs_ns_ks_strides{
+        param.k_strides[0],
+        param.k_strides[2],
+        param.k_strides[1],
+        param.k_strides[3]};
+
+    // to be changed to b1_gs_ns_os_lengths
+    std::vector<ck::index_t> b1_gs_os_ns_lengths{
+        param.B, param.Hkv, param.Kv, param.N};
+    std::vector<ck::index_t> b1_gs_os_ns_strides{
+        param.v_strides[0],
+        param.v_strides[2],
+        param.v_strides[3],
+        param.v_strides[1]};
+
+    std::vector<ck::index_t> c_gs_ms_os_lengths{
+        param.B, param.Hq, param.M, param.Kv};
+    std::vector<ck::index_t> c_gs_ms_os_strides{
+        param.out_strides[0],
+        param.out_strides[2],
+        param.out_strides[1],
+        param.out_strides[3]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
+
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
+      d_gs_ms_ns_strides = {
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
     };
 
-    template <typename DeviceOpInstance>
-    static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream)
-    {
-        std::vector<ck::index_t> a_gs_ms_ks_lengths{param.B, param.Hq, param.M, param.K};
-        std::vector<ck::index_t> a_gs_ms_ks_strides{
-            param.q_strides[0], param.q_strides[2], param.q_strides[1], param.q_strides[3]};
-
-        std::vector<ck::index_t> b0_gs_ns_ks_lengths{param.B, param.Hkv, param.N, param.K};
-        std::vector<ck::index_t> b0_gs_ns_ks_strides{
-            param.k_strides[0], param.k_strides[2], param.k_strides[1], param.k_strides[3]};
-
-        // to be changed to b1_gs_ns_os_lengths
-        std::vector<ck::index_t> b1_gs_os_ns_lengths{param.B, param.Hkv, param.Kv, param.N};
-        std::vector<ck::index_t> b1_gs_os_ns_strides{
-            param.v_strides[0], param.v_strides[2], param.v_strides[3], param.v_strides[1]};
-
-        std::vector<ck::index_t> c_gs_ms_os_lengths{param.B, param.Hq, param.M, param.Kv};
-        std::vector<ck::index_t> c_gs_ms_os_strides{
-            param.out_strides[0], param.out_strides[2], param.out_strides[1], param.out_strides[3]};
-
-        std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-        std::vector<ck::index_t> d_gs_ms_ns_lengths;
-        std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-        if constexpr(has_attn_bias)
-        {
-            d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-            d_gs_ms_ns_strides = {param.attn_bias_strides[0],
-                                  param.attn_bias_strides[1],
-                                  param.attn_bias_strides[2],
-                                  param.attn_bias_strides[3]};
-        }
-        else
-        {
-            d_gs_ms_ns_lengths = {1, 1, 1, 1};
-            d_gs_ms_ns_strides = {0, 0, 0, 0};
-        };
-
-        float alpha = param.scale;
-
-        auto a_element_op    = AElementOp{};
-        auto b0_element_op   = B0ElementOp{};
-        auto acc0_element_op = Acc0ElementOp{alpha};
-        auto b1_element_op   = B1ElementOp{};
-        auto c_element_op    = CElementOp{};
-
-        auto op      = DeviceOpInstance{};
-        auto invoker = op.MakeInvoker();
-
-        auto arg_ptr = op.MakeArgumentPointer(
-            param.q_ptr,
-            param.k_ptr,
-            param.v_ptr,
-            param.out_ptr,
-            nullptr,
-            param.logsumexp_ptr,
-            param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-            {}, // p_acc1_biases;
-            a_gs_ms_ks_lengths,
-            a_gs_ms_ks_strides,
-            b0_gs_ns_ks_lengths,
-            b0_gs_ns_ks_strides,
-            b1_gs_os_ns_lengths,
-            b1_gs_os_ns_strides,
-            c_gs_ms_os_lengths,
-            c_gs_ms_os_strides,
-            {1, 1, 1, 1},
-            {0, 0, 0, 0},
-            lse_gs_ms_lengths,
-            d_gs_ms_ns_lengths,
-            d_gs_ms_ns_strides,
-            {}, // acc1_biases_gs_ms_os_lengths
-            {}, // acc1_biases_gs_ms_os_strides,
-            a_element_op,
-            b0_element_op,
-            acc0_element_op,
-            b1_element_op,
-            c_element_op,
-            param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-            std::tuple<int64_t, int64_t>(param.philox_seed,
-                                         param.philox_offset)); // dropout random seed and offset
-
-        SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-        if(!op.IsSupportedArgument(arg_ptr.get()))
-        {
-            std::ostringstream ostr;
-
-            ostr << op.GetTypeString() << " does not support this problem";
-
-            throw std::runtime_error(ostr.str());
-        }
-
-        invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-    };
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptr,
+        param.k_ptr,
+        param.v_ptr,
+        param.out_ptr,
+        nullptr,
+        param.logsumexp_ptr,
+        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+        {}, // p_acc1_biases;
+        a_gs_ms_ks_lengths,
+        a_gs_ms_ks_strides,
+        b0_gs_ns_ks_lengths,
+        b0_gs_ns_ks_strides,
+        b1_gs_os_ns_lengths,
+        b1_gs_os_ns_strides,
+        c_gs_ms_os_lengths,
+        c_gs_ms_os_strides,
+        {1, 1, 1, 1},
+        {0, 0, 0, 0},
+        lse_gs_ms_lengths,
+        d_gs_ms_ns_lengths,
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op,
+        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+        std::tuple<int64_t, int64_t>(
+            param.philox_seed,
+            param.philox_offset)); // dropout random seed and offset
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_forward_masktype_attnbias_dispatched(BatchedForwardParams& param,
-                                                      hipStream_t stream)
-{
-    batched_forward_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
-        param, stream);
+void run_batched_forward_masktype_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  batched_forward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
index 362379dd0e..6cc45e3a20 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_forward.h"
 
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
-                                                                        hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
-                                                                        hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
-                                                                        hipStream_t stream);
-
-void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                            stream);
-        else if(param.custom_mask_type == 1)
-            run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                            stream);
-        else if(param.custom_mask_type == 2)
-            run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                            stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_batched_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_batched_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_batched_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
index 1d42798c8d..e153cfa3c7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_forward.h"
 
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
-
-void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                           stream);
-        else if(param.custom_mask_type == 1)
-            run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                           stream);
-        else if(param.custom_mask_type == 2)
-            run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                           stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_batched_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_batched_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_batched_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
index af7c7679c5..c72fce2d5a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
@@ -24,62 +24,59 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_infer_masktype_attnbias_dispatched
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-    using GemmDataType     = scalar_t;
-    using ADataType        = scalar_t;
-    using B0DataType       = scalar_t;
-    using B1DataType       = scalar_t;
-    using AccDataType      = F32;
-    using CShuffleDataType = F32;
-    using CDataType        = scalar_t;
-    using ZDataType        = unsigned short;
-    using LSEDataType      = F32;
-    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
-    using Acc1BiasDataType = void;
-
-    using AElementOp    = PassThrough;
-    using B0ElementOp   = PassThrough;
-    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-    using B1ElementOp   = PassThrough;
-    using CElementOp    = PassThrough;
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-    static constexpr auto MaskingSpec =
-        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
-
-    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct batched_infer_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef BATCHED_INFER_HEADDIM_SWITCH
-#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)         \
-    [&] {                                                               \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else                                                            \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 128; \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-    }()
+#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                         \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
+      constexpr ck::index_t kGemm1NPerBlock = 32;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
+      __VA_ARGS__();                                            \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
+      constexpr ck::index_t kGemm1NPerBlock = 64;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
+      __VA_ARGS__();                                            \
+    } else {                                                    \
+      constexpr ck::index_t kGemm1NPerBlock = 128;              \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
+      __VA_ARGS__();                                            \
+    }                                                           \
+  }()
 #endif
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -153,190 +150,210 @@ struct batched_infer_masktype_attnbias_dispatched
           GemmOpConstantsBatchedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
-    // clang-format on
-
-    static constexpr auto I1 = ck::Number<1>{};
-    static constexpr auto I2 = ck::Number<2>{};
-    static constexpr auto I3 = ck::Number<3>{};
-
-    static void Run(BatchedForwardParams& param, hipStream_t stream)
-    {
-        using ck::math::min;
-
-        // compile-time constants which don't depend on head-dim switching
-        constexpr ck::index_t thread_slice_length_ak1 =
-            GemmOpConstantsBatchedInfer::AK1 /
-            GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-        constexpr ck::index_t thread_slice_length_bk1 =
-            GemmOpConstantsBatchedInfer::BK1 /
-            GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-                      "ThreadClusterLengths!");
-
-        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-            min(8, thread_slice_length_ak1);
-
-        BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-            constexpr ck::index_t thread_slice_length_gemm1n =
-                kGemm1NPerBlock /
-                GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-                min(4, thread_slice_length_gemm1n);
-
-            constexpr ck::index_t thread_slice_length_cshuflle_n =
-                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                GemmOpConstantsBatchedInfer::
-                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
-
-            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                min(4, thread_slice_length_cshuflle_n);
-
-            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
-                         kCShuffleBlockTransferScalarPerVector_max)
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kB1BlockTransferSrcScalarPerVector_max,
-                               kB1BlockTransferSrcScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                                       min(kB1BlockTransferSrcScalarPerVector,
-                                           kCShuffleBlockTransferScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            }
-            else
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kCShuffleBlockTransferScalarPerVector_max,
-                               kCShuffleBlockTransferScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                                       min(kCShuffleBlockTransferScalarPerVector,
-                                           kB1BlockTransferSrcScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            };
-        });
+  // clang-format on
+
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsBatchedInfer::AK1 /
+        GemmOpConstantsBatchedInfer::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsBatchedInfer::BK1 /
+        GemmOpConstantsBatchedInfer::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+        "ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(8, thread_slice_length_ak1);
+
+    BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsBatchedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsBatchedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
+    std::vector<ck::index_t> a_gs_ms_ks_lengths{
+        param.B, param.Hq, param.M, param.K};
+    std::vector<ck::index_t> a_gs_ms_ks_strides{
+        param.q_strides[0],
+        param.q_strides[2],
+        param.q_strides[1],
+        param.q_strides[3]};
+
+    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
+        param.B, param.Hkv, param.N, param.K};
+    std::vector<ck::index_t> b0_gs_ns_ks_strides{
+        param.k_strides[0],
+        param.k_strides[2],
+        param.k_strides[1],
+        param.k_strides[3]};
+
+    // to be changed to b1_gs_ns_os_lengths
+    std::vector<ck::index_t> b1_gs_os_ns_lengths{
+        param.B, param.Hkv, param.Kv, param.N};
+    std::vector<ck::index_t> b1_gs_os_ns_strides{
+        param.v_strides[0],
+        param.v_strides[2],
+        param.v_strides[3],
+        param.v_strides[1]};
+
+    std::vector<ck::index_t> c_gs_ms_os_lengths{
+        param.B, param.Hq, param.M, param.Kv};
+    std::vector<ck::index_t> c_gs_ms_os_strides{
+        param.out_strides[0],
+        param.out_strides[2],
+        param.out_strides[1],
+        param.out_strides[3]};
+
+    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
+
+    std::vector<ck::index_t> d_gs_ms_ns_lengths;
+    std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+    if constexpr (has_attn_bias) {
+      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
+      d_gs_ms_ns_strides = {
+          param.attn_bias_strides[0],
+          param.attn_bias_strides[1],
+          param.attn_bias_strides[2],
+          param.attn_bias_strides[3]};
+    } else {
+      d_gs_ms_ns_lengths = {1, 1, 1, 1};
+      d_gs_ms_ns_strides = {0, 0, 0, 0};
     };
 
-    template <typename DeviceOpInstance>
-    static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream)
-    {
-        std::vector<ck::index_t> a_gs_ms_ks_lengths{param.B, param.Hq, param.M, param.K};
-        std::vector<ck::index_t> a_gs_ms_ks_strides{
-            param.q_strides[0], param.q_strides[2], param.q_strides[1], param.q_strides[3]};
-
-        std::vector<ck::index_t> b0_gs_ns_ks_lengths{param.B, param.Hkv, param.N, param.K};
-        std::vector<ck::index_t> b0_gs_ns_ks_strides{
-            param.k_strides[0], param.k_strides[2], param.k_strides[1], param.k_strides[3]};
-
-        // to be changed to b1_gs_ns_os_lengths
-        std::vector<ck::index_t> b1_gs_os_ns_lengths{param.B, param.Hkv, param.Kv, param.N};
-        std::vector<ck::index_t> b1_gs_os_ns_strides{
-            param.v_strides[0], param.v_strides[2], param.v_strides[3], param.v_strides[1]};
-
-        std::vector<ck::index_t> c_gs_ms_os_lengths{param.B, param.Hq, param.M, param.Kv};
-        std::vector<ck::index_t> c_gs_ms_os_strides{
-            param.out_strides[0], param.out_strides[2], param.out_strides[1], param.out_strides[3]};
-
-        std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-        std::vector<ck::index_t> d_gs_ms_ns_lengths;
-        std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-        if constexpr(has_attn_bias)
-        {
-            d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-            d_gs_ms_ns_strides = {param.attn_bias_strides[0],
-                                  param.attn_bias_strides[1],
-                                  param.attn_bias_strides[2],
-                                  param.attn_bias_strides[3]};
-        }
-        else
-        {
-            d_gs_ms_ns_lengths = {1, 1, 1, 1};
-            d_gs_ms_ns_strides = {0, 0, 0, 0};
-        };
-
-        float alpha = param.scale;
-
-        auto a_element_op    = AElementOp{};
-        auto b0_element_op   = B0ElementOp{};
-        auto acc0_element_op = Acc0ElementOp{alpha};
-        auto b1_element_op   = B1ElementOp{};
-        auto c_element_op    = CElementOp{};
-
-        auto op      = DeviceOpInstance{};
-        auto invoker = op.MakeInvoker();
-
-        auto arg_ptr = op.MakeArgumentPointer(param.q_ptr,
-                                              param.k_ptr,
-                                              param.v_ptr,
-                                              param.out_ptr,
-                                              param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-                                              {}, // p_acc1_biases;
-                                              a_gs_ms_ks_lengths,
-                                              a_gs_ms_ks_strides,
-                                              b0_gs_ns_ks_lengths,
-                                              b0_gs_ns_ks_strides,
-                                              b1_gs_os_ns_lengths,
-                                              b1_gs_os_ns_strides,
-                                              c_gs_ms_os_lengths,
-                                              c_gs_ms_os_strides,
-                                              d_gs_ms_ns_lengths,
-                                              d_gs_ms_ns_strides,
-                                              {}, // acc1_biases_gs_ms_os_lengths
-                                              {}, // acc1_biases_gs_ms_os_strides,
-                                              a_element_op,
-                                              b0_element_op,
-                                              acc0_element_op,
-                                              b1_element_op,
-                                              c_element_op);
-
-        SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-        if(!op.IsSupportedArgument(arg_ptr.get()))
-        {
-            std::ostringstream ostr;
-
-            ostr << op.GetTypeString() << " does not support this problem";
-
-            throw std::runtime_error(ostr.str());
-        }
-
-        invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-    };
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptr,
+        param.k_ptr,
+        param.v_ptr,
+        param.out_ptr,
+        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
+        {}, // p_acc1_biases;
+        a_gs_ms_ks_lengths,
+        a_gs_ms_ks_strides,
+        b0_gs_ns_ks_lengths,
+        b0_gs_ns_ks_strides,
+        b1_gs_os_ns_lengths,
+        b1_gs_os_ns_strides,
+        c_gs_ms_os_lengths,
+        c_gs_ms_os_strides,
+        d_gs_ms_ns_lengths,
+        d_gs_ms_ns_strides,
+        {}, // acc1_biases_gs_ms_os_lengths
+        {}, // acc1_biases_gs_ms_os_strides,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op);
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_infer_masktype_attnbias_dispatched(BatchedForwardParams& param, hipStream_t stream)
-{
-    batched_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
-        param, stream);
+void run_batched_infer_masktype_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  batched_infer_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
index 1530aad324..03a2e36ca5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_infer.h"
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
-
-void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
-        else if(param.custom_mask_type == 1)
-            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
-        else if(param.custom_mask_type == 2)
-            run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
index 52b385aa20..4d0625a469 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_batched_infer.h"
 
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
-
-void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
-        else if(param.custom_mask_type == 1)
-            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
-        else if(param.custom_mask_type == 2)
-            run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
+
+void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_batched_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
index 6362916ae9..1fdabf29f2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
@@ -10,18 +10,19 @@
 #include "ck_fmha_op_helper.h"
 
 // list the template parameters that is commonly used
-struct GemmOpConstantsCommon
-{
-    static constexpr ck::index_t NumDimG = 2;
-    static constexpr ck::index_t NumDimM = 1;
-    static constexpr ck::index_t NumDimN = 1;
-    static constexpr ck::index_t NumDimK = 1;
-    static constexpr ck::index_t NumDimO = 1;
+struct GemmOpConstantsCommon {
+  static constexpr ck::index_t NumDimG = 2;
+  static constexpr ck::index_t NumDimM = 1;
+  static constexpr ck::index_t NumDimN = 1;
+  static constexpr ck::index_t NumDimK = 1;
+  static constexpr ck::index_t NumDimO = 1;
 
-    static constexpr auto TensorSpecA = ck::tensor_operation::device::TensorSpecialization::Default;
-    static constexpr auto TensorSpecB0 =
-        ck::tensor_operation::device::TensorSpecialization::Default;
-    static constexpr auto TensorSpecB1 =
-        ck::tensor_operation::device::TensorSpecialization::Default;
-    static constexpr auto TensorSpecC = ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecA =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB0 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecB1 =
+      ck::tensor_operation::device::TensorSpecialization::Default;
+  static constexpr auto TensorSpecC =
+      ck::tensor_operation::device::TensorSpecialization::Default;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
index 2fb06ddd85..b2866cc4fc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
@@ -24,56 +24,60 @@
 #include "ck_fmha_op_helper.h"
 #include "ck_fmha_params.h"
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
-struct grouped_backward_masktype_attnbias_dispatched
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-    using Scale       = ck::tensor_operation::element_wise::Scale;
-
-    using QKVElementOp = PassThrough;
-    using YElementOp   = PassThrough;
-
-    using InputDataType    = scalar_t;
-    using OutputDataType   = typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
-    using GemmDataType     = scalar_t;
-    using AccDataType      = F32;
-    using ShuffleDataType  = F32;
-    using LSEDataType      = F32;
-    using ZDataType        = unsigned short;
-    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
-    using Acc1BiasDataType = void;
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-    static constexpr auto MaskingSpec =
-        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
-
-    static constexpr bool Deterministic = true;
-
-    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
+struct grouped_backward_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+  using Scale = ck::tensor_operation::element_wise::Scale;
+
+  using QKVElementOp = PassThrough;
+  using YElementOp = PassThrough;
+
+  using InputDataType = scalar_t;
+  using OutputDataType =
+      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
+  using GemmDataType = scalar_t;
+  using AccDataType = F32;
+  using ShuffleDataType = F32;
+  using LSEDataType = F32;
+  using ZDataType = unsigned short;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr bool Deterministic = true;
+
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef GROUPED_BACKWARD_V1_HEADDIM_SWITCH
-#define GROUPED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)              \
-    [&] {                                                                          \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                                     \
-        {                                                                          \
-            constexpr ck::index_t kGemm1NPerBlock                = 32;             \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 1;              \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;              \
-            using kCShuffleBlockTransferClusterLengths           = S<1, 64, 1, 4>; \
-            __VA_ARGS__();                                                         \
-        }                                                                          \
-        else                                                                       \
-        {                                                                          \
-            constexpr ck::index_t kGemm1NPerBlock                = 64;             \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 2;              \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;              \
-            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>; \
-            __VA_ARGS__();                                                         \
-        };                                                                         \
-    }()
+#define GROUPED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                               \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
+      __VA_ARGS__();                                                  \
+    } else {                                                          \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
+      __VA_ARGS__();                                                  \
+    };                                                                \
+  }()
 #endif
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -144,9 +148,9 @@ struct grouped_backward_masktype_attnbias_dispatched
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-    // clang-format on
+  // clang-format on
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -225,294 +229,297 @@ struct grouped_backward_masktype_attnbias_dispatched
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec,
           Deterministic>;
-    // clang-format on
-
-    static constexpr auto I1 = ck::Number<1>{};
-    static constexpr auto I2 = ck::Number<2>{};
-    static constexpr auto I3 = ck::Number<3>{};
-
-    static void Run(GroupedBackwardParams& param, hipStream_t stream)
-    {
-        using ck::math::min;
-
-        if(param.K <= 64 && param.Kv <= 64)
-        {
-            // compile-time constants which don't depend on head-dim switching
-            constexpr ck::index_t thread_slice_length_ak1 =
-                GemmOpConstantsGroupedBackward_V1::AK1 /
-                GemmOpConstantsGroupedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
-                    I2);
-            constexpr ck::index_t thread_slice_length_bk1 =
-                GemmOpConstantsGroupedBackward_V1::BK1 /
-                GemmOpConstantsGroupedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
-                    I2);
-
-            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-                          "and ThreadClusterLengths!");
-
-            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_ak1);
-
-            GROUPED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-                constexpr ck::index_t thread_slice_length_cshuflle_n =
-                    (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                    kCShuffleBlockTransferClusterLengths::At(I3);
-
-                constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                    min(2, thread_slice_length_cshuflle_n);
-
-                ALIGN_SWITCH_2(
-                    kABBlockTransferSrcScalarPerVector_max,
-                    kABBlockTransferSrcScalarPerVector,
-                    param.K,
-                    kCShuffleBlockTransferScalarPerVector_max,
-                    kCShuffleBlockTransferScalarPerVector,
-                    param.Kv,
-                    [&] {
-                        using DeviceOpInstance =
-                            DeviceOpInstanceTemp_V1<kGemm1NPerBlock,
-                                                    kGemm1NXdlPerWave,
-                                                    kCShuffleNXdlPerWavePerShuffle,
-                                                    kCShuffleBlockTransferClusterLengths,
-                                                    kABBlockTransferSrcScalarPerVector,
-                                                    kCShuffleBlockTransferScalarPerVector>;
-
-                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                    });
+  // clang-format on
+
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
+  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    if (param.K <= 64 && param.Kv <= 64) {
+      // compile-time constants which don't depend on head-dim switching
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsGroupedBackward_V1::AK1 /
+          GemmOpConstantsGroupedBackward_V1::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsGroupedBackward_V1::BK1 /
+          GemmOpConstantsGroupedBackward_V1::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+          "and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      GROUPED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+        constexpr ck::index_t thread_slice_length_cshuflle_n =
+            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+             kGemm1NXdlPerWave) /
+            kCShuffleBlockTransferClusterLengths::At(I3);
+
+        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+            min(2, thread_slice_length_cshuflle_n);
+
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
             });
-        }
-        else
-        {
-            constexpr ck::index_t kGemm1NPerBlock                = 128;
-            constexpr ck::index_t kGemm1NXdlPerWave              = 4;
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-            using kCShuffleBlockTransferClusterLengths           = S<1, 32, 1, 8>;
-
-            constexpr ck::index_t thread_slice_length_ak1 =
-                GemmOpConstantsGroupedBackward_V2::AK1 /
-                GemmOpConstantsGroupedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(
-                    I2);
-            constexpr ck::index_t thread_slice_length_bk1 =
-                GemmOpConstantsGroupedBackward_V2::BK1 /
-                GemmOpConstantsGroupedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(
-                    I2);
-
-            static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-                          "and ThreadClusterLengths!");
-
-            constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_ak1);
-
-            constexpr ck::index_t thread_slice_length_gemm1n =
-                kGemm1NPerBlock / GemmOpConstantsGroupedBackward_V2::
-                                      B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_gemm1n);
-
-            constexpr ck::index_t thread_slice_length_cshuflle_n =
-                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                kCShuffleBlockTransferClusterLengths::At(I3);
-
-            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                min(2, thread_slice_length_cshuflle_n);
-
-            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
-                         kCShuffleBlockTransferScalarPerVector_max)
-            {
-                ALIGN_SWITCH_2(
-                    kABBlockTransferSrcScalarPerVector_max,
-                    kABBlockTransferSrcScalarPerVector,
-                    param.K,
-                    kB1BlockTransferSrcScalarPerVector_max,
-                    kB1BlockTransferSrcScalarPerVector,
-                    param.Kv,
-                    [&] {
-                        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                            min(kB1BlockTransferSrcScalarPerVector,
-                                kCShuffleBlockTransferScalarPerVector_max);
-                        using DeviceOpInstance =
-                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
-                                                    kGemm1NXdlPerWave,
-                                                    kCShuffleNXdlPerWavePerShuffle,
-                                                    kCShuffleBlockTransferClusterLengths,
-                                                    kABBlockTransferSrcScalarPerVector,
-                                                    kB1BlockTransferSrcScalarPerVector,
-                                                    kCShuffleBlockTransferScalarPerVector>;
-
-                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                    });
-            }
-            else
-            {
-                ALIGN_SWITCH_2(
-                    kABBlockTransferSrcScalarPerVector_max,
-                    kABBlockTransferSrcScalarPerVector,
-                    param.K,
-                    kCShuffleBlockTransferScalarPerVector_max,
-                    kCShuffleBlockTransferScalarPerVector,
-                    param.Kv,
-                    [&] {
-                        constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                            min(kCShuffleBlockTransferScalarPerVector,
-                                kB1BlockTransferSrcScalarPerVector_max);
-                        using DeviceOpInstance =
-                            DeviceOpInstanceTemp_V2<kGemm1NPerBlock,
-                                                    kGemm1NXdlPerWave,
-                                                    kCShuffleNXdlPerWavePerShuffle,
-                                                    kCShuffleBlockTransferClusterLengths,
-                                                    kABBlockTransferSrcScalarPerVector,
-                                                    kB1BlockTransferSrcScalarPerVector,
-                                                    kCShuffleBlockTransferScalarPerVector>;
-
-                        RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                    });
-            };
-        };
-    };
-
-    template <typename DeviceOpInstance>
-    static void RunWithDeviceOp(GroupedBackwardParams& param, hipStream_t stream)
-    {
-        // Tunables
-        std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-        for(std::size_t i = 0; i < param.num_batches; i++)
-        {
-            int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
-            int N = param.host_seqlen_k.empty()
-                        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-                        : param.host_seqlen_k[i];
-            int K    = param.K;
-            int Kv   = param.Kv;
-            int G1q  = param.Hq;
-            int G1kv = param.Hkv;
-
-            std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1q, M, K};
-            std::vector<ck::index_t> q_gs_ms_ks_strides{
-                0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-            std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1kv, N, K};
-            std::vector<ck::index_t> k_gs_ns_ks_strides{
-                0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-            std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {1, G1q, N, K};
-            std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {0,
-                                                               param.tmp_grad_k_strides[1],
-                                                               param.tmp_grad_k_strides[0],
-                                                               param.tmp_grad_k_strides[2]};
-
-            // to be changed to v_gs_ns_os_lengths
-            std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1kv, Kv, N};
-            std::vector<ck::index_t> v_gs_os_ns_strides{
-                0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-            std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {1, G1q, Kv, N};
-            std::vector<ck::index_t> vgrad_gs_os_ns_strides = {0,
-                                                               param.tmp_grad_v_strides[1],
-                                                               param.tmp_grad_v_strides[2],
-                                                               param.tmp_grad_v_strides[0]};
-
-            std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1q, M, Kv};
-            std::vector<ck::index_t> y_gs_ms_os_strides{
-                0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-            std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
-            std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-            std::vector<ck::index_t> d_gs_ms_ns_lengths;
-            std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-            if constexpr(has_attn_bias)
-            {
-                d_gs_ms_ns_lengths = {1, G1q, M, N};
-                d_gs_ms_ns_strides = {0,
-                                      param.attn_bias_strides[0],
-                                      param.attn_bias_strides[1],
-                                      param.attn_bias_strides[2]};
-            }
-            else
-            {
-                d_gs_ms_ns_lengths = {1, 1, 1, 1};
-                d_gs_ms_ns_strides = {0, 0, 0, 0};
-            };
-
-            problem_descs.push_back({
-                q_gs_ms_ks_lengths, // q, dQ should have same shape
-                q_gs_ms_ks_strides,
-                k_gs_ns_ks_lengths, // k, dK should have same shape
-                k_gs_ns_ks_strides,
-                {1, 1, 1, 1},
-                {0, 0, 0, 0},
-                v_gs_os_ns_lengths, // v, dV should have same shape
-                v_gs_os_ns_strides,
-                y_gs_ms_os_lengths, // y, dY should have same shape
-                y_gs_ms_os_strides,
-                lse_gs_ms_lengths,
-                lse_gs_ms_strides,
-                param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
-                param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
-                param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
-                param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
-                d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-                d_gs_ms_ns_strides,
-                {}, // acc1_biases_gs_ms_os_lengths
-                {}, // acc1_biases_gs_ms_os_strides
+      });
+    } else {
+      constexpr ck::index_t kGemm1NPerBlock = 128;
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
+      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
+
+      constexpr ck::index_t thread_slice_length_ak1 =
+          GemmOpConstantsGroupedBackward_V2::AK1 /
+          GemmOpConstantsGroupedBackward_V2::
+              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+      constexpr ck::index_t thread_slice_length_bk1 =
+          GemmOpConstantsGroupedBackward_V2::BK1 /
+          GemmOpConstantsGroupedBackward_V2::
+              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+      static_assert(
+          thread_slice_length_ak1 == thread_slice_length_bk1,
+          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
+          "and ThreadClusterLengths!");
+
+      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_ak1);
+
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsGroupedBackward_V2::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          kCShuffleBlockTransferClusterLengths::At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(2, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kCShuffleBlockTransferClusterLengths,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
             });
-        }
-
-        float alpha = param.scale;
-
-        auto op      = DeviceOpInstance{};
-        auto invoker = op.MakeInvoker();
-
-        auto arg_ptr = op.MakeArgumentPointer(
-            param.q_ptrs,
-            param.k_ptrs,
-            param.randvals_ptrs,
-            param.v_ptrs,
-            param.out_ptrs,
-            param.logsumexp_ptrs,
-            param.grad_out_ptrs,
-            param.grad_q_ptrs,
-            param.grad_k_ptrs,
-            param.grad_v_ptrs,
-            param.attn_bias_ptrs,
-            {}, // p_acc1_bias_vec;
-            param.grad_bias_ptrs,
-            {},
-            problem_descs,
-            QKVElementOp{},
-            QKVElementOp{},
-            Scale{alpha},
-            QKVElementOp{},
-            YElementOp{},
-            param.dropout_prob,
-            std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-        SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-        if(!op.IsSupportedArgument(arg_ptr.get()))
-        {
-            std::ostringstream ostr;
-            ostr << op.GetTypeString() << " does not support this problem";
-
-            throw std::runtime_error(ostr.str());
-        }
-
-        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+      };
     };
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(
+      GroupedBackwardParams& param,
+      hipStream_t stream) {
+    // Tunables
+    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+    for (std::size_t i = 0; i < param.num_batches; i++) {
+      int M =
+          param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
+      int N = param.host_seqlen_k.empty()
+          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+          : param.host_seqlen_k[i];
+      int K = param.K;
+      int Kv = param.Kv;
+      int G1q = param.Hq;
+      int G1kv = param.Hkv;
+
+      std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1q, M, K};
+      std::vector<ck::index_t> q_gs_ms_ks_strides{
+          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+      std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1kv, N, K};
+      std::vector<ck::index_t> k_gs_ns_ks_strides{
+          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+      std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {1, G1q, N, K};
+      std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
+          0,
+          param.tmp_grad_k_strides[1],
+          param.tmp_grad_k_strides[0],
+          param.tmp_grad_k_strides[2]};
+
+      // to be changed to v_gs_ns_os_lengths
+      std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1kv, Kv, N};
+      std::vector<ck::index_t> v_gs_os_ns_strides{
+          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+      std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {1, G1q, Kv, N};
+      std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
+          0,
+          param.tmp_grad_v_strides[1],
+          param.tmp_grad_v_strides[2],
+          param.tmp_grad_v_strides[0]};
+
+      std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1q, M, Kv};
+      std::vector<ck::index_t> y_gs_ms_os_strides{
+          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
+      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+      std::vector<ck::index_t> d_gs_ms_ns_lengths;
+      std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+      if constexpr (has_attn_bias) {
+        d_gs_ms_ns_lengths = {1, G1q, M, N};
+        d_gs_ms_ns_strides = {
+            0,
+            param.attn_bias_strides[0],
+            param.attn_bias_strides[1],
+            param.attn_bias_strides[2]};
+      } else {
+        d_gs_ms_ns_lengths = {1, 1, 1, 1};
+        d_gs_ms_ns_strides = {0, 0, 0, 0};
+      };
+
+      problem_descs.push_back({
+          q_gs_ms_ks_lengths, // q, dQ should have same shape
+          q_gs_ms_ks_strides,
+          k_gs_ns_ks_lengths, // k, dK should have same shape
+          k_gs_ns_ks_strides,
+          {1, 1, 1, 1},
+          {0, 0, 0, 0},
+          v_gs_os_ns_lengths, // v, dV should have same shape
+          v_gs_os_ns_strides,
+          y_gs_ms_os_lengths, // y, dY should have same shape
+          y_gs_ms_os_strides,
+          lse_gs_ms_lengths,
+          lse_gs_ms_strides,
+          param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
+          param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
+          param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
+          param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
+          d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
+          d_gs_ms_ns_strides,
+          {}, // acc1_biases_gs_ms_os_lengths
+          {}, // acc1_biases_gs_ms_os_strides
+      });
+    }
+
+    float alpha = param.scale;
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptrs,
+        param.k_ptrs,
+        param.randvals_ptrs,
+        param.v_ptrs,
+        param.out_ptrs,
+        param.logsumexp_ptrs,
+        param.grad_out_ptrs,
+        param.grad_q_ptrs,
+        param.grad_k_ptrs,
+        param.grad_v_ptrs,
+        param.attn_bias_ptrs,
+        {}, // p_acc1_bias_vec;
+        param.grad_bias_ptrs,
+        {},
+        problem_descs,
+        QKVElementOp{},
+        QKVElementOp{},
+        Scale{alpha},
+        QKVElementOp{},
+        YElementOp{},
+        param.dropout_prob,
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
 
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias, bool use_fp32_qkv_grad>
-void run_grouped_backward_masktype_attnbias_dispatched(GroupedBackwardParams& param,
-                                                       hipStream_t stream)
-{
-    grouped_backward_masktype_attnbias_dispatched<scalar_t,
-                                                  custom_mask_type,
-                                                  has_attn_bias,
-                                                  use_fp32_qkv_grad>::Run(param, stream);
+template <
+    typename scalar_t,
+    int32_t custom_mask_type,
+    bool has_attn_bias,
+    bool use_fp32_qkv_grad>
+void run_grouped_backward_masktype_attnbias_dispatched(
+    GroupedBackwardParams& param,
+    hipStream_t stream) {
+  grouped_backward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias,
+      use_fp32_qkv_grad>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
index 7d4458899e..0e3f4f8fac 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
@@ -10,71 +10,104 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_backward.h"
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void
-run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_2(
-        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
-            if(param.custom_mask_type == 0)
-            {
-                run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t,
-                                                                  0,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            }
-            else if(param.custom_mask_type == 1)
-            {
-                run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t,
-                                                                  1,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            }
-            else if(param.custom_mask_type == 2)
-            {
-                run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t,
-                                                                  2,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            }
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0) {
+          run_grouped_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        } else if (param.custom_mask_type == 1) {
+          run_grouped_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        } else if (param.custom_mask_type == 2) {
+          run_grouped_backward_masktype_attnbias_dispatched<
+              ck::bhalf_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        } else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
index a89291891b..ca8a0a4d30 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
@@ -10,68 +10,104 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_backward.h"
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
 
-void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_2(
-        param.has_attn_bias, HAS_ATTN_BIAS, param.use_fp32_qkv_grad, USE_FP32_QKV_GRAD, [&] {
-            if(param.custom_mask_type == 0)
-            {
-                run_grouped_backward_masktype_attnbias_dispatched<ck::half_t,
-                                                                  0,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            }
-            else if(param.custom_mask_type == 1)
-            {
-                run_grouped_backward_masktype_attnbias_dispatched<ck::half_t,
-                                                                  1,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            }
-            else if(param.custom_mask_type == 2)
-            {
-                run_grouped_backward_masktype_attnbias_dispatched<ck::half_t,
-                                                                  2,
-                                                                  HAS_ATTN_BIAS,
-                                                                  USE_FP32_QKV_GRAD>(param, stream);
-            }
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.use_fp32_qkv_grad,
+      USE_FP32_QKV_GRAD,
+      [&] {
+        if (param.custom_mask_type == 0) {
+          run_grouped_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              0,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        } else if (param.custom_mask_type == 1) {
+          run_grouped_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              1,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        } else if (param.custom_mask_type == 2) {
+          run_grouped_backward_masktype_attnbias_dispatched<
+              ck::half_t,
+              2,
+              HAS_ATTN_BIAS,
+              USE_FP32_QKV_GRAD>(param, stream);
+        } else
+          throw std::runtime_error("Invalid custom_mask_type value");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
index 997b92dd68..0095ec2a7b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
@@ -24,62 +24,59 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_forward_masktype_attnbias_dispatched
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-    using GemmDataType     = scalar_t;
-    using ADataType        = scalar_t;
-    using B0DataType       = scalar_t;
-    using B1DataType       = scalar_t;
-    using AccDataType      = F32;
-    using CShuffleDataType = F32;
-    using CDataType        = scalar_t;
-    using ZDataType        = unsigned short;
-    using LSEDataType      = F32;
-    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
-    using Acc1BiasDataType = void;
-
-    using AElementOp    = PassThrough;
-    using B0ElementOp   = PassThrough;
-    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-    using B1ElementOp   = PassThrough;
-    using CElementOp    = PassThrough;
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-    static constexpr auto MaskingSpec =
-        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
-
-    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct grouped_forward_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef GROUPED_FORWARD_HEADDIM_SWITCH
-#define GROUPED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)       \
-    [&] {                                                               \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else                                                            \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 128; \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-    }()
+#define GROUPED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                           \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
+      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
+      __VA_ARGS__();                                              \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
+      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
+      __VA_ARGS__();                                              \
+    } else {                                                      \
+      constexpr ck::index_t kGemm1NPerBlock = 128;                \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
+      __VA_ARGS__();                                              \
+    }                                                             \
+  }()
 #endif
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -158,220 +155,221 @@ struct grouped_forward_masktype_attnbias_dispatched
           kCShuffleBlockTransferScalarPerVector,
           GemmOpConstantsGroupedForward::Acc1BiasTransferSrcScalarPerVector,
           MaskingSpec>;
-    // clang-format on
-
-    static constexpr auto I1 = ck::Number<1>{};
-    static constexpr auto I2 = ck::Number<2>{};
-    static constexpr auto I3 = ck::Number<3>{};
-
-    static void Run(GroupedForwardParams& param, hipStream_t stream)
-    {
-        using ck::math::min;
-
-        // compile-time constants which don't depend on head-dim switching
-        constexpr ck::index_t thread_slice_length_ak1 =
-            GemmOpConstantsGroupedForward::AK1 /
-            GemmOpConstantsGroupedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-        constexpr ck::index_t thread_slice_length_bk1 =
-            GemmOpConstantsGroupedForward::BK1 /
-            GemmOpConstantsGroupedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-                      "ThreadClusterLengths!");
-
-        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-            min(8, thread_slice_length_ak1);
-
-        GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-            constexpr ck::index_t thread_slice_length_gemm1n =
-                kGemm1NPerBlock /
-                GemmOpConstantsGroupedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(
-                    I1);
-            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-                min(2, thread_slice_length_gemm1n);
-
-            constexpr ck::index_t thread_slice_length_cshuflle_n =
-                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                GemmOpConstantsGroupedForward::
-                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
-
-            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                min(4, thread_slice_length_cshuflle_n);
-
-            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
-                         kCShuffleBlockTransferScalarPerVector_max)
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kB1BlockTransferSrcScalarPerVector_max,
-                               kB1BlockTransferSrcScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                                       min(kB1BlockTransferSrcScalarPerVector,
-                                           kCShuffleBlockTransferScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            }
-            else
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kCShuffleBlockTransferScalarPerVector_max,
-                               kCShuffleBlockTransferScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                                       min(kCShuffleBlockTransferScalarPerVector,
-                                           kB1BlockTransferSrcScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            };
-        });
-    };
-
-    template <typename DeviceOpInstance>
-    static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream)
-    {
-        std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-        for(std::size_t i = 0; i < param.num_batches; i++)
-        {
-            int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-            int N = param.host_seqlen_k.empty()
-                        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-                        : param.host_seqlen_k[i];
-            int K    = param.K;
-            int Kv   = param.Kv;
-            int G1q  = param.Hq;
-            int G1kv = param.Hkv;
-
-            std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
-            std::vector<ck::index_t> a_gs_ms_ks_strides{
-                0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-            std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
-            std::vector<ck::index_t> b0_gs_ns_ks_strides{
-                0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-            // to be changed to b1_gs_ns_os_lengths
-            std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
-            std::vector<ck::index_t> b1_gs_os_ns_strides{
-                0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-            std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
-            std::vector<ck::index_t> c_gs_ms_os_strides{
-                0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-            std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
-            std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-            std::vector<ck::index_t> d_gs_ms_ns_lengths;
-            std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-            if constexpr(has_attn_bias)
-            {
-                d_gs_ms_ns_lengths = {1, G1q, M, N};
-                d_gs_ms_ns_strides = {0,
-                                      param.attn_bias_strides[0],
-                                      param.attn_bias_strides[1],
-                                      param.attn_bias_strides[2]};
-            }
-            else
-            {
-                d_gs_ms_ns_lengths = {1, 1, 1, 1};
-                d_gs_ms_ns_strides = {0, 0, 0, 0};
-            };
-
-            problem_descs.push_back({a_gs_ms_ks_lengths,
-                                     a_gs_ms_ks_strides,
-                                     b0_gs_ns_ks_lengths,
-                                     b0_gs_ns_ks_strides,
-                                     b1_gs_os_ns_lengths,
-                                     b1_gs_os_ns_strides,
-                                     c_gs_ms_os_lengths,
-                                     c_gs_ms_os_strides,
-                                     {1, 1, 1, 1},
-                                     {0, 0, 0, 0},
-                                     lse_gs_ms_lengths,
-                                     lse_gs_ms_strides,
-                                     d_gs_ms_ns_lengths,
-                                     d_gs_ms_ns_strides,
-                                     {},   // acc1_bias_gs_ms_os_lengths
-                                     {}}); // acc1_bias_gs_ms_os_strides
-        }
-
-        float alpha = param.scale;
-
-        auto a_element_op    = AElementOp{};
-        auto b0_element_op   = B0ElementOp{};
-        auto acc0_element_op = Acc0ElementOp{alpha};
-        auto b1_element_op   = B1ElementOp{};
-        auto c_element_op    = CElementOp{};
-
-        auto op      = DeviceOpInstance{};
-        auto invoker = op.MakeInvoker();
-
-        auto arg_ptr = op.MakeArgumentPointer(
-            param.q_ptrs,
-            param.k_ptrs,
-            param.v_ptrs,
-            param.out_ptrs,
-            param.randvals_ptrs,
-            param.logsumexp_ptrs,
-            param.attn_bias_ptrs,
-            {}, // p_acc1_biases
-            problem_descs,
-            a_element_op,
-            b0_element_op,
-            acc0_element_op,
-            b1_element_op,
-            c_element_op,
-            param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-            std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-        auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-        SimpleDeviceMem workspace(sizeInBytes);
-
-        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-        if(!op.IsSupportedArgument(arg_ptr.get()))
-        {
-            std::ostringstream ostr;
-
-            ostr << op.GetTypeString() << " does not support this problem";
-
-            throw std::runtime_error(ostr.str());
-        }
-
-        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-    };
+  // clang-format on
+
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsGroupedForward::AK1 /
+        GemmOpConstantsGroupedForward::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsGroupedForward::BK1 /
+        GemmOpConstantsGroupedForward::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+        "ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(8, thread_slice_length_ak1);
+
+    GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsGroupedForward::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(2, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsGroupedForward::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
+    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+    for (std::size_t i = 0; i < param.num_batches; i++) {
+      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+      int N = param.host_seqlen_k.empty()
+          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+          : param.host_seqlen_k[i];
+      int K = param.K;
+      int Kv = param.Kv;
+      int G1q = param.Hq;
+      int G1kv = param.Hkv;
+
+      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
+      std::vector<ck::index_t> a_gs_ms_ks_strides{
+          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
+      std::vector<ck::index_t> b0_gs_ns_ks_strides{
+          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+      // to be changed to b1_gs_ns_os_lengths
+      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
+      std::vector<ck::index_t> b1_gs_os_ns_strides{
+          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
+      std::vector<ck::index_t> c_gs_ms_os_strides{
+          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
+      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
+
+      std::vector<ck::index_t> d_gs_ms_ns_lengths;
+      std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+      if constexpr (has_attn_bias) {
+        d_gs_ms_ns_lengths = {1, G1q, M, N};
+        d_gs_ms_ns_strides = {
+            0,
+            param.attn_bias_strides[0],
+            param.attn_bias_strides[1],
+            param.attn_bias_strides[2]};
+      } else {
+        d_gs_ms_ns_lengths = {1, 1, 1, 1};
+        d_gs_ms_ns_strides = {0, 0, 0, 0};
+      };
+
+      problem_descs.push_back(
+          {a_gs_ms_ks_lengths,
+           a_gs_ms_ks_strides,
+           b0_gs_ns_ks_lengths,
+           b0_gs_ns_ks_strides,
+           b1_gs_os_ns_lengths,
+           b1_gs_os_ns_strides,
+           c_gs_ms_os_lengths,
+           c_gs_ms_os_strides,
+           {1, 1, 1, 1},
+           {0, 0, 0, 0},
+           lse_gs_ms_lengths,
+           lse_gs_ms_strides,
+           d_gs_ms_ns_lengths,
+           d_gs_ms_ns_strides,
+           {}, // acc1_bias_gs_ms_os_lengths
+           {}}); // acc1_bias_gs_ms_os_strides
+    }
+
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptrs,
+        param.k_ptrs,
+        param.v_ptrs,
+        param.out_ptrs,
+        param.randvals_ptrs,
+        param.logsumexp_ptrs,
+        param.attn_bias_ptrs,
+        {}, // p_acc1_biases
+        problem_descs,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op,
+        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
+
+    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
+
+    SimpleDeviceMem workspace(sizeInBytes);
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_forward_masktype_attnbias_dispatched(GroupedForwardParams& param,
-                                                      hipStream_t stream)
-{
-    grouped_forward_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
-        param, stream);
+void run_grouped_forward_masktype_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_forward_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
index 6679f87310..72ebd715e9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_forward.h"
 
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
-                                                                        hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
-                                                                        hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
-                                                                        hipStream_t stream);
-
-void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                            stream);
-        else if(param.custom_mask_type == 1)
-            run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                            stream);
-        else if(param.custom_mask_type == 2)
-            run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                            stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_grouped_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_grouped_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_grouped_forward_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
index 70a295cec0..eb53ad4337 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_forward.h"
 
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
-
-void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                           stream);
-        else if(param.custom_mask_type == 1)
-            run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                           stream);
-        else if(param.custom_mask_type == 2)
-            run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                           stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_grouped_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_grouped_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_grouped_forward_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
index 08e5434d73..fbc0b2b1a2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
@@ -24,62 +24,59 @@
 #include "ck_fmha_params.h"
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_infer_masktype_attnbias_dispatched
-{
-    using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-    using GemmDataType     = scalar_t;
-    using ADataType        = scalar_t;
-    using B0DataType       = scalar_t;
-    using B1DataType       = scalar_t;
-    using AccDataType      = F32;
-    using CShuffleDataType = F32;
-    using CDataType        = scalar_t;
-    using ZDataType        = unsigned short;
-    using LSEDataType      = F32;
-    using Acc0BiasDataType = typename std::conditional<has_attn_bias, scalar_t, void>::type;
-    using Acc1BiasDataType = void;
-
-    using AElementOp    = PassThrough;
-    using B0ElementOp   = PassThrough;
-    using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-    using B1ElementOp   = PassThrough;
-    using CElementOp    = PassThrough;
-
-    static constexpr auto GemmSpec = ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-    static constexpr auto MaskingSpec =
-        static_cast<ck::tensor_operation::device::MaskingSpecialization>(custom_mask_type);
-
-    static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
+struct grouped_infer_masktype_attnbias_dispatched {
+  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
+
+  using GemmDataType = scalar_t;
+  using ADataType = scalar_t;
+  using B0DataType = scalar_t;
+  using B1DataType = scalar_t;
+  using AccDataType = F32;
+  using CShuffleDataType = F32;
+  using CDataType = scalar_t;
+  using ZDataType = unsigned short;
+  using LSEDataType = F32;
+  using Acc0BiasDataType =
+      typename std::conditional<has_attn_bias, scalar_t, void>::type;
+  using Acc1BiasDataType = void;
+
+  using AElementOp = PassThrough;
+  using B0ElementOp = PassThrough;
+  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
+  using B1ElementOp = PassThrough;
+  using CElementOp = PassThrough;
+
+  static constexpr auto GemmSpec =
+      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
+  static constexpr auto MaskingSpec =
+      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
+          custom_mask_type);
+
+  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
 
 #ifndef GROUPED_INFER_HEADDIM_SWITCH
-#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...)         \
-    [&] {                                                               \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                          \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 32;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 1;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                     \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 64;  \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 2;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-        else                                                            \
-        {                                                               \
-            constexpr ck::index_t kGemm1NPerBlock                = 128; \
-            constexpr ck::index_t kGemm1NXdlPerWave              = 4;   \
-            constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-            __VA_ARGS__();                                              \
-        }                                                               \
-    }()
+#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
+  [&] {                                                         \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
+      constexpr ck::index_t kGemm1NPerBlock = 32;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
+      __VA_ARGS__();                                            \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
+      constexpr ck::index_t kGemm1NPerBlock = 64;               \
+      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
+      __VA_ARGS__();                                            \
+    } else {                                                    \
+      constexpr ck::index_t kGemm1NPerBlock = 128;              \
+      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
+      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
+      __VA_ARGS__();                                            \
+    }                                                           \
+  }()
 #endif
 
-    // clang-format off
+  // clang-format off
   template <
       ck::index_t kGemm1NPerBlock,
       ck::index_t kGemm1NXdlPerWave,
@@ -153,206 +150,210 @@ struct grouped_infer_masktype_attnbias_dispatched
           GemmOpConstantsGroupedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
           kCShuffleBlockTransferScalarPerVector,
           MaskingSpec>;
-    // clang-format on
-
-    static constexpr auto I1 = ck::Number<1>{};
-    static constexpr auto I2 = ck::Number<2>{};
-    static constexpr auto I3 = ck::Number<3>{};
-
-    static void Run(GroupedForwardParams& param, hipStream_t stream)
-    {
-        using ck::math::min;
-
-        // compile-time constants which don't depend on head-dim switching
-        constexpr ck::index_t thread_slice_length_ak1 =
-            GemmOpConstantsGroupedInfer::AK1 /
-            GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-        constexpr ck::index_t thread_slice_length_bk1 =
-            GemmOpConstantsGroupedInfer::BK1 /
-            GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-        static_assert(thread_slice_length_ak1 == thread_slice_length_bk1,
-                      "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-                      "ThreadClusterLengths!");
-
-        constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-            min(8, thread_slice_length_ak1);
-
-        GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-            constexpr ck::index_t thread_slice_length_gemm1n =
-                kGemm1NPerBlock /
-                GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-            constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-                min(4, thread_slice_length_gemm1n);
-
-            constexpr ck::index_t thread_slice_length_cshuflle_n =
-                (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock / kGemm1NXdlPerWave) /
-                GemmOpConstantsGroupedInfer::
-                    CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::At(I3);
-
-            constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-                min(4, thread_slice_length_cshuflle_n);
-
-            if constexpr(kB1BlockTransferSrcScalarPerVector_max >=
-                         kCShuffleBlockTransferScalarPerVector_max)
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kB1BlockTransferSrcScalarPerVector_max,
-                               kB1BlockTransferSrcScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                                       min(kB1BlockTransferSrcScalarPerVector,
-                                           kCShuffleBlockTransferScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            }
-            else
-            {
-                ALIGN_SWITCH_2(kABBlockTransferSrcScalarPerVector_max,
-                               kABBlockTransferSrcScalarPerVector,
-                               param.K,
-                               kCShuffleBlockTransferScalarPerVector_max,
-                               kCShuffleBlockTransferScalarPerVector,
-                               param.Kv,
-                               [&] {
-                                   constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                                       min(kCShuffleBlockTransferScalarPerVector,
-                                           kB1BlockTransferSrcScalarPerVector_max);
-                                   using DeviceOpInstance =
-                                       DeviceOpInstanceTemp<kGemm1NPerBlock,
-                                                            kGemm1NXdlPerWave,
-                                                            kCShuffleNXdlPerWavePerShuffle,
-                                                            kABBlockTransferSrcScalarPerVector,
-                                                            kB1BlockTransferSrcScalarPerVector,
-                                                            kCShuffleBlockTransferScalarPerVector>;
-
-                                   RunWithDeviceOp<DeviceOpInstance>(param, stream);
-                               });
-            };
-        });
-    };
-
-    template <typename DeviceOpInstance>
-    static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream)
-    {
-        std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-        for(std::size_t i = 0; i < param.num_batches; i++)
-        {
-            int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-            int N = param.host_seqlen_k.empty()
-                        ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-                        : param.host_seqlen_k[i];
-            int K    = param.K;
-            int Kv   = param.Kv;
-            int G1q  = param.Hq;
-            int G1kv = param.Hkv;
-
-            std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
-            std::vector<ck::index_t> a_gs_ms_ks_strides{
-                0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-            std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
-            std::vector<ck::index_t> b0_gs_ns_ks_strides{
-                0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-            // to be changed to b1_gs_ns_os_lengths
-            std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
-            std::vector<ck::index_t> b1_gs_os_ns_strides{
-                0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-            std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
-            std::vector<ck::index_t> c_gs_ms_os_strides{
-                0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-            std::vector<ck::index_t> d_gs_ms_ns_lengths;
-            std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-            if constexpr(has_attn_bias)
-            {
-                d_gs_ms_ns_lengths = {1, G1q, M, N};
-                d_gs_ms_ns_strides = {0,
-                                      param.attn_bias_strides[0],
-                                      param.attn_bias_strides[1],
-                                      param.attn_bias_strides[2]};
-            }
-            else
-            {
-                d_gs_ms_ns_lengths = {1, 1, 1, 1};
-                d_gs_ms_ns_strides = {0, 0, 0, 0};
-            };
-
-            problem_descs.push_back({a_gs_ms_ks_lengths,
-                                     a_gs_ms_ks_strides,
-                                     b0_gs_ns_ks_lengths,
-                                     b0_gs_ns_ks_strides,
-                                     b1_gs_os_ns_lengths,
-                                     b1_gs_os_ns_strides,
-                                     c_gs_ms_os_lengths,
-                                     c_gs_ms_os_strides,
-                                     d_gs_ms_ns_lengths,
-                                     d_gs_ms_ns_strides,
-                                     {},   // acc1_bias_gs_ms_os_lengths
-                                     {}}); // acc1_bias_gs_ms_os_strides
-        }
-
-        float alpha = param.scale;
-
-        auto a_element_op    = AElementOp{};
-        auto b0_element_op   = B0ElementOp{};
-        auto acc0_element_op = Acc0ElementOp{alpha};
-        auto b1_element_op   = B1ElementOp{};
-        auto c_element_op    = CElementOp{};
-
-        auto op      = DeviceOpInstance{};
-        auto invoker = op.MakeInvoker();
-
-        auto arg_ptr = op.MakeArgumentPointer(param.q_ptrs,
-                                              param.k_ptrs,
-                                              param.v_ptrs,
-                                              param.out_ptrs,
-                                              param.attn_bias_ptrs,
-                                              {}, // p_acc1_biases
-                                              problem_descs,
-                                              a_element_op,
-                                              b0_element_op,
-                                              acc0_element_op,
-                                              b1_element_op,
-                                              c_element_op);
-
-        auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-        SimpleDeviceMem workspace(sizeInBytes);
-
-        op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-        if(!op.IsSupportedArgument(arg_ptr.get()))
-        {
-            std::ostringstream ostr;
-
-            ostr << op.GetTypeString() << " does not support this problem";
-
-            throw std::runtime_error(ostr.str());
-        }
-
-        (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-    };
+  // clang-format on
+
+  static constexpr auto I1 = ck::Number<1>{};
+  static constexpr auto I2 = ck::Number<2>{};
+  static constexpr auto I3 = ck::Number<3>{};
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    using ck::math::min;
+
+    // compile-time constants which don't depend on head-dim switching
+    constexpr ck::index_t thread_slice_length_ak1 =
+        GemmOpConstantsGroupedInfer::AK1 /
+        GemmOpConstantsGroupedInfer::
+            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
+    constexpr ck::index_t thread_slice_length_bk1 =
+        GemmOpConstantsGroupedInfer::BK1 /
+        GemmOpConstantsGroupedInfer::
+            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
+
+    static_assert(
+        thread_slice_length_ak1 == thread_slice_length_bk1,
+        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
+        "ThreadClusterLengths!");
+
+    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
+        min(8, thread_slice_length_ak1);
+
+    GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
+      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
+          GemmOpConstantsGroupedInfer::
+              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
+      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
+          min(4, thread_slice_length_gemm1n);
+
+      constexpr ck::index_t thread_slice_length_cshuflle_n =
+          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
+           kGemm1NXdlPerWave) /
+          GemmOpConstantsGroupedInfer::
+              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
+                  At(I3);
+
+      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
+          min(4, thread_slice_length_cshuflle_n);
+
+      if constexpr (
+          kB1BlockTransferSrcScalarPerVector_max >=
+          kCShuffleBlockTransferScalarPerVector_max) {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kB1BlockTransferSrcScalarPerVector_max,
+            kB1BlockTransferSrcScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
+                  min(kB1BlockTransferSrcScalarPerVector,
+                      kCShuffleBlockTransferScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      } else {
+        ALIGN_SWITCH_2(
+            kABBlockTransferSrcScalarPerVector_max,
+            kABBlockTransferSrcScalarPerVector,
+            param.K,
+            kCShuffleBlockTransferScalarPerVector_max,
+            kCShuffleBlockTransferScalarPerVector,
+            param.Kv,
+            [&] {
+              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
+                  min(kCShuffleBlockTransferScalarPerVector,
+                      kB1BlockTransferSrcScalarPerVector_max);
+              using DeviceOpInstance = DeviceOpInstanceTemp<
+                  kGemm1NPerBlock,
+                  kGemm1NXdlPerWave,
+                  kCShuffleNXdlPerWavePerShuffle,
+                  kABBlockTransferSrcScalarPerVector,
+                  kB1BlockTransferSrcScalarPerVector,
+                  kCShuffleBlockTransferScalarPerVector>;
+
+              RunWithDeviceOp<DeviceOpInstance>(param, stream);
+            });
+      };
+    });
+  };
+
+  template <typename DeviceOpInstance>
+  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
+    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
+
+    for (std::size_t i = 0; i < param.num_batches; i++) {
+      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
+      int N = param.host_seqlen_k.empty()
+          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
+          : param.host_seqlen_k[i];
+      int K = param.K;
+      int Kv = param.Kv;
+      int G1q = param.Hq;
+      int G1kv = param.Hkv;
+
+      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
+      std::vector<ck::index_t> a_gs_ms_ks_strides{
+          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
+
+      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
+      std::vector<ck::index_t> b0_gs_ns_ks_strides{
+          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
+
+      // to be changed to b1_gs_ns_os_lengths
+      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
+      std::vector<ck::index_t> b1_gs_os_ns_strides{
+          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
+
+      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
+      std::vector<ck::index_t> c_gs_ms_os_strides{
+          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
+
+      std::vector<ck::index_t> d_gs_ms_ns_lengths;
+      std::vector<ck::index_t> d_gs_ms_ns_strides;
+
+      if constexpr (has_attn_bias) {
+        d_gs_ms_ns_lengths = {1, G1q, M, N};
+        d_gs_ms_ns_strides = {
+            0,
+            param.attn_bias_strides[0],
+            param.attn_bias_strides[1],
+            param.attn_bias_strides[2]};
+      } else {
+        d_gs_ms_ns_lengths = {1, 1, 1, 1};
+        d_gs_ms_ns_strides = {0, 0, 0, 0};
+      };
+
+      problem_descs.push_back(
+          {a_gs_ms_ks_lengths,
+           a_gs_ms_ks_strides,
+           b0_gs_ns_ks_lengths,
+           b0_gs_ns_ks_strides,
+           b1_gs_os_ns_lengths,
+           b1_gs_os_ns_strides,
+           c_gs_ms_os_lengths,
+           c_gs_ms_os_strides,
+           d_gs_ms_ns_lengths,
+           d_gs_ms_ns_strides,
+           {}, // acc1_bias_gs_ms_os_lengths
+           {}}); // acc1_bias_gs_ms_os_strides
+    }
+
+    float alpha = param.scale;
+
+    auto a_element_op = AElementOp{};
+    auto b0_element_op = B0ElementOp{};
+    auto acc0_element_op = Acc0ElementOp{alpha};
+    auto b1_element_op = B1ElementOp{};
+    auto c_element_op = CElementOp{};
+
+    auto op = DeviceOpInstance{};
+    auto invoker = op.MakeInvoker();
+
+    auto arg_ptr = op.MakeArgumentPointer(
+        param.q_ptrs,
+        param.k_ptrs,
+        param.v_ptrs,
+        param.out_ptrs,
+        param.attn_bias_ptrs,
+        {}, // p_acc1_biases
+        problem_descs,
+        a_element_op,
+        b0_element_op,
+        acc0_element_op,
+        b1_element_op,
+        c_element_op);
+
+    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
+
+    SimpleDeviceMem workspace(sizeInBytes);
+
+    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
+
+    if (!op.IsSupportedArgument(arg_ptr.get())) {
+      std::ostringstream ostr;
+
+      ostr << op.GetTypeString() << " does not support this problem";
+
+      throw std::runtime_error(ostr.str());
+    }
+
+    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
+  };
 };
 
 template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_infer_masktype_attnbias_dispatched(GroupedForwardParams& param, hipStream_t stream)
-{
-    grouped_infer_masktype_attnbias_dispatched<scalar_t, custom_mask_type, has_attn_bias>::Run(
-        param, stream);
+void run_grouped_infer_masktype_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_infer_masktype_attnbias_dispatched<
+      scalar_t,
+      custom_mask_type,
+      has_attn_bias>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
index 5d91ad4a10..ef10143987 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_infer.h"
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
-
-void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
-        else if(param.custom_mask_type == 1)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
-        else if(param.custom_mask_type == 2)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                          stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::bhalf_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
index cd7dbb9771..7fa075c85f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
@@ -10,43 +10,54 @@
 #include "ck_bool_switch.h"
 #include "ck_fmha_grouped_infer.h"
 
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
-
-extern template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
-
-void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        if(param.custom_mask_type == 0)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
-        else if(param.custom_mask_type == 1)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
-        else if(param.custom_mask_type == 2)
-            run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, HAS_ATTN_BIAS>(param,
-                                                                                         stream);
-        else
-            throw std::runtime_error("Invalid custom_mask_type value");
-    });
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
+
+void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    if (param.custom_mask_type == 0)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          0,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 1)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          1,
+          HAS_ATTN_BIAS>(param, stream);
+    else if (param.custom_mask_type == 2)
+      run_grouped_infer_masktype_attnbias_dispatched<
+          ck::half_t,
+          2,
+          HAS_ATTN_BIAS>(param, stream);
+    else
+      throw std::runtime_error("Invalid custom_mask_type value");
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
index f9cd1a49cd..24ab800e9f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
@@ -13,34 +13,33 @@
 #include <ck/utility/data_type.hpp>
 
 template <typename scalar_t>
-struct MaxVectorSizeForType
-{
-    static constexpr int value = 4;
+struct MaxVectorSizeForType {
+  static constexpr int value = 4;
 };
 
 template <>
-struct MaxVectorSizeForType<ck::half_t>
-{
-    static constexpr int value = 8;
+struct MaxVectorSizeForType<ck::half_t> {
+  static constexpr int value = 8;
 };
 
 template <>
-struct MaxVectorSizeForType<ck::bhalf_t>
-{
-    static constexpr int value = 8;
+struct MaxVectorSizeForType<ck::bhalf_t> {
+  static constexpr int value = 8;
 };
 
-struct SimpleDeviceMem
-{
-    SimpleDeviceMem() = delete;
-    SimpleDeviceMem(size_t sizeInBytes)
-    {
-        pData_ = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
-    }
-    void* GetDeviceBuffer() { return pData_; }
-    ~SimpleDeviceMem() { c10::cuda::HIPCachingAllocator::raw_delete(pData_); }
-
-    void* pData_;
+struct SimpleDeviceMem {
+  SimpleDeviceMem() = delete;
+  SimpleDeviceMem(size_t sizeInBytes) {
+    pData_ = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
+  }
+  void* GetDeviceBuffer() {
+    return pData_;
+  }
+  ~SimpleDeviceMem() {
+    c10::cuda::HIPCachingAllocator::raw_delete(pData_);
+  }
+
+  void* pData_;
 };
 
 // useful aliasing for making the codes easy
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
index a741d28b93..918126591e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
@@ -9,210 +9,204 @@
 #include <array>
 #include <cstdint>
 
-struct BatchedInferParams
-{
-    int B;   // batch size
-    int M;   // seq_len for Query
-    int N;   // seq_len for Key and Value
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    float scale;
-    bool has_attn_bias;
-
-    // BMHK mode strides
-    std::array<int, 4> q_strides;
-    std::array<int, 4> k_strides;
-    std::array<int, 4> v_strides;
-    std::array<int, 4> out_strides;
-    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    const void* attn_bias_ptr;
-
-    uint8_t custom_mask_type;
-
-    void* out_ptr;
+struct BatchedInferParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+
+  // BMHK mode strides
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> out_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* out_ptr;
 };
 
-struct BatchedForwardParams : public BatchedInferParams
-{
-    bool use_dropout;
-    bool compute_logsumexp;
+struct BatchedForwardParams : public BatchedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
 
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
-    // completely contiguous
-    void* logsumexp_ptr;
+  // completely contiguous
+  void* logsumexp_ptr;
 };
 
-struct GroupedInferParams
-{
-    int num_batches;
-    int M;   // total seq_len for all queries in the batch
-    int N;   // total seq_len for all keys/values in the batch
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    int max_seqlen_q;
-
-    std::vector<int> host_seqstart_q;
-    std::vector<int> host_seqstart_k;
-    std::vector<int> host_seqlen_k;
-
-    float scale;
-    bool has_attn_bias;
-
-    // MHK mode strides, last-dim contiguous
-    std::array<int, 3> q_strides;
-    std::array<int, 3> k_strides;
-    std::array<int, 3> v_strides;
-    std::array<int, 3> out_strides;
-
-    // 4d tensor view [B, H, M, N]
-    std::array<int, 4> attn_bias_strides;
-
-    std::vector<const void*> q_ptrs;
-    std::vector<const void*> k_ptrs;
-    std::vector<const void*> v_ptrs;
-    std::vector<const void*> attn_bias_ptrs;
-    std::vector<void*> out_ptrs;
-
-    uint8_t custom_mask_type;
+struct GroupedInferParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  int max_seqlen_q;
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+  bool has_attn_bias;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<void*> out_ptrs;
+
+  uint8_t custom_mask_type;
 };
 
-struct GroupedForwardParams : public GroupedInferParams
-{
-    bool use_dropout;
-    bool compute_logsumexp;
+struct GroupedForwardParams : public GroupedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
 
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
-    // completely contiguous
-    std::vector<void*> logsumexp_ptrs;
+  // completely contiguous
+  std::vector<void*> logsumexp_ptrs;
 
-    // TODO: need remove this after dev-op fix
-    std::vector<void*> randvals_ptrs;
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
 };
 
-struct BatchedBackwardParams
-{
-    int B;   // batch size
-    int M;   // seq_len for Query
-    int N;   // seq_len for Key and Value
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    float scale;
-    bool has_attn_bias;
-    bool bias_has_grad;
-
-    bool use_fp32_qkv_grad;
-    bool is_mqa_gqa;
-
-    // BMHK mode strides, last-dim contiguous
-    std::array<int, 4> q_strides;
-    std::array<int, 4> k_strides;
-    std::array<int, 4> v_strides;
-    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-    std::array<int, 4> out_strides;
-
-    std::array<int, 4> tmp_grad_k_strides;
-    std::array<int, 4> tmp_grad_v_strides;
-
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    const void* attn_bias_ptr;
-    const void* grad_out_ptr;
-    const void* out_ptr;
-
-    uint8_t custom_mask_type;
-
-    void* grad_q_ptr;
-    void* grad_k_ptr;
-    void* grad_v_ptr;
-    void* grad_bias_ptr;
-
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
-
-    // BHM mode lengths, completely contiguous
-    const void* logsumexp_ptr;
+struct BatchedBackwardParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+  bool bias_has_grad;
+
+  bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
+
+  // BMHK mode strides, last-dim contiguous
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+  std::array<int, 4> out_strides;
+
+  std::array<int, 4> tmp_grad_k_strides;
+  std::array<int, 4> tmp_grad_v_strides;
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+  const void* grad_out_ptr;
+  const void* out_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* grad_q_ptr;
+  void* grad_k_ptr;
+  void* grad_v_ptr;
+  void* grad_bias_ptr;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // BHM mode lengths, completely contiguous
+  const void* logsumexp_ptr;
 };
 
-struct GroupedBackwardParams
-{
-    int num_batches;
-    int M;   // total seq_len for all queries in the batch
-    int N;   // total seq_len for all keys/values in the batch
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    int max_seqlen_q;
-
-    std::vector<int> host_seqstart_q;
-    std::vector<int> host_seqstart_k;
-    std::vector<int> host_seqlen_k;
-
-    float scale;
-    bool has_attn_bias;
-    bool bias_has_grad;
-
-    bool use_fp32_qkv_grad;
-    bool is_mqa_gqa;
-
-    // MHK mode strides, last-dim contiguous
-    std::array<int, 3> q_strides;
-    std::array<int, 3> k_strides;
-    std::array<int, 3> v_strides;
-    std::array<int, 3> out_strides;
-    // 4d tensor view [B, H, M, N]
-    std::array<int, 4> attn_bias_strides;
-
-    std::array<int, 3> tmp_grad_k_strides;
-    std::array<int, 3> tmp_grad_v_strides;
-
-    std::vector<const void*> q_ptrs;
-    std::vector<const void*> k_ptrs;
-    std::vector<const void*> v_ptrs;
-    std::vector<const void*> attn_bias_ptrs;
-    std::vector<const void*> grad_out_ptrs;
-    std::vector<const void*> out_ptrs;
-
-    // used by the light_v2 kernel
-    // TODO use these as workspace
-    std::vector<void*> ydotdy_ptrs;
-
-    uint8_t custom_mask_type;
-
-    std::vector<void*> grad_q_ptrs;
-    std::vector<void*> grad_k_ptrs;
-    std::vector<void*> grad_v_ptrs;
-    std::vector<void*> grad_bias_ptrs;
-
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
-
-    // BHM mode lengths, completely contiguous
-    std::vector<const void*> logsumexp_ptrs;
-
-    // TODO: need remove this after dev-op fix
-    std::vector<void*> randvals_ptrs;
+struct GroupedBackwardParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  int max_seqlen_q;
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+  bool has_attn_bias;
+  bool bias_has_grad;
+
+  bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::array<int, 3> tmp_grad_k_strides;
+  std::array<int, 3> tmp_grad_v_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<const void*> grad_out_ptrs;
+  std::vector<const void*> out_ptrs;
+
+  // used by the light_v2 kernel
+  // TODO use these as workspace
+  std::vector<void*> ydotdy_ptrs;
+
+  uint8_t custom_mask_type;
+
+  std::vector<void*> grad_q_ptrs;
+  std::vector<void*> grad_k_ptrs;
+  std::vector<void*> grad_v_ptrs;
+  std::vector<void*> grad_bias_ptrs;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // BHM mode lengths, completely contiguous
+  std::vector<const void*> logsumexp_ptrs;
+
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
index 571b206fa4..f97c8dd662 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
@@ -11,29 +11,31 @@
 namespace {
 
 // For testing xFormers building and binding
-bool is_ck_fmha_available(double val)
-{
-    std::cout << "ck fmha is really here, val=" << val << std::endl;
-    return (true);
+bool is_ck_fmha_available(double val) {
+  std::cout << "ck fmha is really here, val=" << val << std::endl;
+  return (true);
 };
 
 // For checking if ck-tiled kernel is used
-bool is_ck_tiled_used()
-{
+bool is_ck_tiled_used() {
 #if defined(USE_CK_TILED_KERNEL)
-    return (true);
+  return (true);
 #else
-    return (false);
+  return (false);
 #endif
 };
 
 } // namespace
 
-TORCH_LIBRARY_FRAGMENT(xformers, m)
-{
-    m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_fmha_available(float val) -> bool"));
-    m.impl(TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"), TORCH_FN(is_ck_fmha_available));
+TORCH_LIBRARY_FRAGMENT(xformers, m) {
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "xformers::is_ck_fmha_available(float val) -> bool"));
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
+      TORCH_FN(is_ck_fmha_available));
 
-    m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_tiled_used() -> bool"));
-    m.impl(TORCH_SELECTIVE_NAME("xformers::is_ck_tiled_used"), TORCH_FN(is_ck_tiled_used));
+  m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_tiled_used() -> bool"));
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::is_ck_tiled_used"),
+      TORCH_FN(is_ck_tiled_used));
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 8f26e4ceeb..a6ea50d780 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -17,114 +17,99 @@
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/sequence.hpp>
 
-#define XFORMERS_CHECK(COND, ERR)              \
-    if(!(COND))                                \
-    {                                          \
-        std::ostringstream ostr;               \
-        ostr << "'" #COND "' failed: " << ERR; \
-        throw std::runtime_error(ostr.str());  \
-    }
-
-#define DISPATCH_TYPES(InDataType, func)                                                  \
-    {                                                                                     \
-        if(InDataType == at::ScalarType::Half)                                            \
-        {                                                                                 \
-            using scalar_t = ck::half_t;                                                  \
-            func();                                                                       \
-        }                                                                                 \
-        else if(InDataType == at::ScalarType::BFloat16)                                   \
-        {                                                                                 \
-            using scalar_t = ck::bhalf_t;                                                 \
-            func();                                                                       \
-        }                                                                                 \
-        else                                                                              \
-        {                                                                                 \
-            XFORMERS_CHECK(false, "Only half & bf16 input type supported at the moment"); \
-        }                                                                                 \
-    }
+#define XFORMERS_CHECK(COND, ERR)          \
+  if (!(COND)) {                           \
+    std::ostringstream ostr;               \
+    ostr << "'" #COND "' failed: " << ERR; \
+    throw std::runtime_error(ostr.str());  \
+  }
+
+#define DISPATCH_TYPES(InDataType, func)                                 \
+  {                                                                      \
+    if (InDataType == at::ScalarType::Half) {                            \
+      using scalar_t = ck::half_t;                                       \
+      func();                                                            \
+    } else if (InDataType == at::ScalarType::BFloat16) {                 \
+      using scalar_t = ck::bhalf_t;                                      \
+      func();                                                            \
+    } else {                                                             \
+      XFORMERS_CHECK(                                                    \
+          false, "Only half & bf16 input type supported at the moment"); \
+    }                                                                    \
+  }
 
 template <typename scalar_t>
 struct CkToAtenDtype;
 
 template <>
-struct CkToAtenDtype<ck::half_t>
-{
-    using scalar_t = ck::half_t;
+struct CkToAtenDtype<ck::half_t> {
+  using scalar_t = ck::half_t;
 
-    static constexpr __host__ at::ScalarType atScalarType() { return at::ScalarType::Half; }
+  static constexpr __host__ at::ScalarType atScalarType() {
+    return at::ScalarType::Half;
+  }
 };
 
 template <>
-struct CkToAtenDtype<ck::bhalf_t>
-{
-    using scalar_t = ck::bhalf_t;
+struct CkToAtenDtype<ck::bhalf_t> {
+  using scalar_t = ck::bhalf_t;
 
-    static constexpr __host__ at::ScalarType atScalarType() { return at::ScalarType::BFloat16; }
+  static constexpr __host__ at::ScalarType atScalarType() {
+    return at::ScalarType::BFloat16;
+  }
 };
 
 template <>
-struct CkToAtenDtype<float>
-{
-    using scalar_t = float;
+struct CkToAtenDtype<float> {
+  using scalar_t = float;
 
-    static constexpr __host__ at::ScalarType atScalarType() { return at::ScalarType::Float; }
+  static constexpr __host__ at::ScalarType atScalarType() {
+    return at::ScalarType::Float;
+  }
 };
 
-#define CHECK_NOSPARSE_CONTIGUOUS_CUDA(TENSOR)                              \
-    XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
-    XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-    XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
-
-#define CHECK_NOSPARSE_CONTIGUOUS_CPU(TENSOR)                               \
-    XFORMERS_CHECK(TENSOR.is_cpu(), #TENSOR " must be a CPU tensor");       \
-    XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-    XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
-
-#define CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(TENSOR)                          \
-    XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
-    XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
-    XFORMERS_CHECK(TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
-
-#define HIP_CALL_CHECK(flag)                                                       \
-    do                                                                             \
-    {                                                                              \
-        hipError_t _tmpVal;                                                        \
-        if((_tmpVal = flag) != hipSuccess)                                         \
-        {                                                                          \
-            std::ostringstream ostr;                                               \
-            ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
-                 << hipGetErrorString(_tmpVal);                                    \
-            throw std::runtime_error(ostr.str());                                  \
-        }                                                                          \
-    } while(0)
-
-static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype)
-{
-    if(dtype == at::ScalarType::Float)
-    {
-        return n * 4;
-    }
-    else if(dtype == at::ScalarType::Half)
-    {
-        return n * 2;
-    }
-    else if(dtype == at::ScalarType::BFloat16)
-    {
-        return n * 2;
-    }
-    else if(dtype == at::ScalarType::Short)
-    {
-        return n * 2;
-    }
-    else if(dtype == at::ScalarType::Int)
-    {
-        return n * 4;
-    }
-    else if(dtype == at::ScalarType::Byte)
-    {
-        return n;
-    }
-    return 0;
+#define CHECK_NOSPARSE_CONTIGUOUS_CUDA(TENSOR)                            \
+  XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
+  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+  XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
+
+#define CHECK_NOSPARSE_CONTIGUOUS_CPU(TENSOR)                             \
+  XFORMERS_CHECK(TENSOR.is_cpu(), #TENSOR " must be a CPU tensor");       \
+  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+  XFORMERS_CHECK(TENSOR.is_contiguous(), #TENSOR " must be contiguous");
+
+#define CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(TENSOR)                        \
+  XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
+  XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
+  XFORMERS_CHECK(                                                         \
+      TENSOR.stride(-1) == 1, #TENSOR ": last dimension must be contiguous");
+
+#define HIP_CALL_CHECK(flag)                                                 \
+  do {                                                                       \
+    hipError_t _tmpVal;                                                      \
+    if ((_tmpVal = flag) != hipSuccess) {                                    \
+      std::ostringstream ostr;                                               \
+      ostr << "HIP Function Failed (" << __FILE__ << "," << __LINE__ << ") " \
+           << hipGetErrorString(_tmpVal);                                    \
+      throw std::runtime_error(ostr.str());                                  \
+    }                                                                        \
+  } while (0)
+
+static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
+  if (dtype == at::ScalarType::Float) {
+    return n * 4;
+  } else if (dtype == at::ScalarType::Half) {
+    return n * 2;
+  } else if (dtype == at::ScalarType::BFloat16) {
+    return n * 2;
+  } else if (dtype == at::ScalarType::Short) {
+    return n * 2;
+  } else if (dtype == at::ScalarType::Int) {
+    return n * 4;
+  } else if (dtype == at::ScalarType::Byte) {
+    return n;
+  }
+  return 0;
 }
 
 /**
@@ -138,27 +123,36 @@ static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype)
  * expand the bias as needed - be careful to only create a view with different
  * shape/strides, no copies allowed.
  */
-inline at::Tensor
-get_bias_4d_view(const at::Tensor& bias, int batch_sz, int n_heads, int n_queries, int n_keys)
-{
-    TORCH_CHECK(bias.size(-2) == n_queries,
-                "bias.size(-2) != n_queries: ",
-                bias.size(-2),
-                " != ",
-                n_queries);
-    TORCH_CHECK(
-        bias.size(-1) == n_keys, "bias.size(-1) != n_keys: ", bias.size(-1), " != ", n_keys);
-    switch(bias.dim())
-    {
+inline at::Tensor get_bias_4d_view(
+    const at::Tensor& bias,
+    int batch_sz,
+    int n_heads,
+    int n_queries,
+    int n_keys) {
+  TORCH_CHECK(
+      bias.size(-2) == n_queries,
+      "bias.size(-2) != n_queries: ",
+      bias.size(-2),
+      " != ",
+      n_queries);
+  TORCH_CHECK(
+      bias.size(-1) == n_keys,
+      "bias.size(-1) != n_keys: ",
+      bias.size(-1),
+      " != ",
+      n_keys);
+  switch (bias.dim()) {
     case 2: // (n_queries, n_keys) - broadcast across all batches and heads
-        return bias.unsqueeze(0).unsqueeze(0).expand({batch_sz, n_heads, n_queries, n_keys});
+      return bias.unsqueeze(0).unsqueeze(0).expand(
+          {batch_sz, n_heads, n_queries, n_keys});
     case 3: // (batch_sz * n_heads, n_queries, n_keys) - just reshape
-        TORCH_CHECK(bias.size(0) == batch_sz * n_heads);
-        return bias.view({batch_sz, n_heads, n_queries, n_keys});
+      TORCH_CHECK(bias.size(0) == batch_sz * n_heads);
+      return bias.view({batch_sz, n_heads, n_queries, n_keys});
     case 4: // (batch_sz, n_heads, n_queries, n_keys) - do nothing
-        TORCH_CHECK(bias.size(0) == batch_sz);
-        TORCH_CHECK(bias.size(1) == n_heads)
-        return bias;
-    default: TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
-    }
+      TORCH_CHECK(bias.size(0) == batch_sz);
+      TORCH_CHECK(bias.size(1) == n_heads)
+      return bias;
+    default:
+      TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
+  }
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index fd0f05b9d4..8cdba07633 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -10,203 +10,224 @@
 #include <sstream>
 #include <stdexcept>
 
-#include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
 #include <ck/tensor_description/cluster_descriptor.hpp>
 #include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/tensor/tensor_view.hpp>
+#include <ck/utility/common_header.hpp>
 
+#include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
-#include <ck/tile_program/block_tile/block_masking.hpp>
 
+#include "ck_tiled_fmha_definitions.h"
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
-#include "ck_tiled_fmha_definitions.h"
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_headdim_switch.h"
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-struct batched_forward_causalmask_attnbias_dispatched
-{
-    using FmhaEpilogue =
-        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
-    template <typename FmhaTraits, typename FmhaMask>
-    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
-        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        FmhaFwdShape<HDim>,
-        false, // kIsGroupMode
-        FmhaMask,
-        FmhaTraits>;
-
-    static void Run(BatchedForwardParams& param, hipStream_t stream)
-    {
-        const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
-
-            using FmhaMask =
-                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
-
-            using FmhaShape                 = FmhaFwdShape<HDim>;
-            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
-
-            bool pad_seqlen_q  = !(param.M % FmhaShape::kM0 == 0);
-            bool pad_seqlen_k  = !(param.N % FmhaShape::kN0 == 0);
-            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-
-            if constexpr(HDim == 256)
-            {
-                BOOL_SWITCH_4(
-                    pad_seqlen_q,
-                    kPadSeqLenQ,
-                    pad_seqlen_k,
-                    kPadSeqLenK,
-                    pad_headdim_q,
-                    kPadHeadDimQ,
-                    pad_headdim_v,
-                    kPadHeadDimV,
-                    [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                            kPadSeqLenK,
-                                                                            kPadHeadDimQ,
-                                                                            kPadHeadDimV,
-                                                                            has_attn_bias,
-                                                                            true, // kStoreLSE
-                                                                            occupancy>;
-
-                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                        using FmhaPipeline =
-                            ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-                        using FmhaKernel =
-                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                        RunWithKernel<FmhaKernel>(param, stream);
-                    });
-            }
-            else
-            {
-                BOOL_SWITCH_4(
-                    pad_seqlen_q,
-                    kPadSeqLenQ,
-                    pad_seqlen_k,
-                    kPadSeqLenK,
-                    pad_headdim_q,
-                    kPadHeadDimQ,
-                    pad_headdim_v,
-                    kPadHeadDimV,
-                    [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                            kPadSeqLenK,
-                                                                            kPadHeadDimQ,
-                                                                            kPadHeadDimV,
-                                                                            has_attn_bias,
-                                                                            true, // kStoreLSE
-                                                                            occupancy>;
-
-                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                        constexpr bool no_any_padding =
-                            !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
-
-                        if constexpr(no_any_padding)
-                        {
-                            using FmhaPipeline =
-                                ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                                    FmhaPipelineProblem>;
-                            using FmhaKernel =
-                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                            RunWithKernel<FmhaKernel>(param, stream);
-                        }
-                        else
-                        {
-                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                                FmhaPipelineProblem>;
-                            using FmhaKernel =
-                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                            RunWithKernel<FmhaKernel>(param, stream);
-                        };
-                    });
-            };
-        });
-    };
-
-    template <typename FmhaKernel>
-    static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream)
-    {
-        const auto kargs = [&] {
-            return FmhaKernel::MakeKargs(
-                param.q_ptr,
-                param.k_ptr,
-                param.v_ptr,
-                param.attn_bias_ptr,
-                param.logsumexp_ptr,
-                param.out_ptr,
-                param.M,              // seqlen_q
-                param.N,              // seqlen_k
-                param.K,              // hdim_q
-                param.Kv,             // hdim_v
-                param.Hq / param.Hkv, // nhead_ratio_qk
-                param.scale,
-                param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
-                param.k_strides[1],
-                param.v_strides[1],
-                param.attn_bias_strides[2],
-                param.out_strides[1],
-                param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
-                param.k_strides[2],
-                param.v_strides[2],
-                param.attn_bias_strides[1],
-                param.M, // nhead_stride_lse
-                param.out_strides[2],
-                param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
-                param.k_strides[0],
-                param.v_strides[0],
-                param.attn_bias_strides[0],
-                param.Hq * param.M, // batch_stride_lse
-                param.out_strides[0],
-                static_cast<CausalMaskType>(param.custom_mask_type),
-                param.window_size);
-        }();
-
-        dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
-        constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
-    };
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+struct batched_forward_causalmask_attnbias_dispatched {
+  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
+
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          FmhaFwdShape<HDim>,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck::tile_program::block::
+          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck::index_t occupancy =
+          (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
+
+      bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+      bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
+      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+
+      if constexpr (HDim == 256) {
+        BOOL_SWITCH_4(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  true, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                      FmhaPipelineProblem>;
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        BOOL_SWITCH_4(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  true, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              constexpr bool no_any_padding =
+                  !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
+
+              if constexpr (no_any_padding) {
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                        FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                        FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              };
+            });
+      };
+    });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          param.out_strides[1],
+          param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          param.M, // nhead_stride_lse
+          param.out_strides[2],
+          param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          param.Hq * param.M, // batch_stride_lse
+          param.out_strides[0],
+          static_cast<CausalMaskType>(param.custom_mask_type),
+          param.window_size);
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  };
 };
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-void run_batched_forward_causalmask_attnbias_dispatched(BatchedForwardParams& param,
-                                                        hipStream_t stream)
-{
-    batched_forward_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
-        Run(param, stream);
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+void run_batched_forward_causalmask_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  batched_forward_causalmask_attnbias_dispatched<
+      scalar_t,
+      has_causal_mask,
+      has_attn_bias,
+      HDim>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
index 7bdf6cfd78..749c80a779 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -49,22 +49,23 @@ extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhal
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                   false,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                   true,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_batched_forward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_batched_forward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 05abf084ec..c65f7fedc6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -49,22 +49,23 @@ extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_batched_forward_causalmask_attnbias_dispatched<ck::half_t,
-                                                                   false,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_batched_forward_causalmask_attnbias_dispatched<ck::half_t,
-                                                                   true,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_batched_forward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_batched_forward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index d7af0af432..0d72fde9f9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -10,203 +10,224 @@
 #include <sstream>
 #include <stdexcept>
 
-#include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
 #include <ck/tensor_description/cluster_descriptor.hpp>
 #include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/tensor/tensor_view.hpp>
+#include <ck/utility/common_header.hpp>
 
+#include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
-#include <ck/tile_program/block_tile/block_masking.hpp>
 
+#include "ck_tiled_fmha_definitions.h"
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
-#include "ck_tiled_fmha_definitions.h"
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_headdim_switch.h"
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-struct batched_infer_causalmask_attnbias_dispatched
-{
-    using FmhaEpilogue =
-        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
-    template <typename FmhaTraits, typename FmhaMask>
-    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
-        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        FmhaFwdShape<HDim>,
-        false, // kIsGroupMode
-        FmhaMask,
-        FmhaTraits>;
-
-    static void Run(BatchedForwardParams& param, hipStream_t stream)
-    {
-        const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
-
-            using FmhaMask =
-                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
-
-            using FmhaShape                 = FmhaFwdShape<HDim>;
-            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
-
-            bool pad_seqlen_q  = !(param.M % FmhaShape::kM0 == 0);
-            bool pad_seqlen_k  = !(param.N % FmhaShape::kN0 == 0);
-            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-
-            if constexpr(HDim == 256)
-            {
-                BOOL_SWITCH_4(
-                    pad_seqlen_q,
-                    kPadSeqLenQ,
-                    pad_seqlen_k,
-                    kPadSeqLenK,
-                    pad_headdim_q,
-                    kPadHeadDimQ,
-                    pad_headdim_v,
-                    kPadHeadDimV,
-                    [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                            kPadSeqLenK,
-                                                                            kPadHeadDimQ,
-                                                                            kPadHeadDimV,
-                                                                            has_attn_bias,
-                                                                            false, // kStoreLSE
-                                                                            occupancy>;
-
-                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                        using FmhaPipeline =
-                            ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-                        using FmhaKernel =
-                            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                        RunWithKernel<FmhaKernel>(param, stream);
-                    });
-            }
-            else
-            {
-                BOOL_SWITCH_4(
-                    pad_seqlen_q,
-                    kPadSeqLenQ,
-                    pad_seqlen_k,
-                    kPadSeqLenK,
-                    pad_headdim_q,
-                    kPadHeadDimQ,
-                    pad_headdim_v,
-                    kPadHeadDimV,
-                    [&] {
-                        using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                            kPadSeqLenK,
-                                                                            kPadHeadDimQ,
-                                                                            kPadHeadDimV,
-                                                                            has_attn_bias,
-                                                                            false, // kStoreLSE
-                                                                            occupancy>;
-
-                        using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                        constexpr bool no_any_padding =
-                            !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
-
-                        if constexpr(no_any_padding)
-                        {
-                            using FmhaPipeline =
-                                ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                                    FmhaPipelineProblem>;
-                            using FmhaKernel =
-                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                            RunWithKernel<FmhaKernel>(param, stream);
-                        }
-                        else
-                        {
-                            using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                                FmhaPipelineProblem>;
-                            using FmhaKernel =
-                                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                            RunWithKernel<FmhaKernel>(param, stream);
-                        };
-                    });
-            };
-        });
-    };
-
-    template <typename FmhaKernel>
-    static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream)
-    {
-        const auto kargs = [&] {
-            return FmhaKernel::MakeKargs(
-                param.q_ptr,
-                param.k_ptr,
-                param.v_ptr,
-                param.attn_bias_ptr,
-                nullptr, // lse_ptr
-                param.out_ptr,
-                param.M,              // seqlen_q
-                param.N,              // seqlen_k
-                param.K,              // hdim_q
-                param.Kv,             // hdim_v
-                param.Hq / param.Hkv, // nhead_ratio_qk
-                param.scale,
-                param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
-                param.k_strides[1],
-                param.v_strides[1],
-                param.attn_bias_strides[2],
-                param.out_strides[1],
-                param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
-                param.k_strides[2],
-                param.v_strides[2],
-                param.attn_bias_strides[1],
-                0, // nhead_stride_lse
-                param.out_strides[2],
-                param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
-                param.k_strides[0],
-                param.v_strides[0],
-                param.attn_bias_strides[0],
-                0, // batch_stride_lse
-                param.out_strides[0],
-                static_cast<CausalMaskType>(param.custom_mask_type),
-                param.window_size);
-        }();
-
-        dim3 kGridSize            = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
-        constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
-    };
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+struct batched_infer_causalmask_attnbias_dispatched {
+  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
+
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          FmhaFwdShape<HDim>,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck::tile_program::block::
+          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck::index_t occupancy =
+          (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
+
+      bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+      bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+
+      if constexpr (HDim == 256) {
+        BOOL_SWITCH_4(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  false, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                      FmhaPipelineProblem>;
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        BOOL_SWITCH_4(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  false, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              constexpr bool no_any_padding =
+                  !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
+
+              if constexpr (no_any_padding) {
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                        FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                        FmhaPipelineProblem>;
+                using FmhaKernel = FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              };
+            });
+      };
+    });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // lse_ptr
+          param.out_ptr,
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          param.out_strides[1],
+          param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          0, // nhead_stride_lse
+          param.out_strides[2],
+          param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          0, // batch_stride_lse
+          param.out_strides[0],
+          static_cast<CausalMaskType>(param.custom_mask_type),
+          param.window_size);
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  };
 };
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-void run_batched_infer_causalmask_attnbias_dispatched(BatchedForwardParams& param,
-                                                      hipStream_t stream)
-{
-    batched_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
-        Run(param, stream);
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+void run_batched_infer_causalmask_attnbias_dispatched(
+    BatchedForwardParams& param,
+    hipStream_t stream) {
+  batched_infer_causalmask_attnbias_dispatched<
+      scalar_t,
+      has_causal_mask,
+      has_attn_bias,
+      HDim>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index 93b7be27a5..f0a4edd84c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -49,22 +49,23 @@ extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                 false,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                 true,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_batched_infer_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_batched_infer_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 170af665d1..b25041fdf7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -49,22 +49,23 @@ extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_batched_infer_causalmask_attnbias_dispatched<ck::half_t,
-                                                                 false,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_batched_infer_causalmask_attnbias_dispatched<ck::half_t,
-                                                                 true,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_batched_infer_causalmask_attnbias_dispatched<
+            ck::half_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_batched_infer_causalmask_attnbias_dispatched<
+            ck::half_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index 8444f097a7..a20a8b5bd2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -8,75 +8,70 @@
 
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
-enum struct CausalMaskType
-{
-    MaskDisabled,
-    MaskUpperTriangleFromTopLeft,
-    MaskUpperTriangleFromBottomRight
+enum struct CausalMaskType {
+  MaskDisabled,
+  MaskUpperTriangleFromTopLeft,
+  MaskUpperTriangleFromBottomRight
 };
 
 template <typename DataType>
 struct FmhaFwdTypeConfig;
 
 template <>
-struct FmhaFwdTypeConfig<ck::half_t>
-{
-    using QDataType           = ck::half_t;
-    using KDataType           = ck::half_t;
-    using VDataType           = ck::half_t;
-    using BiasDataType        = ck::half_t;
-    using LSEDataType         = float;      // data type for lse(logsumexp L_j = max_j + log(l_j))
-    using SaccDataType        = float;      // data type for first gemm accumulation
-    using SMPLComputeDataType = float;      // data type for reduction, softmax
-    using PDataType           = ck::half_t; // data type for A matrix of second gemm
-    using OaccDataType        = float;      // data type for second gemm accumulation
-    using ODataType           = ck::half_t;
+struct FmhaFwdTypeConfig<ck::half_t> {
+  using QDataType = ck::half_t;
+  using KDataType = ck::half_t;
+  using VDataType = ck::half_t;
+  using BiasDataType = ck::half_t;
+  using LSEDataType =
+      float; // data type for lse(logsumexp L_j = max_j + log(l_j))
+  using SaccDataType = float; // data type for first gemm accumulation
+  using SMPLComputeDataType = float; // data type for reduction, softmax
+  using PDataType = ck::half_t; // data type for A matrix of second gemm
+  using OaccDataType = float; // data type for second gemm accumulation
+  using ODataType = ck::half_t;
 };
 
 template <>
-struct FmhaFwdTypeConfig<ck::bhalf_t>
-{
-    using QDataType           = ck::bhalf_t;
-    using KDataType           = ck::bhalf_t;
-    using VDataType           = ck::bhalf_t;
-    using BiasDataType        = ck::bhalf_t;
-    using LSEDataType         = float;       // data type for lse(logsumexp L_j = max_j + log(l_j))
-    using SaccDataType        = float;       // data type for first gemm accumulation
-    using SMPLComputeDataType = float;       // data type for reduction, softmax
-    using PDataType           = ck::bhalf_t; // data type for A matrix of second gemm
-    using OaccDataType        = float;       // data type for second gemm accumulation
-    using ODataType           = ck::bhalf_t;
+struct FmhaFwdTypeConfig<ck::bhalf_t> {
+  using QDataType = ck::bhalf_t;
+  using KDataType = ck::bhalf_t;
+  using VDataType = ck::bhalf_t;
+  using BiasDataType = ck::bhalf_t;
+  using LSEDataType =
+      float; // data type for lse(logsumexp L_j = max_j + log(l_j))
+  using SaccDataType = float; // data type for first gemm accumulation
+  using SMPLComputeDataType = float; // data type for reduction, softmax
+  using PDataType = ck::bhalf_t; // data type for A matrix of second gemm
+  using OaccDataType = float; // data type for second gemm accumulation
+  using ODataType = ck::bhalf_t;
 };
 
 template <ck::index_t HDim>
 struct FmhaFwdBlockTile;
 
 template <>
-struct FmhaFwdBlockTile<32>
-{
-    using type = ck::Sequence<128, 64, 16, 32, 32, 32>;
+struct FmhaFwdBlockTile<32> {
+  using type = ck::Sequence<128, 64, 16, 32, 32, 32>;
 };
 
 template <>
-struct FmhaFwdBlockTile<64>
-{
-    using type = ck::Sequence<128, 64, 32, 64, 32, 64>;
+struct FmhaFwdBlockTile<64> {
+  using type = ck::Sequence<128, 64, 32, 64, 32, 64>;
 };
 
 template <>
-struct FmhaFwdBlockTile<128>
-{
-    using type = ck::Sequence<128, 128, 32, 128, 32, 128>;
+struct FmhaFwdBlockTile<128> {
+  using type = ck::Sequence<128, 128, 32, 128, 32, 128>;
 };
 
 template <>
-struct FmhaFwdBlockTile<256>
-{
-    using type = ck::Sequence<128, 128, 32, 256, 32, 256>;
+struct FmhaFwdBlockTile<256> {
+  using type = ck::Sequence<128, 128, 32, 256, 32, 256>;
 };
 
 using FmhaFwdBlockWarps = ck::Sequence<4, 1, 1>;
-using FmhaFwdWarpTile   = ck::Sequence<32, 32, 16>;
+using FmhaFwdWarpTile = ck::Sequence<32, 32, 16>;
 
 static constexpr bool IsVLayoutRowMajor = true;
 
@@ -84,41 +79,37 @@ template <ck::index_t HDim>
 struct FmhaFwdShape;
 
 template <>
-struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<32>::type,
-                                                          ck::Sequence<2, 1, 1>,
-                                                          FmhaFwdWarpTile,
-                                                          ck::Sequence<2, 1, 1>,
-                                                          FmhaFwdWarpTile,
-                                                          IsVLayoutRowMajor>
-{
-};
+struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<
+                              typename FmhaFwdBlockTile<32>::type,
+                              ck::Sequence<2, 1, 1>,
+                              FmhaFwdWarpTile,
+                              ck::Sequence<2, 1, 1>,
+                              FmhaFwdWarpTile,
+                              IsVLayoutRowMajor> {};
 
 template <>
-struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<64>::type,
-                                                          FmhaFwdBlockWarps,
-                                                          FmhaFwdWarpTile,
-                                                          FmhaFwdBlockWarps,
-                                                          FmhaFwdWarpTile,
-                                                          IsVLayoutRowMajor>
-{
-};
+struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<
+                              typename FmhaFwdBlockTile<64>::type,
+                              FmhaFwdBlockWarps,
+                              FmhaFwdWarpTile,
+                              FmhaFwdBlockWarps,
+                              FmhaFwdWarpTile,
+                              IsVLayoutRowMajor> {};
 
 template <>
-struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<128>::type,
-                                                           FmhaFwdBlockWarps,
-                                                           FmhaFwdWarpTile,
-                                                           FmhaFwdBlockWarps,
-                                                           FmhaFwdWarpTile,
-                                                           IsVLayoutRowMajor>
-{
-};
+struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<
+                               typename FmhaFwdBlockTile<128>::type,
+                               FmhaFwdBlockWarps,
+                               FmhaFwdWarpTile,
+                               FmhaFwdBlockWarps,
+                               FmhaFwdWarpTile,
+                               IsVLayoutRowMajor> {};
 
 template <>
-struct FmhaFwdShape<256> : ck::tile_program::TileFmhaShape<typename FmhaFwdBlockTile<256>::type,
-                                                           FmhaFwdBlockWarps,
-                                                           FmhaFwdWarpTile,
-                                                           FmhaFwdBlockWarps,
-                                                           FmhaFwdWarpTile,
-                                                           IsVLayoutRowMajor>
-{
-};
+struct FmhaFwdShape<256> : ck::tile_program::TileFmhaShape<
+                               typename FmhaFwdBlockTile<256>::type,
+                               FmhaFwdBlockWarps,
+                               FmhaFwdWarpTile,
+                               FmhaFwdBlockWarps,
+                               FmhaFwdWarpTile,
+                               IsVLayoutRowMajor> {};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 542fed4f16..78c62cfa31 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -8,10 +8,10 @@
 
 #include <type_traits>
 
-#include <ck/utility/common_header.hpp>
 #include <ck/tensor/tensor_view.hpp>
-#include <ck/tile_program/tile/tile_window.hpp>
 #include <ck/tile_program/block_tile/block_masking.hpp>
+#include <ck/tile_program/tile/tile_window.hpp>
+#include <ck/utility/common_header.hpp>
 
 #include "ck_tiled_fmha_definitions.h"
 
@@ -21,646 +21,644 @@
 // P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
 // O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
 
-template <typename TilePartitioner_, typename FmhaPipeline_, typename EpiloguePipeline_>
-struct FmhaFwdKernel
-{
-    using TilePartitioner                    = ck::remove_cvref_t<TilePartitioner_>;
-    using FmhaPipeline                       = ck::remove_cvref_t<FmhaPipeline_>;
-    using EpiloguePipeline                   = ck::remove_cvref_t<EpiloguePipeline_>;
-    static constexpr ck::index_t kBlockSize  = FmhaPipeline::kBlockSize;
-    static constexpr ck::index_t kBlockPerCu = FmhaPipeline::kBlockPerCu;
-
-    using QDataType    = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
-    using KDataType    = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
-    using VDataType    = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
-    using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
-    using LSEDataType  = ck::remove_cvref_t<typename FmhaPipeline::LSEDataType>;
-    using ODataType    = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
-
-    using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
-
-    static constexpr bool kIsGroupMode = FmhaPipeline::kIsGroupMode;
-    static constexpr bool kPadSeqLenQ  = FmhaPipeline::kPadSeqLenQ;
-    static constexpr bool kPadSeqLenK  = FmhaPipeline::kPadSeqLenK;
-    static constexpr bool kPadHeadDimQ = FmhaPipeline::kPadHeadDimQ;
-    static constexpr bool kPadHeadDimV = FmhaPipeline::kPadHeadDimV;
-    static constexpr bool kHasBias     = FmhaPipeline::kHasBias;
-    static constexpr bool kStoreLSE    = FmhaPipeline::kStoreLSE;
-    using FmhaMask                     = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
-    static constexpr bool kHasMask     = FmhaMask::IsMasking;
-
-    template <ck::index_t I> // to avoid duplicated base class prblem, introduce an template arg
-    struct FmhaFwdEmptyKargs
-    {
-    };
-
-    // kargs use aggregate initializer, so no constructor will provided
-    // use inheritance to minimize karg size
-    // user need to use MakeKargs() function to create kargs.
-    struct FmhaFwdCommonKargs
-    {
-        const void* q_ptr;
-        const void* k_ptr;
-        const void* v_ptr;
-        void* o_ptr;
-
-        ck::index_t seqlen_q;
-        ck::index_t seqlen_k;
-        ck::index_t hdim_q;
-        ck::index_t hdim_v;
-
-        // for MQA/GQA, nhead could be different. This parameter is nhead_q / nhead_k
-        // if this param is larger than 1, indicate MQA/GQA case
-        ck::index_t nhead_ratio_qk;
-        float scale;
-
-        ck::index_t stride_q;
-        ck::index_t stride_k;
-        ck::index_t stride_v;
-        ck::index_t stride_o;
-
-        ck::index_t nhead_stride_q;
-        ck::index_t nhead_stride_k;
-        ck::index_t nhead_stride_v;
-        ck::index_t nhead_stride_o;
-    };
-
-    struct FmhaFwdCommonBiasKargs
-    {
-        const void* bias_ptr          = nullptr;
-        ck::index_t stride_bias       = 0;
-        ck::index_t nhead_stride_bias = 0;
-    };
-
-    struct FmhaFwdBatchModeBiasKargs : FmhaFwdCommonBiasKargs
-    {
-        ck::index_t batch_stride_bias = 0;
-    };
-
-    struct FmhaFwdMaskKargs
-    {
-        CausalMaskType mask_type;
-        ck::index_t window_size;
-    };
-
-    struct FmhaFwdCommonLSEKargs
-    {
-        void* lse_ptr                = nullptr;
-        ck::index_t nhead_stride_lse = 0;
-    };
-
-    struct FmhaFwdBatchModeLSEKargs : FmhaFwdCommonLSEKargs
-    {
-        ck::index_t batch_stride_lse = 0;
-    };
-
-    struct FmhaFwdBatchModeKargs
-        : FmhaFwdCommonKargs,
-          std::conditional_t<kHasBias, FmhaFwdBatchModeBiasKargs, FmhaFwdEmptyKargs<0>>,
-          std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
-          std::conditional_t<kStoreLSE, FmhaFwdBatchModeLSEKargs, FmhaFwdEmptyKargs<2>>
-    {
-        ck::index_t batch_stride_q;
-        ck::index_t batch_stride_k;
-        ck::index_t batch_stride_v;
-        ck::index_t batch_stride_o;
-    };
-
-    struct FmhaFwdGroupModeKargs
-        : FmhaFwdCommonKargs,
-          std::conditional_t<kHasBias, FmhaFwdCommonBiasKargs, FmhaFwdEmptyKargs<0>>,
-          std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
-          std::conditional_t<kStoreLSE, FmhaFwdCommonLSEKargs, FmhaFwdEmptyKargs<2>>
-    {
-        const int32_t* seqstart_q_ptr;
-        const int32_t* seqstart_k_ptr;
-        const int32_t* seqlen_k_ptr;
-    };
-
-    using Kargs = std::conditional_t<kIsGroupMode, FmhaFwdGroupModeKargs, FmhaFwdBatchModeKargs>;
-
-    template <bool Cond = !kIsGroupMode>
-    __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
-                                                                      const void* k_ptr,
-                                                                      const void* v_ptr,
-                                                                      const void* bias_ptr,
-                                                                      void* lse_ptr,
-                                                                      void* o_ptr,
-                                                                      ck::index_t seqlen_q,
-                                                                      ck::index_t seqlen_k,
-                                                                      ck::index_t hdim_q,
-                                                                      ck::index_t hdim_v,
-                                                                      ck::index_t nhead_ratio_qk,
-                                                                      float scale,
-                                                                      ck::index_t stride_q,
-                                                                      ck::index_t stride_k,
-                                                                      ck::index_t stride_v,
-                                                                      ck::index_t stride_bias,
-                                                                      ck::index_t stride_o,
-                                                                      ck::index_t nhead_stride_q,
-                                                                      ck::index_t nhead_stride_k,
-                                                                      ck::index_t nhead_stride_v,
-                                                                      ck::index_t nhead_stride_bias,
-                                                                      ck::index_t nhead_stride_lse,
-                                                                      ck::index_t nhead_stride_o,
-                                                                      ck::index_t batch_stride_q,
-                                                                      ck::index_t batch_stride_k,
-                                                                      ck::index_t batch_stride_v,
-                                                                      ck::index_t batch_stride_bias,
-                                                                      ck::index_t batch_stride_lse,
-                                                                      ck::index_t batch_stride_o,
-                                                                      CausalMaskType mask_type,
-                                                                      ck::index_t window_size)
-    {
-        Kargs kargs{{q_ptr,
-                     k_ptr,
-                     v_ptr,
-                     o_ptr,
-                     seqlen_q,
-                     seqlen_k,
-                     hdim_q,
-                     hdim_v,
-                     nhead_ratio_qk,
+template <
+    typename TilePartitioner_,
+    typename FmhaPipeline_,
+    typename EpiloguePipeline_>
+struct FmhaFwdKernel {
+  using TilePartitioner = ck::remove_cvref_t<TilePartitioner_>;
+  using FmhaPipeline = ck::remove_cvref_t<FmhaPipeline_>;
+  using EpiloguePipeline = ck::remove_cvref_t<EpiloguePipeline_>;
+  static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
+  static constexpr ck::index_t kBlockPerCu = FmhaPipeline::kBlockPerCu;
+
+  using QDataType = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
+  using KDataType = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
+  using VDataType = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
+  using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
+  using LSEDataType = ck::remove_cvref_t<typename FmhaPipeline::LSEDataType>;
+  using ODataType = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
+
+  using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
+
+  static constexpr bool kIsGroupMode = FmhaPipeline::kIsGroupMode;
+  static constexpr bool kPadSeqLenQ = FmhaPipeline::kPadSeqLenQ;
+  static constexpr bool kPadSeqLenK = FmhaPipeline::kPadSeqLenK;
+  static constexpr bool kPadHeadDimQ = FmhaPipeline::kPadHeadDimQ;
+  static constexpr bool kPadHeadDimV = FmhaPipeline::kPadHeadDimV;
+  static constexpr bool kHasBias = FmhaPipeline::kHasBias;
+  static constexpr bool kStoreLSE = FmhaPipeline::kStoreLSE;
+  using FmhaMask = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
+  static constexpr bool kHasMask = FmhaMask::IsMasking;
+
+  template <ck::index_t I> // to avoid duplicated base class prblem, introduce
+                           // an template arg
+                           struct FmhaFwdEmptyKargs {};
+
+  // kargs use aggregate initializer, so no constructor will provided
+  // use inheritance to minimize karg size
+  // user need to use MakeKargs() function to create kargs.
+  struct FmhaFwdCommonKargs {
+    const void* q_ptr;
+    const void* k_ptr;
+    const void* v_ptr;
+    void* o_ptr;
+
+    ck::index_t seqlen_q;
+    ck::index_t seqlen_k;
+    ck::index_t hdim_q;
+    ck::index_t hdim_v;
+
+    // for MQA/GQA, nhead could be different. This parameter is nhead_q /
+    // nhead_k if this param is larger than 1, indicate MQA/GQA case
+    ck::index_t nhead_ratio_qk;
+    float scale;
+
+    ck::index_t stride_q;
+    ck::index_t stride_k;
+    ck::index_t stride_v;
+    ck::index_t stride_o;
+
+    ck::index_t nhead_stride_q;
+    ck::index_t nhead_stride_k;
+    ck::index_t nhead_stride_v;
+    ck::index_t nhead_stride_o;
+  };
+
+  struct FmhaFwdCommonBiasKargs {
+    const void* bias_ptr = nullptr;
+    ck::index_t stride_bias = 0;
+    ck::index_t nhead_stride_bias = 0;
+  };
+
+  struct FmhaFwdBatchModeBiasKargs : FmhaFwdCommonBiasKargs {
+    ck::index_t batch_stride_bias = 0;
+  };
+
+  struct FmhaFwdMaskKargs {
+    CausalMaskType mask_type;
+    ck::index_t window_size;
+  };
+
+  struct FmhaFwdCommonLSEKargs {
+    void* lse_ptr = nullptr;
+    ck::index_t nhead_stride_lse = 0;
+  };
+
+  struct FmhaFwdBatchModeLSEKargs : FmhaFwdCommonLSEKargs {
+    ck::index_t batch_stride_lse = 0;
+  };
+
+  struct FmhaFwdBatchModeKargs
+      : FmhaFwdCommonKargs,
+        std::conditional_t<
+            kHasBias,
+            FmhaFwdBatchModeBiasKargs,
+            FmhaFwdEmptyKargs<0>>,
+        std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
+        std::conditional_t<
+            kStoreLSE,
+            FmhaFwdBatchModeLSEKargs,
+            FmhaFwdEmptyKargs<2>> {
+    ck::index_t batch_stride_q;
+    ck::index_t batch_stride_k;
+    ck::index_t batch_stride_v;
+    ck::index_t batch_stride_o;
+  };
+
+  struct FmhaFwdGroupModeKargs
+      : FmhaFwdCommonKargs,
+        std::conditional_t<
+            kHasBias,
+            FmhaFwdCommonBiasKargs,
+            FmhaFwdEmptyKargs<0>>,
+        std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
+        std::conditional_t<
+            kStoreLSE,
+            FmhaFwdCommonLSEKargs,
+            FmhaFwdEmptyKargs<2>> {
+    const int32_t* seqstart_q_ptr;
+    const int32_t* seqstart_k_ptr;
+    const int32_t* seqlen_k_ptr;
+  };
+
+  using Kargs = std::
+      conditional_t<kIsGroupMode, FmhaFwdGroupModeKargs, FmhaFwdBatchModeKargs>;
+
+  template <bool Cond = !kIsGroupMode>
+  __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(
+      const void* q_ptr,
+      const void* k_ptr,
+      const void* v_ptr,
+      const void* bias_ptr,
+      void* lse_ptr,
+      void* o_ptr,
+      ck::index_t seqlen_q,
+      ck::index_t seqlen_k,
+      ck::index_t hdim_q,
+      ck::index_t hdim_v,
+      ck::index_t nhead_ratio_qk,
+      float scale,
+      ck::index_t stride_q,
+      ck::index_t stride_k,
+      ck::index_t stride_v,
+      ck::index_t stride_bias,
+      ck::index_t stride_o,
+      ck::index_t nhead_stride_q,
+      ck::index_t nhead_stride_k,
+      ck::index_t nhead_stride_v,
+      ck::index_t nhead_stride_bias,
+      ck::index_t nhead_stride_lse,
+      ck::index_t nhead_stride_o,
+      ck::index_t batch_stride_q,
+      ck::index_t batch_stride_k,
+      ck::index_t batch_stride_v,
+      ck::index_t batch_stride_bias,
+      ck::index_t batch_stride_lse,
+      ck::index_t batch_stride_o,
+      CausalMaskType mask_type,
+      ck::index_t window_size) {
+    Kargs kargs{
+        {q_ptr,
+         k_ptr,
+         v_ptr,
+         o_ptr,
+         seqlen_q,
+         seqlen_k,
+         hdim_q,
+         hdim_v,
+         nhead_ratio_qk,
 #if CK_FMHA_FWD_FAST_EXP2
-                     static_cast<float>(scale * ck::math::log2e_v<>),
+         static_cast<float>(scale * ck::math::log2e_v<>),
 #else
-                     scale,
+         scale,
 #endif
-                     stride_q,
-                     stride_k,
-                     stride_v,
-                     stride_o,
-                     nhead_stride_q,
-                     nhead_stride_k,
-                     nhead_stride_v,
-                     nhead_stride_o}, // args for common karg
-                    {},               // placeholder for bias
-                    {},               // placeholder for mask
-                    {},               // placeholder for lse
-                    batch_stride_q,
-                    batch_stride_k,
-                    batch_stride_v,
-                    batch_stride_o};
-
-        if constexpr(kHasBias)
-        {
-            kargs.bias_ptr          = bias_ptr;
-            kargs.stride_bias       = stride_bias;
-            kargs.nhead_stride_bias = nhead_stride_bias;
-            kargs.batch_stride_bias = batch_stride_bias;
-        }
-
-        if constexpr(kHasMask)
-        {
-            kargs.mask_type   = mask_type;
-            kargs.window_size = window_size;
-        }
-        if constexpr(kStoreLSE)
-        {
-            kargs.lse_ptr          = lse_ptr;
-            kargs.nhead_stride_lse = nhead_stride_lse;
-            kargs.batch_stride_lse = batch_stride_lse;
-        }
+         stride_q,
+         stride_k,
+         stride_v,
+         stride_o,
+         nhead_stride_q,
+         nhead_stride_k,
+         nhead_stride_v,
+         nhead_stride_o}, // args for common karg
+        {}, // placeholder for bias
+        {}, // placeholder for mask
+        {}, // placeholder for lse
+        batch_stride_q,
+        batch_stride_k,
+        batch_stride_v,
+        batch_stride_o};
+
+    if constexpr (kHasBias) {
+      kargs.bias_ptr = bias_ptr;
+      kargs.stride_bias = stride_bias;
+      kargs.nhead_stride_bias = nhead_stride_bias;
+      kargs.batch_stride_bias = batch_stride_bias;
+    }
 
-        return kargs;
+    if constexpr (kHasMask) {
+      kargs.mask_type = mask_type;
+      kargs.window_size = window_size;
+    }
+    if constexpr (kStoreLSE) {
+      kargs.lse_ptr = lse_ptr;
+      kargs.nhead_stride_lse = nhead_stride_lse;
+      kargs.batch_stride_lse = batch_stride_lse;
     }
 
-    template <bool Cond = kIsGroupMode>
-    __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(const void* q_ptr,
-                                                                      const void* k_ptr,
-                                                                      const void* v_ptr,
-                                                                      const void* bias_ptr,
-                                                                      void* lse_ptr,
-                                                                      void* o_ptr,
-                                                                      const void* seqstart_q_ptr,
-                                                                      const void* seqstart_k_ptr,
-                                                                      const void* seqlen_k_ptr,
-                                                                      ck::index_t hdim_q,
-                                                                      ck::index_t hdim_v,
-                                                                      ck::index_t nhead_ratio_qk,
-                                                                      float scale,
-                                                                      ck::index_t stride_q,
-                                                                      ck::index_t stride_k,
-                                                                      ck::index_t stride_v,
-                                                                      ck::index_t stride_bias,
-                                                                      ck::index_t stride_o,
-                                                                      ck::index_t nhead_stride_q,
-                                                                      ck::index_t nhead_stride_k,
-                                                                      ck::index_t nhead_stride_v,
-                                                                      ck::index_t nhead_stride_bias,
-                                                                      ck::index_t nhead_stride_lse,
-                                                                      ck::index_t nhead_stride_o,
-                                                                      CausalMaskType mask_type,
-                                                                      ck::index_t window_size)
-    {
-        Kargs kargs{{q_ptr,
-                     k_ptr,
-                     v_ptr,
-                     o_ptr,
-                     -1, // seqlen will be updated by another pointer
-                     -1, //
-                     hdim_q,
-                     hdim_v,
-                     nhead_ratio_qk,
+    return kargs;
+  }
+
+  template <bool Cond = kIsGroupMode>
+  __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(
+      const void* q_ptr,
+      const void* k_ptr,
+      const void* v_ptr,
+      const void* bias_ptr,
+      void* lse_ptr,
+      void* o_ptr,
+      const void* seqstart_q_ptr,
+      const void* seqstart_k_ptr,
+      const void* seqlen_k_ptr,
+      ck::index_t hdim_q,
+      ck::index_t hdim_v,
+      ck::index_t nhead_ratio_qk,
+      float scale,
+      ck::index_t stride_q,
+      ck::index_t stride_k,
+      ck::index_t stride_v,
+      ck::index_t stride_bias,
+      ck::index_t stride_o,
+      ck::index_t nhead_stride_q,
+      ck::index_t nhead_stride_k,
+      ck::index_t nhead_stride_v,
+      ck::index_t nhead_stride_bias,
+      ck::index_t nhead_stride_lse,
+      ck::index_t nhead_stride_o,
+      CausalMaskType mask_type,
+      ck::index_t window_size) {
+    Kargs kargs{
+        {q_ptr,
+         k_ptr,
+         v_ptr,
+         o_ptr,
+         -1, // seqlen will be updated by another pointer
+         -1, //
+         hdim_q,
+         hdim_v,
+         nhead_ratio_qk,
 #if CK_FMHA_FWD_FAST_EXP2
-                     static_cast<float>(scale * ck::math::log2e_v<>),
+         static_cast<float>(scale * ck::math::log2e_v<>),
 #else
-                     scale,
+         scale,
 #endif
-                     stride_q,
-                     stride_k,
-                     stride_v,
-                     stride_o,
-                     nhead_stride_q,
-                     nhead_stride_k,
-                     nhead_stride_v,
-                     nhead_stride_o}, // args for common karg
-                    {},               // placeholder for bias
-                    {},               // placeholder for mask
-                    {},               // placeholder for lse
-                    reinterpret_cast<const int32_t*>(seqstart_q_ptr),
-                    reinterpret_cast<const int32_t*>(seqstart_k_ptr),
-                    reinterpret_cast<const int32_t*>(seqlen_k_ptr)};
-
-        if constexpr(kHasBias)
-        {
-            kargs.bias_ptr          = bias_ptr;
-            kargs.stride_bias       = stride_bias;
-            kargs.nhead_stride_bias = nhead_stride_bias;
-        }
-        if constexpr(kHasMask)
-        {
-            kargs.mask_type   = mask_type;
-            kargs.window_size = window_size;
-        }
-        if constexpr(kStoreLSE)
-        {
-            kargs.lse_ptr          = lse_ptr;
-            kargs.nhead_stride_lse = nhead_stride_lse;
-        }
-
-        return kargs;
+         stride_q,
+         stride_k,
+         stride_v,
+         stride_o,
+         nhead_stride_q,
+         nhead_stride_k,
+         nhead_stride_v,
+         nhead_stride_o}, // args for common karg
+        {}, // placeholder for bias
+        {}, // placeholder for mask
+        {}, // placeholder for lse
+        reinterpret_cast<const int32_t*>(seqstart_q_ptr),
+        reinterpret_cast<const int32_t*>(seqstart_k_ptr),
+        reinterpret_cast<const int32_t*>(seqlen_k_ptr)};
+
+    if constexpr (kHasBias) {
+      kargs.bias_ptr = bias_ptr;
+      kargs.stride_bias = stride_bias;
+      kargs.nhead_stride_bias = nhead_stride_bias;
     }
-
-    __host__ static constexpr auto GridSize(ck::index_t batch_size_,
-                                            ck::index_t nhead_,
-                                            ck::index_t seqlen_q_,
-                                            ck::index_t hdim_v_)
-    {
-        return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
+    if constexpr (kHasMask) {
+      kargs.mask_type = mask_type;
+      kargs.window_size = window_size;
     }
-
-    __host__ static constexpr auto BlockSize() { return dim3(kBlockSize); }
-
-    __host__ __device__ static constexpr ck::index_t GetSmemSize()
-    {
-        return ck::math::max(FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
+    if constexpr (kStoreLSE) {
+      kargs.lse_ptr = lse_ptr;
+      kargs.nhead_stride_lse = nhead_stride_lse;
     }
 
-    __device__ void operator()(Kargs kargs) const
-    {
-        using namespace ck;
-        using namespace ck::tile_program;
-        using namespace ck::tile_program::block;
-
-        // allocate LDS
-        __shared__ char smem_ptr[GetSmemSize()];
-
-        // divide problem
-        const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
-            TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
-
-        const index_t i_m0 = __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
-        const index_t i_n1 = __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
-
-        long_index_t batch_offset_q    = 0;
-        long_index_t batch_offset_k    = 0;
-        long_index_t batch_offset_v    = 0;
-        long_index_t batch_offset_bias = 0;
-        long_index_t batch_offset_lse  = 0;
-        long_index_t batch_offset_o    = 0;
-
-        if constexpr(kIsGroupMode)
-        {
-            // get starting offset for each batch
-            const long_index_t query_start = kargs.seqstart_q_ptr[i_batch];
-            const long_index_t key_start   = kargs.seqstart_k_ptr[i_batch];
-
-            batch_offset_q = query_start * kargs.stride_q;
-            batch_offset_k = key_start * kargs.stride_k;
-            if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
-            {
-                batch_offset_v = key_start * kargs.stride_v;
-            }
-            else
-            {
-                batch_offset_v = key_start;
-            }
-            if constexpr(kHasBias)
-            {
-                batch_offset_bias = query_start * kargs.stride_bias + key_start;
-            }
-            else
-            {
-                batch_offset_bias = key_start;
-            }
-            if constexpr(kStoreLSE)
-            {
-                batch_offset_lse = query_start;
-            }
-            batch_offset_o = query_start * kargs.stride_o;
-
-            // get real # queries & # keys under group mode
-            const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
-            kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
-
-            // # of required blocks is different in each groups, terminate unnecessary blocks
-            // earlier
-            if(kargs.seqlen_q <= i_m0)
-            {
-                return;
-            }
-
-            if(kargs.seqlen_k_ptr != nullptr)
-            {
-                kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
-            }
-            else
-            {
-                const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
-                kargs.seqlen_k = adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
-            }
-        }
-        else
-        {
-            batch_offset_q = static_cast<long_index_t>(i_batch) * kargs.batch_stride_q;
-            batch_offset_k = static_cast<long_index_t>(i_batch) * kargs.batch_stride_k;
-            batch_offset_v = static_cast<long_index_t>(i_batch) * kargs.batch_stride_v;
-            if constexpr(kHasBias)
-            {
-                batch_offset_bias = static_cast<long_index_t>(i_batch) * kargs.batch_stride_bias;
-            }
-            if constexpr(kStoreLSE)
-            {
-                batch_offset_lse = static_cast<long_index_t>(i_batch) * kargs.batch_stride_lse;
-            }
-            batch_offset_o = static_cast<long_index_t>(i_batch) * kargs.batch_stride_o;
-        }
+    return kargs;
+  }
+
+  __host__ static constexpr auto GridSize(
+      ck::index_t batch_size_,
+      ck::index_t nhead_,
+      ck::index_t seqlen_q_,
+      ck::index_t hdim_v_) {
+    return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
+  }
+
+  __host__ static constexpr auto BlockSize() {
+    return dim3(kBlockSize);
+  }
+
+  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
+    return ck::math::max(
+        FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
+  }
+
+  __device__ void operator()(Kargs kargs) const {
+    using namespace ck;
+    using namespace ck::tile_program;
+    using namespace ck::tile_program::block;
+
+    // allocate LDS
+    __shared__ char smem_ptr[GetSmemSize()];
+
+    // divide problem
+    const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
+        TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
+
+    const index_t i_m0 =
+        __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
+    const index_t i_n1 =
+        __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
+
+    long_index_t batch_offset_q = 0;
+    long_index_t batch_offset_k = 0;
+    long_index_t batch_offset_v = 0;
+    long_index_t batch_offset_bias = 0;
+    long_index_t batch_offset_lse = 0;
+    long_index_t batch_offset_o = 0;
+
+    if constexpr (kIsGroupMode) {
+      // get starting offset for each batch
+      const long_index_t query_start = kargs.seqstart_q_ptr[i_batch];
+      const long_index_t key_start = kargs.seqstart_k_ptr[i_batch];
+
+      batch_offset_q = query_start * kargs.stride_q;
+      batch_offset_k = key_start * kargs.stride_k;
+      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
+        batch_offset_v = key_start * kargs.stride_v;
+      } else {
+        batch_offset_v = key_start;
+      }
+      if constexpr (kHasBias) {
+        batch_offset_bias = query_start * kargs.stride_bias + key_start;
+      } else {
+        batch_offset_bias = key_start;
+      }
+      if constexpr (kStoreLSE) {
+        batch_offset_lse = query_start;
+      }
+      batch_offset_o = query_start * kargs.stride_o;
+
+      // get real # queries & # keys under group mode
+      const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
+      kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
+
+      // # of required blocks is different in each groups, terminate unnecessary
+      // blocks earlier
+      if (kargs.seqlen_q <= i_m0) {
+        return;
+      }
+
+      if (kargs.seqlen_k_ptr != nullptr) {
+        kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
+      } else {
+        const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
+        kargs.seqlen_k =
+            adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
+      }
+    } else {
+      batch_offset_q =
+          static_cast<long_index_t>(i_batch) * kargs.batch_stride_q;
+      batch_offset_k =
+          static_cast<long_index_t>(i_batch) * kargs.batch_stride_k;
+      batch_offset_v =
+          static_cast<long_index_t>(i_batch) * kargs.batch_stride_v;
+      if constexpr (kHasBias) {
+        batch_offset_bias =
+            static_cast<long_index_t>(i_batch) * kargs.batch_stride_bias;
+      }
+      if constexpr (kStoreLSE) {
+        batch_offset_lse =
+            static_cast<long_index_t>(i_batch) * kargs.batch_stride_lse;
+      }
+      batch_offset_o =
+          static_cast<long_index_t>(i_batch) * kargs.batch_stride_o;
+    }
 
-        // for simplicity, batch stride we just modify the pointer
-        const QDataType* q_ptr = reinterpret_cast<const QDataType*>(kargs.q_ptr) +
-                                 static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_q +
-                                 batch_offset_q;
-        const KDataType* k_ptr =
-            reinterpret_cast<const KDataType*>(kargs.k_ptr) +
-            static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) * kargs.nhead_stride_k +
-            batch_offset_k;
-        const VDataType* v_ptr =
-            reinterpret_cast<const VDataType*>(kargs.v_ptr) +
-            static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) * kargs.nhead_stride_v +
-            batch_offset_v;
-        ODataType* o_ptr = reinterpret_cast<ODataType*>(kargs.o_ptr) +
-                           static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
-                           batch_offset_o;
-
-        // Q/K/V DRAM and DRAM window
-        const auto q_dram = [&]() {
-            const auto q_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                q_ptr,
-                make_tuple(kargs.seqlen_q, kargs.hdim_q),
-                make_tuple(kargs.stride_q, 1),
+    // for simplicity, batch stride we just modify the pointer
+    const QDataType* q_ptr = reinterpret_cast<const QDataType*>(kargs.q_ptr) +
+        static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_q +
+        batch_offset_q;
+    const KDataType* k_ptr = reinterpret_cast<const KDataType*>(kargs.k_ptr) +
+        static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) *
+            kargs.nhead_stride_k +
+        batch_offset_k;
+    const VDataType* v_ptr = reinterpret_cast<const VDataType*>(kargs.v_ptr) +
+        static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) *
+            kargs.nhead_stride_v +
+        batch_offset_v;
+    ODataType* o_ptr = reinterpret_cast<ODataType*>(kargs.o_ptr) +
+        static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
+        batch_offset_o;
+
+    // Q/K/V DRAM and DRAM window
+    const auto q_dram = [&]() {
+      const auto q_dram_naive =
+          make_naive_tensor_view<AddressSpaceEnum::Global>(
+              q_ptr,
+              make_tuple(kargs.seqlen_q, kargs.hdim_q),
+              make_tuple(kargs.stride_q, 1),
+              Number<32>{},
+              Number<1>{});
+      if constexpr (FmhaPipeline::kQLoadOnce) {
+        return pad_tensor_view(
+            q_dram_naive,
+            make_tuple(
+                Number<FmhaPipeline::kM0>{},
+                Number<FmhaPipeline::kK0BlockLength>{}),
+            Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
+      } else {
+        return pad_tensor_view(
+            q_dram_naive,
+            make_tuple(
+                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{}),
+            Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
+      }
+    }();
+    const auto k_dram = [&]() {
+      const auto k_dram_naive =
+          make_naive_tensor_view<AddressSpaceEnum::Global>(
+              k_ptr,
+              make_tuple(kargs.seqlen_k, kargs.hdim_q),
+              make_tuple(kargs.stride_k, 1),
+              Number<32>{},
+              Number<1>{});
+
+      return pad_tensor_view(
+          k_dram_naive,
+          make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
+          Sequence<kPadSeqLenK, kPadHeadDimQ>{});
+    }();
+    const auto v_dram = [&]() {
+      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
+        const auto v_dram_naive =
+            make_naive_tensor_view<AddressSpaceEnum::Global>(
+                v_ptr,
+                make_tuple(kargs.seqlen_k, kargs.hdim_v),
+                make_tuple(kargs.stride_v, 1),
                 Number<32>{},
                 Number<1>{});
-            if constexpr(FmhaPipeline::kQLoadOnce)
-            {
-                return pad_tensor_view(
-                    q_dram_naive,
-                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0BlockLength>{}),
-                    Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
-            }
-            else
-            {
-                return pad_tensor_view(
-                    q_dram_naive,
-                    make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{}),
-                    Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
-            }
-        }();
-        const auto k_dram = [&]() {
-            const auto k_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                k_ptr,
-                make_tuple(kargs.seqlen_k, kargs.hdim_q),
-                make_tuple(kargs.stride_k, 1),
+
+        const auto v_dram_transposed = transform_tensor_view(
+            v_dram_naive,
+            make_tuple(
+                make_pass_through_transform(kargs.seqlen_k),
+                make_pass_through_transform(kargs.hdim_v)),
+            make_tuple(Sequence<0>{}, Sequence<1>{}),
+            make_tuple(Sequence<1>{}, Sequence<0>{}));
+
+        return pad_tensor_view(
+            v_dram_transposed,
+            make_tuple(
+                Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+            Sequence<kPadHeadDimV, kPadSeqLenK>{});
+      } else {
+        const auto v_dram_naive =
+            make_naive_tensor_view<AddressSpaceEnum::Global>(
+                v_ptr,
+                make_tuple(kargs.hdim_v, kargs.seqlen_k),
+                make_tuple(kargs.stride_v, 1),
                 Number<32>{},
                 Number<1>{});
 
-            return pad_tensor_view(
-                k_dram_naive,
-                make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
-                Sequence<kPadSeqLenK, kPadHeadDimQ>{});
-        }();
-        const auto v_dram = [&]() {
-            if constexpr(ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>)
-            {
-                const auto v_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                    v_ptr,
-                    make_tuple(kargs.seqlen_k, kargs.hdim_v),
-                    make_tuple(kargs.stride_v, 1),
-                    Number<32>{},
-                    Number<1>{});
-
-                const auto v_dram_transposed =
-                    transform_tensor_view(v_dram_naive,
-                                          make_tuple(make_pass_through_transform(kargs.seqlen_k),
-                                                     make_pass_through_transform(kargs.hdim_v)),
-                                          make_tuple(Sequence<0>{}, Sequence<1>{}),
-                                          make_tuple(Sequence<1>{}, Sequence<0>{}));
-
-                return pad_tensor_view(
-                    v_dram_transposed,
-                    make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-                    Sequence<kPadHeadDimV, kPadSeqLenK>{});
-            }
-            else
-            {
-                const auto v_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                    v_ptr,
-                    make_tuple(kargs.hdim_v, kargs.seqlen_k),
-                    make_tuple(kargs.stride_v, 1),
-                    Number<32>{},
-                    Number<1>{});
-
-                return pad_tensor_view(
-                    v_dram_naive,
-                    make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-                    Sequence<kPadHeadDimV, kPadSeqLenK>{});
-            }
-        }();
-
-        auto q_dram_window = make_tile_window(
-            q_dram,
-            [&]() {
-                if constexpr(FmhaPipeline::kQLoadOnce)
-                    return make_tuple(Number<FmhaPipeline::kM0>{},
-                                      Number<FmhaPipeline::kK0BlockLength>{});
-                else
-                    return make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
-            }(),
-            {i_m0, 0});
-
-        auto k_dram_window = make_tile_window(
-            k_dram, make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}), {0, 0});
-
-        auto v_dram_window =
-            make_tile_window(v_dram,
-                             make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-                             {i_n1, 0});
-        /// FIXME: Before C++20, capturing structured binding variables is not supported. Remove
-        /// following copy capture of the 'i_nhead'
-        ///        if compiled in C++20
-        const auto bias_dram_window = [&, i_nhead_ = i_nhead]() {
-            constexpr auto bias_dram_window_lengths =
-                make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
-            if constexpr(kHasBias)
-            {
-                const BiasDataType* bias_ptr =
-                    reinterpret_cast<const BiasDataType*>(kargs.bias_ptr) +
-                    static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_bias +
-                    batch_offset_bias;
-
-                const auto bias_dram = [&]() {
-                    const auto bias_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                        bias_ptr,
-                        make_tuple(kargs.seqlen_q, kargs.seqlen_k),
-                        make_tuple(kargs.stride_bias, 1),
-                        Number<32>{},
-                        Number<1>{});
-
-                    return pad_tensor_view(bias_dram_naive,
-                                           bias_dram_window_lengths,
-                                           Sequence<kPadSeqLenQ, kPadSeqLenK>{});
-                }();
-
-                return make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
-            }
-            else
-            {
-                return make_null_tile_window(bias_dram_window_lengths);
-            }
+        return pad_tensor_view(
+            v_dram_naive,
+            make_tuple(
+                Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+            Sequence<kPadHeadDimV, kPadSeqLenK>{});
+      }
+    }();
+
+    auto q_dram_window = make_tile_window(
+        q_dram,
+        [&]() {
+          if constexpr (FmhaPipeline::kQLoadOnce)
+            return make_tuple(
+                Number<FmhaPipeline::kM0>{},
+                Number<FmhaPipeline::kK0BlockLength>{});
+          else
+            return make_tuple(
+                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
+        }(),
+        {i_m0, 0});
+
+    auto k_dram_window = make_tile_window(
+        k_dram,
+        make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
+        {0, 0});
+
+    auto v_dram_window = make_tile_window(
+        v_dram,
+        make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
+        {i_n1, 0});
+    /// FIXME: Before C++20, capturing structured binding variables is not
+    /// supported. Remove following copy capture of the 'i_nhead'
+    ///        if compiled in C++20
+    const auto bias_dram_window = [&, i_nhead_ = i_nhead]() {
+      constexpr auto bias_dram_window_lengths =
+          make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
+      if constexpr (kHasBias) {
+        const BiasDataType* bias_ptr =
+            reinterpret_cast<const BiasDataType*>(kargs.bias_ptr) +
+            static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_bias +
+            batch_offset_bias;
+
+        const auto bias_dram = [&]() {
+          const auto bias_dram_naive =
+              make_naive_tensor_view<AddressSpaceEnum::Global>(
+                  bias_ptr,
+                  make_tuple(kargs.seqlen_q, kargs.seqlen_k),
+                  make_tuple(kargs.stride_bias, 1),
+                  Number<32>{},
+                  Number<1>{});
+
+          return pad_tensor_view(
+              bias_dram_naive,
+              bias_dram_window_lengths,
+              Sequence<kPadSeqLenQ, kPadSeqLenK>{});
         }();
 
-        // lse
-        auto lse_dram_window = [&, i_nhead_ = i_nhead]() {
-            constexpr auto lse_dram_window_lengths = make_tuple(Number<FmhaPipeline::kM0>{});
-            if constexpr(kStoreLSE)
-            {
-                LSEDataType* lse_ptr =
-                    reinterpret_cast<LSEDataType*>(kargs.lse_ptr) +
-                    static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_lse + batch_offset_lse;
-
-                const auto lse_dram = [&]() {
-                    const auto lse_dram_naive =
-                        make_naive_tensor_view<AddressSpaceEnum::Global>(lse_ptr,
-                                                                         make_tuple(kargs.seqlen_q),
-                                                                         make_tuple(1),
-                                                                         Number<1>{},
-                                                                         Number<1>{});
-
-                    return pad_tensor_view(
-                        lse_dram_naive, lse_dram_window_lengths, Sequence<kPadSeqLenQ>{});
-                }();
-
-                return make_tile_window(lse_dram, lse_dram_window_lengths, {i_m0});
-            }
-            else
-            {
-                return make_null_tile_window(lse_dram_window_lengths);
-            }
+        return make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
+      } else {
+        return make_null_tile_window(bias_dram_window_lengths);
+      }
+    }();
+
+    // lse
+    auto lse_dram_window = [&, i_nhead_ = i_nhead]() {
+      constexpr auto lse_dram_window_lengths =
+          make_tuple(Number<FmhaPipeline::kM0>{});
+      if constexpr (kStoreLSE) {
+        LSEDataType* lse_ptr = reinterpret_cast<LSEDataType*>(kargs.lse_ptr) +
+            static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_lse +
+            batch_offset_lse;
+
+        const auto lse_dram = [&]() {
+          const auto lse_dram_naive =
+              make_naive_tensor_view<AddressSpaceEnum::Global>(
+                  lse_ptr,
+                  make_tuple(kargs.seqlen_q),
+                  make_tuple(1),
+                  Number<1>{},
+                  Number<1>{});
+
+          return pad_tensor_view(
+              lse_dram_naive, lse_dram_window_lengths, Sequence<kPadSeqLenQ>{});
         }();
 
-        FmhaMask mask = [&]() {
-            if constexpr(kHasMask)
-            {
-                auto res =
-                    ck::make_tuple(ck::index_t{0}, ck::index_t{0}, ck::index_t{0}, ck::index_t{0});
-
-                if(kargs.window_size > 0)
-                {
-                    if(kargs.mask_type == CausalMaskType::MaskDisabled)
-                    {
-                        ck::index_t left_size  = kargs.window_size / 2;
-                        ck::index_t right_size = kargs.window_size - 1 - left_size;
-
-                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            left_size, right_size, kargs.seqlen_q, kargs.seqlen_k);
-                    }
-                    else
-                    {
-                        bool is_topleft =
-                            (kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft);
-
-                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            kargs.window_size - 1, 0, kargs.seqlen_q, kargs.seqlen_k, is_topleft);
-                    }
-                }
-                else
-                {
-                    if(kargs.mask_type == CausalMaskType::MaskDisabled)
-                    {
-                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            -1, -1, kargs.seqlen_q, kargs.seqlen_k);
-                    }
-                    else
-                    {
-                        bool is_topleft =
-                            (kargs.mask_type == CausalMaskType::MaskUpperTriangleFromTopLeft);
-
-                        res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                            -1, 0, kargs.seqlen_q, kargs.seqlen_k, is_topleft);
-                    }
-                }
-
-                auto y = res.At(ck::Number<0>{});
-                auto x = res.At(ck::Number<1>{});
-
-                return FmhaMask{y, x, kargs.seqlen_q, kargs.seqlen_k};
-            }
-            else
-                return FmhaMask{0, 0, kargs.seqlen_q, kargs.seqlen_k};
-        }();
-
-        auto o_acc_tile =
-            FmhaPipeline{}(q_dram_window,
-                           k_dram_window,
-                           v_dram_window,
-                           bias_dram_window,
-                           lse_dram_window,
-                           mask,
-                           kargs.scale,
-                           // ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
-                           // ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
-                           smem_ptr);
-
-        // O DRAM and O DRAM window
-        auto o_dram = [&]() {
-            const auto o_dram_naive = make_naive_tensor_view<AddressSpaceEnum::Global>(
-                o_ptr,
-                make_tuple(kargs.seqlen_q, kargs.hdim_v),
-                make_tuple(kargs.stride_o, 1),
-                Number<32>{},
-                Number<1>{});
-
-            return pad_tensor_view(
-                o_dram_naive,
-                make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-                Sequence<kPadSeqLenQ, kPadHeadDimV>{});
-        }();
-
-        auto o_dram_window =
-            make_tile_window(o_dram,
-                             make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-                             {i_m0, i_n1});
+        return make_tile_window(lse_dram, lse_dram_window_lengths, {i_m0});
+      } else {
+        return make_null_tile_window(lse_dram_window_lengths);
+      }
+    }();
+
+    FmhaMask mask = [&]() {
+      if constexpr (kHasMask) {
+        auto res = ck::make_tuple(
+            ck::index_t{0}, ck::index_t{0}, ck::index_t{0}, ck::index_t{0});
+
+        if (kargs.window_size > 0) {
+          if (kargs.mask_type == CausalMaskType::MaskDisabled) {
+            ck::index_t left_size = kargs.window_size / 2;
+            ck::index_t right_size = kargs.window_size - 1 - left_size;
+
+            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                left_size, right_size, kargs.seqlen_q, kargs.seqlen_k);
+          } else {
+            bool is_topleft =
+                (kargs.mask_type ==
+                 CausalMaskType::MaskUpperTriangleFromTopLeft);
+
+            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                kargs.window_size - 1,
+                0,
+                kargs.seqlen_q,
+                kargs.seqlen_k,
+                is_topleft);
+          }
+        } else {
+          if (kargs.mask_type == CausalMaskType::MaskDisabled) {
+            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                -1, -1, kargs.seqlen_q, kargs.seqlen_k);
+          } else {
+            bool is_topleft =
+                (kargs.mask_type ==
+                 CausalMaskType::MaskUpperTriangleFromTopLeft);
+
+            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
+                -1, 0, kargs.seqlen_q, kargs.seqlen_k, is_topleft);
+          }
+        }
 
-        EpiloguePipeline{}(o_dram_window, o_acc_tile);
-    }
+        auto y = res.At(ck::Number<0>{});
+        auto x = res.At(ck::Number<1>{});
+
+        return FmhaMask{y, x, kargs.seqlen_q, kargs.seqlen_k};
+      } else
+        return FmhaMask{0, 0, kargs.seqlen_q, kargs.seqlen_k};
+    }();
+
+    auto o_acc_tile = FmhaPipeline{}(
+        q_dram_window,
+        k_dram_window,
+        v_dram_window,
+        bias_dram_window,
+        lse_dram_window,
+        mask,
+        kargs.scale,
+        // ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
+        // ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
+        smem_ptr);
+
+    // O DRAM and O DRAM window
+    auto o_dram = [&]() {
+      const auto o_dram_naive =
+          make_naive_tensor_view<AddressSpaceEnum::Global>(
+              o_ptr,
+              make_tuple(kargs.seqlen_q, kargs.hdim_v),
+              make_tuple(kargs.stride_o, 1),
+              Number<32>{},
+              Number<1>{});
+
+      return pad_tensor_view(
+          o_dram_naive,
+          make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
+          Sequence<kPadSeqLenQ, kPadHeadDimV>{});
+    }();
+
+    auto o_dram_window = make_tile_window(
+        o_dram,
+        make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
+        {i_m0, i_n1});
+
+    EpiloguePipeline{}(o_dram_window, o_acc_tile);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
index 72c1c4a9b2..9dde0c97c7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
@@ -6,33 +6,35 @@
  */
 #pragma once
 
-#include "ck/utility/common_header.hpp"
 #include "ck/tile_program/tile/store_tile.hpp"
 #include "ck/tile_program/tile/tile_elementwise.hpp"
+#include "ck/utility/common_header.hpp"
 
 template <typename OaccDataType_, typename ODataType_>
-struct FmhaFwdEpilogueProblem
-{
-    using OaccDataType = ck::remove_cvref_t<OaccDataType_>;
-    using ODataType    = ck::remove_cvref_t<ODataType_>;
+struct FmhaFwdEpilogueProblem {
+  using OaccDataType = ck::remove_cvref_t<OaccDataType_>;
+  using ODataType = ck::remove_cvref_t<ODataType_>;
 };
 
 template <typename Problem_, typename Policy_ = void>
-struct FmhaFwdEpilogue
-{
-    using Problem      = ck::remove_cvref_t<Problem_>;
-    using OaccDataType = ck::remove_cvref_t<typename Problem::OaccDataType>;
-    using ODataType    = ck::remove_cvref_t<typename Problem::ODataType>;
+struct FmhaFwdEpilogue {
+  using Problem = ck::remove_cvref_t<Problem_>;
+  using OaccDataType = ck::remove_cvref_t<typename Problem::OaccDataType>;
+  using ODataType = ck::remove_cvref_t<typename Problem::ODataType>;
 
-    __host__ __device__ static constexpr ck::index_t GetSmemSize() { return 0; }
+  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
+    return 0;
+  }
 
-    template <typename ODramWindowTmp, typename OAccTile>
-    __device__ auto operator()(ODramWindowTmp& o_dram_window_tmp, const OAccTile& o_acc_tile)
-    {
-        using namespace ck;
-        using namespace ck::tile_program;
+  template <typename ODramWindowTmp, typename OAccTile>
+  __device__ auto operator()(
+      ODramWindowTmp& o_dram_window_tmp,
+      const OAccTile& o_acc_tile) {
+    using namespace ck;
+    using namespace ck::tile_program;
 
-        const auto o = tile_elementwise_in(type_convert<ODataType, OaccDataType>, o_acc_tile);
-        store_tile(o_dram_window_tmp, o);
-    }
+    const auto o =
+        tile_elementwise_in(type_convert<ODataType, OaccDataType>, o_acc_tile);
+    store_tile(o_dram_window_tmp, o);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
index 1067eaf7b5..34537d7074 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
@@ -6,52 +6,51 @@
  */
 #pragma once
 
-#include "ck/utility/common_header.hpp"
 #include "ck/tile_program/tile/store_tile.hpp"
 #include "ck/tile_program/tile/tile_elementwise.hpp"
+#include "ck/utility/common_header.hpp"
 
 template <typename BlockFmhaShape_>
-struct FmhaFwdTilePartitioner
-{
-    using BlockFmhaShape = ck::remove_cvref_t<BlockFmhaShape_>;
-
-    static constexpr ck::index_t kM0 = BlockFmhaShape::kM0;
-    static constexpr ck::index_t kN0 = BlockFmhaShape::kN0;
-    static constexpr ck::index_t kK0 = BlockFmhaShape::kK0;
-    static constexpr ck::index_t kN1 = BlockFmhaShape::kN1;
-    static constexpr ck::index_t kK1 = BlockFmhaShape::kK1;
-
-    __host__ static constexpr auto GridSize(ck::index_t batch_size_,
-                                            ck::index_t nhead_,
-                                            ck::index_t seqlen_q_,
-                                            ck::index_t hdim_v_)
-    {
-        // TODO: this may need tuning
-        return dim3(ck::math::integer_divide_ceil(seqlen_q_, kM0) *
-                        ck::math::integer_divide_ceil(hdim_v_, kN1),
-                    nhead_,
-                    batch_size_);
-    }
-
-    __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v)
-    {
-        using namespace ck;
-
-        // const index_t num_tile_m0 = seqlen_q / kM0;
-        const index_t num_tile_n1 = ck::math::integer_divide_ceil(hdim_v, kN1);
-
-        const index_t i_block = blockIdx.x;
-        const index_t i_nhead = blockIdx.y;
-        const index_t i_batch = blockIdx.z;
-
-        const auto f = [](index_t dividend, index_t divisor) {
-            index_t quotient = dividend / divisor;
-            index_t modulus  = dividend - quotient * divisor;
-            return ck::make_tuple(quotient, modulus);
-        };
-
-        const auto [i_tile_m, i_tile_n] = f(i_block, num_tile_n1);
-
-        return ck::make_tuple(i_tile_m, i_tile_n, i_nhead, i_batch);
-    }
+struct FmhaFwdTilePartitioner {
+  using BlockFmhaShape = ck::remove_cvref_t<BlockFmhaShape_>;
+
+  static constexpr ck::index_t kM0 = BlockFmhaShape::kM0;
+  static constexpr ck::index_t kN0 = BlockFmhaShape::kN0;
+  static constexpr ck::index_t kK0 = BlockFmhaShape::kK0;
+  static constexpr ck::index_t kN1 = BlockFmhaShape::kN1;
+  static constexpr ck::index_t kK1 = BlockFmhaShape::kK1;
+
+  __host__ static constexpr auto GridSize(
+      ck::index_t batch_size_,
+      ck::index_t nhead_,
+      ck::index_t seqlen_q_,
+      ck::index_t hdim_v_) {
+    // TODO: this may need tuning
+    return dim3(
+        ck::math::integer_divide_ceil(seqlen_q_, kM0) *
+            ck::math::integer_divide_ceil(hdim_v_, kN1),
+        nhead_,
+        batch_size_);
+  }
+
+  __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v) {
+    using namespace ck;
+
+    // const index_t num_tile_m0 = seqlen_q / kM0;
+    const index_t num_tile_n1 = ck::math::integer_divide_ceil(hdim_v, kN1);
+
+    const index_t i_block = blockIdx.x;
+    const index_t i_nhead = blockIdx.y;
+    const index_t i_batch = blockIdx.z;
+
+    const auto f = [](index_t dividend, index_t divisor) {
+      index_t quotient = dividend / divisor;
+      index_t modulus = dividend - quotient * divisor;
+      return ck::make_tuple(quotient, modulus);
+    };
+
+    const auto [i_tile_m, i_tile_n] = f(i_block, num_tile_n1);
+
+    return ck::make_tuple(i_tile_m, i_tile_n, i_nhead, i_batch);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 7b8707aa31..33eb580c18 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -6,170 +6,194 @@
  */
 #pragma once
 
+#include <iostream>
 #include <optional>
 #include <sstream>
 #include <stdexcept>
-#include <iostream>
 
-#include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
 #include <ck/tensor_description/cluster_descriptor.hpp>
 #include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/tensor/tensor_view.hpp>
+#include <ck/utility/common_header.hpp>
 
+#include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
-#include <ck/tile_program/block_tile/block_masking.hpp>
 
+#include "ck_tiled_fmha_definitions.h"
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
-#include "ck_tiled_fmha_definitions.h"
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_headdim_switch.h"
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-struct grouped_forward_causalmask_attnbias_dispatched
-{
-    using FmhaEpilogue =
-        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
-    template <typename FmhaTraits, typename FmhaMask>
-    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
-        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        FmhaFwdShape<HDim>,
-        true, // kIsGroupMode
-        FmhaMask,
-        FmhaTraits>;
-
-    static void Run(GroupedForwardParams& param, hipStream_t stream)
-    {
-        const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
-
-            using FmhaMask =
-                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
-
-            using FmhaShape                 = FmhaFwdShape<HDim>;
-            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : (HDim == 256) ? 1 : 2;
-
-            constexpr bool kPadSeqLenQ = true;
-            constexpr bool kPadSeqLenK = true;
-
-            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-
-            if constexpr(HDim == 256)
-            {
-                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                        kPadSeqLenK,
-                                                                        kPadHeadDimQ,
-                                                                        kPadHeadDimV,
-                                                                        has_attn_bias,
-                                                                        true, // kStoreLSE
-                                                                        occupancy>;
-
-                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                });
-            }
-            else
-            {
-                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                        kPadSeqLenK,
-                                                                        kPadHeadDimQ,
-                                                                        kPadHeadDimV,
-                                                                        has_attn_bias,
-                                                                        true, // kStoreLSE
-                                                                        occupancy>;
-
-                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                });
-            };
-        });
-    };
-
-    template <typename FmhaKernel>
-    static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream)
-    {
-        const auto kargs = [&] {
-            return FmhaKernel::MakeKargs(
-                param.q_ptr,
-                param.k_ptr,
-                param.v_ptr,
-                param.attn_bias_ptr,
-                param.logsumexp_ptr,
-                param.out_ptr,
-                param.seqstart_q_dev_ptr,
-                param.seqstart_k_dev_ptr,
-                param.seqlen_k_dev_ptr,
-                param.K,              // hdim_q
-                param.Kv,             // hdim_v
-                param.Hq / param.Hkv, // nhead_ratio_qk
-                param.scale,
-                param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
-                param.k_strides[0],
-                param.v_strides[0],
-                param.attn_bias_strides[2],
-                param.out_strides[0],
-                param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
-                param.k_strides[1],
-                param.v_strides[1],
-                param.attn_bias_strides[1],
-                param.max_seqlen_q, // nhead_stride_lse
-                param.out_strides[1],
-                static_cast<CausalMaskType>(param.custom_mask_type),
-                param.window_size);
-        }();
-
-        dim3 kGridSize =
-            FmhaKernel::GridSize(param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
-        constexpr dim3 kBlockSize         = FmhaKernel::BlockSize();
-        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
-    };
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+struct grouped_forward_causalmask_attnbias_dispatched {
+  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
+
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          FmhaFwdShape<HDim>,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck::tile_program::block::
+          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck::index_t occupancy =
+          (HDim == 64) ? 3 : (HDim == 256) ? 1 : 2;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+
+      if constexpr (HDim == 256) {
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  true, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                      FmhaPipelineProblem>;
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  true, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      };
+    });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          param.out_strides[0],
+          param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          param.max_seqlen_q, // nhead_stride_lse
+          param.out_strides[1],
+          static_cast<CausalMaskType>(param.custom_mask_type),
+          param.window_size);
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  };
 };
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-void run_grouped_forward_causalmask_attnbias_dispatched(GroupedForwardParams& param,
-                                                        hipStream_t stream)
-{
-    grouped_forward_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
-        Run(param, stream);
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+void run_grouped_forward_causalmask_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_forward_causalmask_attnbias_dispatched<
+      scalar_t,
+      has_causal_mask,
+      has_attn_bias,
+      HDim>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
index 5606f13e5d..db313f3ef0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -49,22 +49,23 @@ extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhal
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                   false,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                   true,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_grouped_forward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_grouped_forward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index 63b3e7b96c..2e807d3a56 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -49,22 +49,23 @@ extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t,
-                                                                   false,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t,
-                                                                   true,
-                                                                   HAS_ATTN_BIAS,
-                                                                   HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_grouped_forward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_grouped_forward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 31849f7b62..11b2857fd3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -6,170 +6,194 @@
  */
 #pragma once
 
+#include <iostream>
 #include <optional>
 #include <sstream>
 #include <stdexcept>
-#include <iostream>
 
-#include <ck/utility/common_header.hpp>
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
 #include <ck/tensor_description/cluster_descriptor.hpp>
 #include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/tensor/tensor_view.hpp>
+#include <ck/utility/common_header.hpp>
 
+#include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
-#include <ck/tile_program/block_tile/block_masking.hpp>
 
+#include "ck_tiled_fmha_definitions.h"
 #include "ck_tiled_fmha_forward_kernel.h"
 #include "ck_tiled_fmha_fwd_epilogue.h"
 #include "ck_tiled_fmha_fwd_tile_partitioner.h"
 #include "ck_tiled_fmha_params.h"
-#include "ck_tiled_fmha_definitions.h"
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_headdim_switch.h"
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-struct grouped_infer_causalmask_attnbias_dispatched
-{
-    using FmhaEpilogue =
-        FmhaFwdEpilogue<FmhaFwdEpilogueProblem<typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                                               typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
-    template <typename FmhaTraits, typename FmhaMask>
-    using FmhaPipelineProblemTemp = ck::tile_program::block::BlockFmhaPipelineProblem<
-        typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-        typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-        FmhaFwdShape<HDim>,
-        true, // kIsGroupMode
-        FmhaMask,
-        FmhaTraits>;
-
-    static void Run(GroupedForwardParams& param, hipStream_t stream)
-    {
-        const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-        BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-            constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
-
-            using FmhaMask =
-                ck::tile_program::block::GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
-
-            using FmhaShape                 = FmhaFwdShape<HDim>;
-            using FmhaTilePartitioner       = FmhaFwdTilePartitioner<FmhaShape>;
-            constexpr ck::index_t occupancy = (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
-
-            constexpr bool kPadSeqLenQ = true;
-            constexpr bool kPadSeqLenK = true;
-
-            bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-            bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-
-            if constexpr(HDim == 256)
-            {
-                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                        kPadSeqLenK,
-                                                                        kPadHeadDimQ,
-                                                                        kPadHeadDimV,
-                                                                        has_attn_bias,
-                                                                        false, // kStoreLSE
-                                                                        occupancy>;
-
-                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                });
-            }
-            else
-            {
-                BOOL_SWITCH_2(pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-                    using FmhaTraits = ck::tile_program::TileFmhaTraits<kPadSeqLenQ,
-                                                                        kPadSeqLenK,
-                                                                        kPadHeadDimQ,
-                                                                        kPadHeadDimV,
-                                                                        has_attn_bias,
-                                                                        false, // kStoreLSE
-                                                                        occupancy>;
-
-                    using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                    using FmhaPipeline =
-                        ck::tile_program::block::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-                    using FmhaKernel =
-                        FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-                    RunWithKernel<FmhaKernel>(param, stream);
-                });
-            };
-        });
-    };
-
-    template <typename FmhaKernel>
-    static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream)
-    {
-        const auto kargs = [&] {
-            return FmhaKernel::MakeKargs(
-                param.q_ptr,
-                param.k_ptr,
-                param.v_ptr,
-                param.attn_bias_ptr,
-                nullptr, // lse_ptr
-                param.out_ptr,
-                param.seqstart_q_dev_ptr,
-                param.seqstart_k_dev_ptr,
-                param.seqlen_k_dev_ptr,
-                param.K,              // hdim_q
-                param.Kv,             // hdim_v
-                param.Hq / param.Hkv, // nhead_ratio_qk
-                param.scale,
-                param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
-                param.k_strides[0],
-                param.v_strides[0],
-                param.attn_bias_strides[2],
-                param.out_strides[0],
-                param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
-                param.k_strides[1],
-                param.v_strides[1],
-                param.attn_bias_strides[1],
-                0, // nhead_stride_lse
-                param.out_strides[1],
-                static_cast<CausalMaskType>(param.custom_mask_type),
-                param.window_size);
-        }();
-
-        dim3 kGridSize =
-            FmhaKernel::GridSize(param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
-        constexpr dim3 kBlockSize         = FmhaKernel::BlockSize();
-        constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-        (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-            StreamConfig{stream, false}, FmhaKernel{}, kGridSize, kBlockSize, 0, kargs);
-    };
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+struct grouped_infer_causalmask_attnbias_dispatched {
+  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
+
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp =
+      ck::tile_program::block::BlockFmhaPipelineProblem<
+          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          FmhaFwdShape<HDim>,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck::tile_program::block::
+          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck::index_t occupancy =
+          (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+
+      if constexpr (HDim == 256) {
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  false, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                      FmhaPipelineProblem>;
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  false, // kStoreLSE
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      };
+    });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // lse_ptr
+          param.out_ptr,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          param.out_strides[0],
+          param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          0, // nhead_stride_lse
+          param.out_strides[1],
+          static_cast<CausalMaskType>(param.custom_mask_type),
+          param.window_size);
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  };
 };
 
-template <typename scalar_t, bool has_causal_mask, bool has_attn_bias, ck::index_t HDim>
-void run_grouped_infer_causalmask_attnbias_dispatched(GroupedForwardParams& param,
-                                                      hipStream_t stream)
-{
-    grouped_infer_causalmask_attnbias_dispatched<scalar_t, has_causal_mask, has_attn_bias, HDim>::
-        Run(param, stream);
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t HDim>
+void run_grouped_infer_causalmask_attnbias_dispatched(
+    GroupedForwardParams& param,
+    hipStream_t stream) {
+  grouped_infer_causalmask_attnbias_dispatched<
+      scalar_t,
+      has_causal_mask,
+      has_attn_bias,
+      HDim>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index 5402ac3279..ce95de00ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -49,22 +49,23 @@ extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                 false,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t,
-                                                                 true,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_grouped_infer_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_grouped_infer_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 17623121b7..830176e68b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -49,22 +49,23 @@ extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream)
-{
-    BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-        FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
-            if(param.custom_mask_type == 0)
-                run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t,
-                                                                 false,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else if(param.custom_mask_type == 1 || param.custom_mask_type == 2)
-                run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t,
-                                                                 true,
-                                                                 HAS_ATTN_BIAS,
-                                                                 HDim>(param, stream);
-            else
-                throw std::runtime_error("Invalid custom_mask_type value");
-        });
+void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+      if (param.custom_mask_type == 0)
+        run_grouped_infer_causalmask_attnbias_dispatched<
+            ck::half_t,
+            false,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_grouped_infer_causalmask_attnbias_dispatched<
+            ck::half_t,
+            true,
+            HAS_ATTN_BIAS,
+            HDim>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
     });
+  });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 880434cf46..5d2c232ba1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -9,213 +9,207 @@
 #include <array>
 #include <cstdint>
 
-struct BatchedInferParams
-{
-    int B;   // batch size
-    int M;   // seq_len for Query
-    int N;   // seq_len for Key and Value
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    float scale;
-    bool has_attn_bias;
-
-    // BMHK mode strides
-    std::array<int, 4> q_strides;
-    std::array<int, 4> k_strides;
-    std::array<int, 4> v_strides;
-    std::array<int, 4> out_strides;
-    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    const void* attn_bias_ptr;
-
-    int custom_mask_type;
-    int window_size; // local-attention
-
-    void* out_ptr;
+struct BatchedInferParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+
+  // BMHK mode strides
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> out_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+
+  int custom_mask_type;
+  int window_size; // local-attention
+
+  void* out_ptr;
 };
 
-struct BatchedForwardParams : public BatchedInferParams
-{
-    bool use_dropout;
-    bool compute_logsumexp;
+struct BatchedForwardParams : public BatchedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
 
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
-    // completely contiguous
-    void* logsumexp_ptr;
+  // completely contiguous
+  void* logsumexp_ptr;
 };
 
-struct GroupedInferParams
-{
-    int num_batches;
-    int M;   // total seq_len for all queries in the batch
-    int N;   // total seq_len for all keys/values in the batch
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
+struct GroupedInferParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
 
-    int max_seqlen_q;
+  int max_seqlen_q;
 
-    void* seqstart_q_dev_ptr;
-    void* seqstart_k_dev_ptr;
-    void* seqlen_k_dev_ptr;
+  void* seqstart_q_dev_ptr;
+  void* seqstart_k_dev_ptr;
+  void* seqlen_k_dev_ptr;
 
-    float scale;
-    bool has_attn_bias;
+  float scale;
+  bool has_attn_bias;
 
-    // MHK mode strides, last-dim contiguous
-    std::array<int, 3> q_strides;
-    std::array<int, 3> k_strides;
-    std::array<int, 3> v_strides;
-    std::array<int, 3> out_strides;
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
 
-    // 4d tensor view [B, H, M, N]
-    std::array<int, 4> attn_bias_strides;
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
 
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    const void* attn_bias_ptr;
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
 
-    int custom_mask_type;
-    int window_size; // local-attention
+  int custom_mask_type;
+  int window_size; // local-attention
 
-    void* out_ptr;
+  void* out_ptr;
 };
 
-struct GroupedForwardParams : public GroupedInferParams
-{
-    bool use_dropout;
-    bool compute_logsumexp;
+struct GroupedForwardParams : public GroupedInferParams {
+  bool use_dropout;
+  bool compute_logsumexp;
 
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
 
-    // completely contiguous
-    void* logsumexp_ptr;
+  // completely contiguous
+  void* logsumexp_ptr;
 
-    // TODO: need remove this after dev-op fix
-    std::vector<void*> randvals_ptrs;
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
 };
 
-struct BatchedBackwardParams
-{
-    int B;   // batch size
-    int M;   // seq_len for Query
-    int N;   // seq_len for Key and Value
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    float scale;
-    bool has_attn_bias;
-    bool bias_has_grad;
-
-    bool use_fp32_qkv_grad;
-    bool is_mqa_gqa;
-
-    // BMHK mode strides, last-dim contiguous
-    std::array<int, 4> q_strides;
-    std::array<int, 4> k_strides;
-    std::array<int, 4> v_strides;
-    std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-    std::array<int, 4> out_strides;
-
-    std::array<int, 4> tmp_grad_k_strides;
-    std::array<int, 4> tmp_grad_v_strides;
-
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    const void* attn_bias_ptr;
-    const void* grad_out_ptr;
-    const void* out_ptr;
-
-    uint8_t custom_mask_type;
-
-    void* grad_q_ptr;
-    void* grad_k_ptr;
-    void* grad_v_ptr;
-    void* grad_bias_ptr;
-
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
-
-    // BHM mode lengths, completely contiguous
-    const void* logsumexp_ptr;
+struct BatchedBackwardParams {
+  int B; // batch size
+  int M; // seq_len for Query
+  int N; // seq_len for Key and Value
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  float scale;
+  bool has_attn_bias;
+  bool bias_has_grad;
+
+  bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
+
+  // BMHK mode strides, last-dim contiguous
+  std::array<int, 4> q_strides;
+  std::array<int, 4> k_strides;
+  std::array<int, 4> v_strides;
+  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
+  std::array<int, 4> out_strides;
+
+  std::array<int, 4> tmp_grad_k_strides;
+  std::array<int, 4> tmp_grad_v_strides;
+
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+  const void* grad_out_ptr;
+  const void* out_ptr;
+
+  uint8_t custom_mask_type;
+
+  void* grad_q_ptr;
+  void* grad_k_ptr;
+  void* grad_v_ptr;
+  void* grad_bias_ptr;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // BHM mode lengths, completely contiguous
+  const void* logsumexp_ptr;
 };
 
-struct GroupedBackwardParams
-{
-    int num_batches;
-    int M;   // total seq_len for all queries in the batch
-    int N;   // total seq_len for all keys/values in the batch
-    int Hq;  // number of heads for Query
-    int Hkv; // number of heads for Key and Value
-    int K;   // embed_dim for Query and Key
-    int Kv;  // embed_dim for Value
-
-    int max_seqlen_q;
-
-    std::vector<int> host_seqstart_q;
-    std::vector<int> host_seqstart_k;
-    std::vector<int> host_seqlen_k;
-
-    float scale;
-    bool has_attn_bias;
-    bool bias_has_grad;
-
-    bool use_fp32_qkv_grad;
-    bool is_mqa_gqa;
-
-    // MHK mode strides, last-dim contiguous
-    std::array<int, 3> q_strides;
-    std::array<int, 3> k_strides;
-    std::array<int, 3> v_strides;
-    std::array<int, 3> out_strides;
-    // 4d tensor view [B, H, M, N]
-    std::array<int, 4> attn_bias_strides;
-
-    std::array<int, 3> tmp_grad_k_strides;
-    std::array<int, 3> tmp_grad_v_strides;
-
-    std::vector<const void*> q_ptrs;
-    std::vector<const void*> k_ptrs;
-    std::vector<const void*> v_ptrs;
-    std::vector<const void*> attn_bias_ptrs;
-    std::vector<const void*> grad_out_ptrs;
-    std::vector<const void*> out_ptrs;
-
-    // used by the light_v2 kernel
-    // TODO use these as workspace
-    std::vector<void*> ydotdy_ptrs;
-
-    uint8_t custom_mask_type;
-
-    std::vector<void*> grad_q_ptrs;
-    std::vector<void*> grad_k_ptrs;
-    std::vector<void*> grad_v_ptrs;
-    std::vector<void*> grad_bias_ptrs;
-
-    float dropout_prob;
-    int64_t philox_seed;
-    int64_t philox_offset;
-
-    // BHM mode lengths, completely contiguous
-    std::vector<const void*> logsumexp_ptrs;
-
-    // TODO: need remove this after dev-op fix
-    std::vector<void*> randvals_ptrs;
+struct GroupedBackwardParams {
+  int num_batches;
+  int M; // total seq_len for all queries in the batch
+  int N; // total seq_len for all keys/values in the batch
+  int Hq; // number of heads for Query
+  int Hkv; // number of heads for Key and Value
+  int K; // embed_dim for Query and Key
+  int Kv; // embed_dim for Value
+
+  int max_seqlen_q;
+
+  std::vector<int> host_seqstart_q;
+  std::vector<int> host_seqstart_k;
+  std::vector<int> host_seqlen_k;
+
+  float scale;
+  bool has_attn_bias;
+  bool bias_has_grad;
+
+  bool use_fp32_qkv_grad;
+  bool is_mqa_gqa;
+
+  // MHK mode strides, last-dim contiguous
+  std::array<int, 3> q_strides;
+  std::array<int, 3> k_strides;
+  std::array<int, 3> v_strides;
+  std::array<int, 3> out_strides;
+  // 4d tensor view [B, H, M, N]
+  std::array<int, 4> attn_bias_strides;
+
+  std::array<int, 3> tmp_grad_k_strides;
+  std::array<int, 3> tmp_grad_v_strides;
+
+  std::vector<const void*> q_ptrs;
+  std::vector<const void*> k_ptrs;
+  std::vector<const void*> v_ptrs;
+  std::vector<const void*> attn_bias_ptrs;
+  std::vector<const void*> grad_out_ptrs;
+  std::vector<const void*> out_ptrs;
+
+  // used by the light_v2 kernel
+  // TODO use these as workspace
+  std::vector<void*> ydotdy_ptrs;
+
+  uint8_t custom_mask_type;
+
+  std::vector<void*> grad_q_ptrs;
+  std::vector<void*> grad_k_ptrs;
+  std::vector<void*> grad_v_ptrs;
+  std::vector<void*> grad_bias_ptrs;
+
+  float dropout_prob;
+  int64_t philox_seed;
+  int64_t philox_offset;
+
+  // BHM mode lengths, completely contiguous
+  std::vector<const void*> logsumexp_ptrs;
+
+  // TODO: need remove this after dev-op fix
+  std::vector<void*> randvals_ptrs;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 6043ebcd02..6de737c80a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -9,29 +9,20 @@
 #include <stdexcept>
 
 #define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
-    [&] {                                                              \
-        if(HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32)                         \
-        {                                                              \
-            constexpr ck::index_t CONST_NAME = 32;                     \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else if(HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64)                    \
-        {                                                              \
-            constexpr ck::index_t CONST_NAME = 64;                     \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else if(HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128)                  \
-        {                                                              \
-            constexpr ck::index_t CONST_NAME = 128;                    \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else if(HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256)                  \
-        {                                                              \
-            constexpr ck::index_t CONST_NAME = 256;                    \
-            __VA_ARGS__();                                             \
-        }                                                              \
-        else                                                           \
-        {                                                              \
-            throw std::runtime_error("Head-dim sizes not supported!"); \
-        }                                                              \
-    }()
+  [&] {                                                                \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
+      constexpr ck::index_t CONST_NAME = 32;                           \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
+      constexpr ck::index_t CONST_NAME = 64;                           \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
+      constexpr ck::index_t CONST_NAME = 128;                          \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256) {                 \
+      constexpr ck::index_t CONST_NAME = 256;                          \
+      __VA_ARGS__();                                                   \
+    } else {                                                           \
+      throw std::runtime_error("Head-dim sizes not supported!");       \
+    }                                                                  \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
index 36e9cf24d3..509f838275 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
index a44c7f83a8..239204ad26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
index 2c6fa3f58e..06c4370ff0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
index 8ea38c8b64..c5263f1670 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
index 8dfa5aaaef..706bf41461 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
index fbbbc2d61b..91aac31d9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
index 66a2acb12a..c882648e51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
index 59dcd373bb..5ce517a80b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
index 29f9ea02dc..983538314d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
index 4bf813296b..3202979acf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
index ec12b66c75..68b4d782ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
index 947faaa839..a7786f5960 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
index a1e22812a1..8205af6fa3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
index de7ee388b0..b69fdda9b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
index de45cee54c..786b294ee3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
index d0e3c83c84..8bebad6d12 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
index 0a125b480e..47bfbb6bab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
index 511598a236..b3efcb0f64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
index bb6ba7b582..366a1be0bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
index e260e288c2..a1b19853cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -9,5 +9,8 @@
 
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
index 8f75012529..c764522f3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
index 47cb68b98e..53e93ab406 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
index 34b3318149..135932bb6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
index 9a46d6678c..b36435a564 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_backward.h"
 
-template void run_batched_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
-    BatchedBackwardParams& param, hipStream_t stream);
+template void run_batched_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
index 0027e6fa66..61a34f3bd7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
-                                                                        hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
index 01b4ab6a1a..99ef697c7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
index fee6af6859..27d8f33892 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
-                                                                        hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
index 3b22467b8b..9b81f64c13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
index 0964fea9a4..014b077e3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
-                                                                        hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
index 9ddde1484d..9a5b10848b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
index 4e47a02b8c..52a38e71f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
index a99e2cf170..b96463d838 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
index b0617fe73c..dd4a8d4e24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
index d00e4e2ac3..6fd666459d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
index 6a2215ae02..e2c25b131f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
index 43dc7c78fd..daee907851 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_batched_forward.h"
 
-template void
-run_batched_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_batched_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
index 11c575371e..fae4e95db7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
index 6ed03ba3b2..3ea61a46ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
index cbb2f1e37d..aa01129f87 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
index e53d44ff44..1596dbea97 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
index 96454b7d84..d5a27c62ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(BatchedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
index ecfd4bd2e3..b47dcb4850 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
index b73d06a5cc..2144a980ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
index 3ebf195d7e..961a5b8f95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
index 1f56500cee..308adb5972 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
index 2cbb237cc5..dd24e182b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
index 4415201572..590d032f15 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(BatchedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
index 5e9d21dac9..1440164c7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_batched_infer.h"
 
-template void
-run_batched_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(BatchedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_batched_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
index 517b6ab08e..ced06186a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
index eeb4ba1257..9f61adfc98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
index 179dadebc9..2d4b51888a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
index 3b604cd00c..a49a8704c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
index 07ec9e671a..c2279d835b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
index b23b68e21d..382bf01436 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
index 2c5cf0189e..1b7549e3e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
index 3dbf05b04b..f066949558 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
index 765eb7fd20..3a86c12f8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
index 9eae79997f..c287a283d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
index 2d85adcdc0..6b06378ddf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
index 325adcf28d..13d1bc553b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
index 23c7f7360d..71cdf5b355 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
index f5095f9e0e..792f55e4d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
index d893d066c6..5776e856da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
index b81c731c6d..d3f2eec109 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 0, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
index 5d79dc7a9e..27962589e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
index 8ca3fc15b4..fa837a65ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
index 28cfd91f08..7a83d46552 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
index e7974599b3..807d231565 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 1, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
index f7c6bab6bc..508d018829 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
index 389b8ef6bb..5954578f2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, false, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
index cf6edccb5e..78482f931f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, false>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
index fc2e60a47d..f38ea2ab28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
@@ -7,5 +7,8 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_backward.h"
 
-template void run_grouped_backward_masktype_attnbias_dispatched<ck::half_t, 2, true, true>(
-    GroupedBackwardParams& param, hipStream_t stream);
+template void run_grouped_backward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true,
+    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
index 4d473f7b91..3f6f0025bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
-                                                                        hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
index 4b64703b26..22918197f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
index ed5a11c660..fffe1b188d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
-                                                                        hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
index 4ecf75691e..b6020c0997 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
index af22c6c137..16f780c9e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
-                                                                        hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
index 2aa5b9431d..28c1f0832b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
index efaa2ee52f..428b1b9ec6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
index 7394b8b729..442e54a28e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
index 3b7732cb04..a8520501d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
index a4db70fcf3..7a6075ab54 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
index c19f683b6a..c935634915 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
-                                                                       hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
index 2e10db88a4..dc1fbc96b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
@@ -7,6 +7,7 @@
 #include <ck/ck.hpp>
 #include "ck_fmha_grouped_forward.h"
 
-template void
-run_grouped_forward_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_grouped_forward_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
index 3c012adbf0..62ff93032a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
index f19c5a4e90..e3d2da2cc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 0, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
index b12476dad2..4d1f3c7f0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
index ab0141e0d8..170e8a56fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 1, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
index 546074138b..b615233aa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, false>(GroupedForwardParams& param,
-                                                                      hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
index 9b65ff186b..2f1227b87f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::bhalf_t, 2, true>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::bhalf_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
index 3e8a0eb750..bb20cf7809 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
index 92879082c9..509986e1c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 0, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    0,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
index 37137dc97c..a53a0f4856 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
index 3ea5affe87..b35c585261 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 1, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    1,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
index 33f2bc7f9d..53e30115a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, false>(GroupedForwardParams& param,
-                                                                     hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
index 27eea7bace..d25650c8e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
@@ -8,6 +8,7 @@
 
 #include "ck_fmha_grouped_infer.h"
 
-template void
-run_grouped_infer_masktype_attnbias_dispatched<ck::half_t, 2, true>(GroupedForwardParams& param,
-                                                                    hipStream_t stream);
+template void run_grouped_infer_masktype_attnbias_dispatched<
+    ck::half_t,
+    2,
+    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
index ab8b8f270a..1482336abf 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
index bff6529861..f1ba383daf 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
index 7c7e53df5c..3b9f3026b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
index a2cefd689c..c38716ce22 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
index 4bce63f3df..ed91bf4bf0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
index fd9fee0648..eca8592290 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
index 8a4583c6fa..ec258aeda0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
index e3ddab117c..feb78a115c 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
index 2726966faf..59c6550f4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
index 5158b5c445..a30775e77c 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
index 25a8f9316d..594c4a68ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
index b174cd6419..39ea429139 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
index 941488b93e..6ea24c5ca2 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
index 986dfe9df3..a675c95be0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
index d1590b38d8..dc4bb0ea0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
index b245f57159..334eb891f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
index 2bf4db3f8d..606d9db860 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
index 41029c7dc6..7dc799605f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
index c0df0271a7..566b1bf6a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
index 52b129eb26..3b72b97d12 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
index b8a496fed6..c2c124dbe7 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
index 53a9328c66..1cdd7e0781 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
index 5ee4e29f4a..50ea226597 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
index 3d9791d337..58ac17e394 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
index ef0eae81d7..070ed44ef2 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
index a5870aacf3..e535f40f3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
index a8cc8231a7..a24884bff3 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
index c7b13e92ec..524e1ab867 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
index 4911aba00b..58013ca642 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
index 42e4a7a93f..fcb6d8b546 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
index d43b65227c..38e7fb026c 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
index bce8348c63..1c0b277b71 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
index 17c5ab8646..b95c3fdb97 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
index 38b8aa3b79..dce1496ea1 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
index f2d9768974..fa81f80c11 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
index a8d2b933a0..fd118cd222 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
index bcee717415..4772d56ab2 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
index 485ff4b64e..b95f0d5ae8 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
index 496c34c61b..7fe7a3f69d 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
index f52e8fcd81..3ae7733695 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
index 2b593af2b2..9757278dba 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
index 54871d2ed1..6caed9563c 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
index 3f7d86019f..4dfaa36785 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
index 400f0aaa43..fa0416c5c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
index f9063434cf..ecc90b3661 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
index 31831836ff..dff3a317a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
index 4866c0148e..fa084941bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
index c87e7d2c29..d0ece69d02 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
index d2b894e6b9..8e9843a5e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
index a55ac98be3..20580c11e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
index ab5c8bb2c4..4e4d90f820 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
index 282750da49..b36864534a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
index 17d3a203b0..2f16639ed7 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
index e4e7645e8c..41f8249e99 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
index 1b3a9a7c86..bfdf01423b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
index 64c00b0963..550831036b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
index 9d24c03b95..8caa116d80 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
index ab81e906d4..0468ba8afe 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
index 5417efb52d..cd8077b510 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
index 3b55e45b84..ed22d8fc5f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
index e7f76cd582..1ae833e7d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
index 2d5edfc0ff..bb9a177b54 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
index ff21e50518..88945231f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
index 316457d7b0..330e0dfbcd 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
+template void run_batched_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
index ede42cd704..d278e2b0bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
index 4452ef80e8..2bd6d042a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
index 7de8d370cf..732381a8a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
index 66f084dc4d..352d94bb4a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
index 894b979d06..ebd002ef4e 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
index 53346a1961..844444629a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
index fc0329da09..52b5cb8953 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
index 4e169225d9..35a0583687 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
index 19e9974189..697ce6345b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
index 86cb616c39..cc24c03c0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
index f9b6f38ebf..e0d0f9e03f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
index 64433cc551..c658c89f2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
index b2df4367b3..785e62d78a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
index de62061b59..83001360bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
index 604a129856..ed45ccf363 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
index 985fe0a74a..f0b639ef65 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
index 7c905fcc17..08bf47cd57 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
index bcd9cbf9a6..8c4c0c440e 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
index 0be43523f2..2ff6c73e75 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
index fd490972ae..b5ec1a7817 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
index 0722ee7df5..c7ba7f09e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
index 9d6178ab8a..577f1a1aee 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
index db9e4fbd56..cd1bda5d13 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
index ae08424447..caa6f0d164 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
index fe1c3f8c0c..e0349f471d 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
index d246e0dcaa..58d7cec792 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
index 611d7bfb8e..a9a2a191e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
index 2b9d7a2c64..8eb2447a8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
index 165e61310f..c83769098b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
index 5496abe4cc..fe21d52feb 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
index deb14598ad..6bedae2d29 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
index f803b0f05a..a45a99b804 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_forward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
index 66d6ce7deb..54cbec7ec3 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
index 819794d6f7..12b67ea453 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
index fa94726d71..d6c6c1a5d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
index d8f96bdb9a..c74dbe2000 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
index c42eade652..35b522a6ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
index 357eb57b13..4fb8bdd598 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
index 6ad131cd68..1d2cd2656f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
index f6131197af..2ccb25769a 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
index 15c6d599ac..2f8ea04e7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
index 7f7229c8b6..f10999c7cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
index bdc6996c2c..f877720240 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
index 15ac95e271..d2b85141cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
index 4bd616c5db..fe5b8db516 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
index 05e9357166..593d4fda19 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
index a72f0e8112..941dcd50ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
index 99e86651c5..82183313ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
index 18e2f8bacc..c3f52f074b 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
index 5bdf3d87e6..5d4882d2b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
index 584be86675..6e0b2914d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
index 70b023ba05..b49d099089 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
index 082912ca6b..1741265b25 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
index 15ccf9a44f..4197ba831d 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
index dbfcfa438f..88ac7b42c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
index c55043820e..c717aed649 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
index 616c49912c..5449dfd322 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
index 8957405858..73bf0e6d69 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
index 558f63474d..55c80b4c9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
index 000c3f3ca1..76cafe4e03 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
index 39f45768e0..8fe0d31e7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
index 6028a16dfc..aeff1e2c67 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
index 105ee9025f..f8fed71069 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
index f7f86a7730..ec5f029d78 100644
--- a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
@@ -8,5 +8,8 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
+template void run_grouped_infer_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);

From 52ae8a31e92d67af7614ee3496e232db285b5f27 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 4 Feb 2024 18:27:32 +0000
Subject: [PATCH 421/837] Synchronize to latest ck-tiled commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 3bda955fe6..03d1d1ad9e 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 3bda955fe6ca92cdd29691783ebb772ac13c857c
+Subproject commit 03d1d1ad9e0cc3c8e5d800d106bbdebe877e6e88

From 7dd3aeef885ddab4b8f6a55b5b54f9132b25b991 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 4 Feb 2024 21:29:18 +0000
Subject: [PATCH 422/837] Add checking of IS_CK_TILED into some testing scripts

---
 tests/test_mem_eff_attention.py | 18 +++++++++++-------
 xformers/ops/fmha/ck.py         |  4 ++++
 2 files changed, 15 insertions(+), 7 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index aee582c38f..058d18d89d 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -17,7 +17,6 @@
 import xformers.ops
 from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
-from xformers.ops.common import get_xformers_operator
 from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
 from xformers.ops.fmha.common import AttentionOpBase
 from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
@@ -711,12 +710,8 @@ def test_mqa_forward(
 
     device = torch.device("cuda")
 
-    ### ck_check_op is temporarily used to check ck-tiled availability
-    ck_check_op = get_xformers_operator("is_ck_tiled_used")
-    use_ck_tiled = ck_check_op()
-
-    if not use_ck_tiled:
-        pytest.skip("mqa/gqa is only supported with ck-tiled")
+    if op is fmha.ck.FwOp and not op.IS_CK_TILED:
+        pytest.skip("mqa/gqa is only supported with ck-tiled fmha")
 
     torch.manual_seed(B * M + N * K + Hq*Hkv + Kv)
 
@@ -813,6 +808,10 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
         k,
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
+
+    if op is fmha.ck.FwOp and op.IS_CK_TILED:
+        pytest.skip("logsumexp is not yet supported by ck-tiled fmha!")
+
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
     )
@@ -1452,6 +1451,8 @@ def test_grad_checkpointing(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     if op is fmha.triton.FwOp:
         pytest.skip("Triton Flash Attention 2 doesn't support backward pass yet")
+    if op is fmha.ck.FwOp and op.IS_CK_TILED:
+        pytest.skip("ck-tiled FMHA doesn't supported backward pass yet")
     bias_type = None
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
         op,
@@ -2469,6 +2470,9 @@ def test_empty_tensors_empty_query(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
+    if op is fmha.ck.FwOp and op.IS_CK_TILED:
+        pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
+
     query = query[:, :0]
     query.requires_grad_(True)
     key.requires_grad_(True)
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index ff899dc534..b6faf83c93 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -211,6 +211,8 @@ class FwOp(AttentionFwOpBase):
         256,  # 64x128 with accumulation in gmem
     ]
 
+    IS_CK_TILED = is_ck_tiled()
+
     @classmethod
     def apply(
         cls, inp: Inputs, needs_gradient: bool
@@ -397,6 +399,8 @@ class BwOp(AttentionBwOpBase):
         256,  # 64x128 with accumulation in gmem
     ]
 
+    IS_CK_TILED = is_ck_tiled()
+
     @classmethod
     def not_supported_reasons(cls, d: Inputs) -> List[str]:
         reasons = super(BwOp, cls).not_supported_reasons(d)

From 5eb1235f69cf571b4b086b1ac8cea2f66dac2506 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Feb 2024 17:56:43 +0000
Subject: [PATCH 423/837] Update to test_mem_eff_attention.py and ck.py

---
 tests/test_mem_eff_attention.py | 72 +++++++++++++++++++++++++++++++--
 xformers/ops/fmha/ck.py         |  5 ++-
 xformers/ops/fmha/dispatch.py   |  6 +--
 3 files changed, 75 insertions(+), 8 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 058d18d89d..ee59e72959 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -5,6 +5,7 @@
 
 import math
 import random
+import sys
 from functools import partial
 from typing import List, Optional, Sequence, Tuple, Type, TypeVar
 
@@ -615,8 +616,8 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if torch.version.hip and op is fmha.triton_splitk.FwOp:
-        pytest.skip("trition_splitk Fwd is not supported on ROCm!")
+    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
 
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
@@ -812,6 +813,9 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
     if op is fmha.ck.FwOp and op.IS_CK_TILED:
         pytest.skip("logsumexp is not yet supported by ck-tiled fmha!")
 
+    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
     )
@@ -1223,6 +1227,9 @@ def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size,
     op_fw = fmha.small_k.FwOp
     op_bw = fmha.small_k.BwOp
 
+    if torch.version.hip:
+        pytest.skip("fmha.small_k is not supported on ROCM")
+
     scale = 3
     query = torch.randn((batch_size, q_len, k_len), device=device) * scale
     key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
@@ -1310,6 +1317,9 @@ def test_cuda_streams(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     if device != "cuda":
         pytest.skip("Not CUDA")
+    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     bias_type = None
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
         op,
@@ -1453,6 +1463,9 @@ def test_grad_checkpointing(
         pytest.skip("Triton Flash Attention 2 doesn't support backward pass yet")
     if op is fmha.ck.FwOp and op.IS_CK_TILED:
         pytest.skip("ck-tiled FMHA doesn't supported backward pass yet")
+    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     bias_type = None
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
         op,
@@ -1524,6 +1537,10 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
     q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
         0, 3, 1, 2
     )
+
+    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     try:
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
     except ValueError as e:
@@ -1539,6 +1556,10 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
 )
 def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
     q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
+
+    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     try:
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
     except ValueError as e:
@@ -1988,6 +2009,9 @@ def test_triton_splitk_decoder(
     if dequant:
         pytest.skip("dequant is not supported")
 
+    if (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     # We omit dequant with f16: it needs a very high tol
     test_decoder(
         op,
@@ -2096,6 +2120,8 @@ def test_f16_biasf32(self) -> None:
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
 
     def test_f32_biasf16(self) -> None:
+        if torch.version.hip:
+            pytest.skip("float32 is not supported by ck.FwOp/ck.BwOp currently, skipped")
         q, k, v, bias = self.create_tensors(torch.float32)
         fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
         bias = bias.to(torch.float16)
@@ -2104,7 +2130,10 @@ def test_f32_biasf16(self) -> None:
 
     @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
     def test_wrong_alignment(self, dtype) -> None:
-        op = fmha.cutlass.FwOp
+        op = fmha.cutlass.FwOp if torch.version.cuda else fmha.ck.FwOp
+        if torch.version.hip and dtype is torch.float32:
+            pytest.skip("float32 is not supported by fmha.ck.FwOp!")
+
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
         try:
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
@@ -2168,6 +2197,9 @@ def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
     if sm < 80 and dtype_str == "bf16":
         return
 
+    if torch.version.hip:
+        pytest.skip("_has_cutlassF_kernel is not supported on ROCM")
+
     for k in [16, 32, 64, 128, 256]:
         assert torch.ops.xformers._has_cutlassF_kernel_for(
             dtype, sm, shmem_kbytes * 1024, k
@@ -2288,6 +2320,9 @@ def test_forward_gqa_one_group(opFW):
     k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
     v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
 
+    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     supported = opFW.supports(fmha.Inputs(q, k, v))
     if not supported:
         supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
@@ -2306,6 +2341,10 @@ def test_forward_gqa_one_group(opFW):
 @sm80_or_better_only
 def test_flash_gqa_wrong_strides() -> None:
     op = (fmha.flash.FwOp, None)
+
+    if torch.version.hip:
+        pytest.skip("flash operation is not supported on ROCM!")
+
     device = "cuda"
     B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
     q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
@@ -2344,6 +2383,8 @@ def _dispatches_to_flash_decoding(q, kv):
 
 
 def test_dispatch_decoding_bmhk() -> None:
+    if torch.version.hip:
+        pytest.skip("dispatch testing currently ignored on ROCM")
     assert not _dispatches_to_splitK(
         torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
     ), "Should not use SplitK with 1 head (no tensorcores)"
@@ -2366,6 +2407,8 @@ def test_dispatch_decoding_bmhk() -> None:
 
 
 def test_dispatch_decoding_bmghk() -> None:
+    if torch.version.hip:
+        pytest.skip("dispatch testing currently ignored on ROCM")
     assert not _dispatches_to_splitK(
         torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
     ), "Should not use SplitK with 1 head (no tensorcores)"
@@ -2448,6 +2491,9 @@ def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
     k = k.expand(-1, -1, H, -1)
     v = v.expand(-1, -1, H, -1)
 
+    if (sys.version_info.major, sys.version_info.minor) <= (3, 8): 
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     if not op.supports(fmha.Inputs(q, k, v)):
         pytest.skip("not supported")
     out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
@@ -2470,9 +2516,12 @@ def test_empty_tensors_empty_query(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if op is fmha.ck.FwOp and op.IS_CK_TILED:
+    if opFW is fmha.ck.FwOp and opFW.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
+    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     query = query[:, :0]
     query.requires_grad_(True)
     key.requires_grad_(True)
@@ -2495,6 +2544,12 @@ def test_empty_tensors_empty_kv(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
+    if opFW is fmha.ck.FwOp and opFW.IS_CK_TILED:
+        pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
+
+    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     key = key[:, :0]
     value = value[:, :0]
     query.requires_grad_(True)
@@ -2517,6 +2572,12 @@ def test_empty_tensors_empty_b(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
+    if opFW is fmha.ck.FwOp and opFW.IS_CK_TILED:
+        pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
+
+    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+        pytest.skip("triton_splitk requires python 3.9 or above!")
+
     query, key, value = query[:0], key[:0], value[:0]
     query.requires_grad_(True)
     key.requires_grad_(True)
@@ -2589,6 +2650,9 @@ def test_cutlassB_iter_order(
         the same block of dQ
     .. and we test this across variable causal masks+local attention combinations
     """
+    if torch.version.hip:
+        pytest.skip("this test is only for cutlass/cuda environment")
+
     if (
         window_size > 0
         and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index b6faf83c93..000a07e56f 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -337,6 +337,9 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         check_lastdim_alignment_stride1(reasons, "value", d.value, matmul_alignment_mn)
         _check_bias_alignment(reasons, d.attn_bias)
         _check_large_shapes(reasons, d)
+        requires_grad = d.query.requires_grad or d.key.requires_grad or d.value.requires_grad
+        if is_ck_tiled() and requires_grad:
+            reasons.append("Gradience is currently not supported by ck-tiled!")
         return reasons
 
     @classmethod
@@ -433,7 +436,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                 )
         _check_large_shapes(reasons, d)
         if is_ck_tiled():
-            reasons.append("Backward is currently not completely supported by ck-tiled!")
+            reasons.append("Backward is currently not supported by ck-tiled!")
         return reasons
 
     @classmethod
diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 7113855cbf..0acb7eb352 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -75,15 +75,15 @@ def _dispatch_fw_priority_list(
               cutlass.FwOp,
               small_k.FwOp,
            ])
+        if _is_cutlass_fwd_faster_than_flash(inp):
+            priority_list_ops.remove(cutlass.FwOp)
+            priority_list_ops.appendleft(cutlass.FwOp)
     else:
         priority_list_ops = deque(
            [
               triton.FwOp,
               ck.FwOp,
            ])
-    if _is_cutlass_fwd_faster_than_flash(inp):
-        priority_list_ops.remove(cutlass.FwOp)
-        priority_list_ops.appendleft(cutlass.FwOp)
     if _is_triton_fwd_fastest(inp):
         priority_list_ops.remove(triton.FwOp)
         priority_list_ops.appendleft(triton.FwOp)

From 58e6101f2e33338d433151a7a1b88ba496bef5a0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Feb 2024 18:54:23 +0000
Subject: [PATCH 424/837] Building xformers using ck-tiled as default

---
 setup.py | 30 +++++++++++++++---------------
 1 file changed, 15 insertions(+), 15 deletions(-)

diff --git a/setup.py b/setup.py
index 84056c6e9e..f56dbeca76 100644
--- a/setup.py
+++ b/setup.py
@@ -241,14 +241,7 @@ def get_extensions():
         *glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_splitk.cpp"), recursive=False)
     ]
 
-    if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_infer_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_forward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_forward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
-    else:
+    if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_backward_generic.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"), recursive=False)
@@ -259,7 +252,14 @@ def get_extensions():
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_backward_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_backward_*.cpp"), recursive=False)
         source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances", "ck_fmha_*.cpp"), recursive=False)
-        
+    else:
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_forward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_forward_*.cpp"), recursive=False)
+        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
+
     source_hip += source_hip_decoder
     
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
@@ -350,15 +350,15 @@ def get_extensions():
        sources += source_hip_cu
        include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha' ]
 
-       if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
-           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include']
-       else:
+       if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
            include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include']
-           
-       if os.getenv("FORCE_CK_TILED_KERNEL", "0") == "1":
-           generator_flag = ["-DUSE_CK_TILED_KERNEL"]
        else:
+           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include']
+           
+       if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
            generator_flag = []
+       else:
+           generator_flag = ["-DUSE_CK_TILED_KERNEL"]
        cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
        extra_compile_args={
             "cxx": ["-O3", "-std=c++17"] + generator_flag,

From 389dfb46045eaf7ff58496f6f04a5f0edbcba213 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 5 Feb 2024 19:27:36 +0000
Subject: [PATCH 425/837] ensure ck_decoder does not dispatch

---
 xformers/ops/fmha/ck_decoder.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index daa4689b81..3579a3f0ae 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -57,6 +57,9 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             padding = attn_bias.k_seqinfo.padding
             bsz = d.key.shape[1] // padding
             num_queries = d.query.shape[1] // bsz
+            
+            if q_starts != list(range(0, 1 + bsz, num_queries)):
+                reasons.append("expect to have same num_queries in each batch")
             if bsz != len(q_starts) - 1:
                 reasons.append("empty lanes not supported yet")
 

From f8d904328f9af34b098cc8068ce578521fd6547e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Feb 2024 20:23:44 +0000
Subject: [PATCH 426/837] Add disable_on_rocm on some test scripts

---
 tests/test_attentions.py         |  8 +++++---
 tests/test_checkpoint.py         | 11 +++++++++--
 tests/test_core_attention.py     |  8 ++++++--
 tests/test_custom_ops.py         | 16 +++++++++++++---
 tests/test_mem_eff_attention.py  | 29 +++++++++--------------------
 tests/test_sparse_tensors.py     |  7 ++++---
 tests/test_swiglu.py             |  3 ++-
 tests/test_triton_blocksparse.py |  9 +++++----
 tests/test_triton_layernorm.py   |  6 ++++--
 9 files changed, 57 insertions(+), 40 deletions(-)

diff --git a/tests/test_attentions.py b/tests/test_attentions.py
index cf70bbea74..038c55baa3 100644
--- a/tests/test_attentions.py
+++ b/tests/test_attentions.py
@@ -22,6 +22,8 @@
     build_attention,
 )
 
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+
 DEVICES = (
     [torch.device("cpu")] if not torch.cuda.is_available() else [torch.device("cuda")]
 )
@@ -90,7 +92,7 @@ def noop(x):
 
     return multi_head
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("attn_dropout", [0.0, 0.3])
 @pytest.mark.parametrize("residual_dropout", [0.0, 0.1])
 @pytest.mark.parametrize("causal", [True, False])
@@ -160,7 +162,7 @@ def test_order_invariance(
             with torch.cuda.amp.autocast(enabled=True):
                 _ = multi_head(inputs, inputs_shuffled, inputs)
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("heads", [1, 4])
 @pytest.mark.parametrize("attention_name", ["scaled_dot_product"])
 @pytest.mark.parametrize("device", DEVICES)
@@ -203,7 +205,7 @@ def test_kqv_ordering(
     res_false = multi_head(query=v, key=k, value=q)
     assert torch.allclose(res_false[0, :, :], res_false[1, :, :])
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("heads", [1, 4])
 @pytest.mark.parametrize("attention_name", ["scaled_dot_product"])
 @pytest.mark.parametrize("device", DEVICES)
diff --git a/tests/test_checkpoint.py b/tests/test_checkpoint.py
index 20ab750c9c..eab74a1721 100644
--- a/tests/test_checkpoint.py
+++ b/tests/test_checkpoint.py
@@ -14,6 +14,7 @@
 from xformers import checkpoint, list_operators
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
 _devices = ["cpu"]
 cuda_cap = (0, 0)
 
@@ -29,7 +30,7 @@ def _relu_policy(func, *args, **kwargs):
 def _all_policy(func, *args, **kwargs):
     return True
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("policy_fn", [None, [], _relu_policy, _all_policy])
 @pytest.mark.parametrize("input_requires_grad", [True, False])
 @pytest.mark.parametrize("device", _devices)
@@ -102,7 +103,7 @@ def test_checkpoint_with_grad(policy_fn, input_requires_grad, grad_mode):
     "op",
     [
         xformers.ops.MemoryEfficientAttentionFlashAttentionOp,
-        xformers.ops.MemoryEfficientAttentionCutlassOp,
+        xformers.ops.MemoryEfficientAttentionCutlassOp if torch.version.cuda else xformers.ops.MemoryEfficientAttentionCkOp,
     ],
 )
 def test_checkpoint_attention(policy_fn, input_requires_grad, device, autocast, op):
@@ -112,6 +113,12 @@ def test_checkpoint_attention(policy_fn, input_requires_grad, device, autocast,
     ):
         pytest.skip("skipping operator not supported in this arch")
 
+    if op is xformers.ops.MemoryEfficientAttentionFlashAttentionOp and torch.version.hip:
+        pytest.skip("FlashAttentionOp is not supported on ROCM!")
+
+    if op is xformers.ops.MemoryEfficientAttentionCkOp and op[0].IS_CK_TILED:
+        pytest.skip("Gradience is currently not supported by ck-tiled!")
+
     class Attn(nn.Module):
         def forward(self, x):
             out = xformers.ops.memory_efficient_attention(x, x, x, op=op)
diff --git a/tests/test_core_attention.py b/tests/test_core_attention.py
index 0beace4427..81a403e59d 100644
--- a/tests/test_core_attention.py
+++ b/tests/test_core_attention.py
@@ -21,6 +21,7 @@
     _is_triton_available() and not gpu_capabilities_older_than_70()
 )
 
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
 
 def catch_oor(fn):
     @functools.wraps(fn)
@@ -86,6 +87,7 @@ def test_core_attention_mask_types():
     r_dense_add = scaled_dot_product_attention(a, a, a, float_mask_add)
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_dense_no_mask(device):
     b, s, d = 8, 64, 32
@@ -99,6 +101,7 @@ def test_amp_attention_dense_no_mask(device):
     assert r.dtype == expected_device
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_dense(device):
     b, s, d = 8, 64, 32
@@ -114,6 +117,7 @@ def test_amp_attention_dense(device):
     assert r.dtype == expected_device
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_sparse(device):
     b, s, d = 8, 64, 32
@@ -129,7 +133,7 @@ def test_amp_attention_sparse(device):
     expected_device = torch.float32
     assert r.dtype == expected_device
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_sparsecs(device):
     b, s, d = 8, 64, 32
@@ -145,7 +149,7 @@ def test_amp_attention_sparsecs(device):
     expected_device = torch.float32
     assert r.dtype == expected_device
 
-
+@disable_on_rocm
 @pytest.mark.skipif(
     not _is_blocksparse_available, reason="Blocksparse is not available"
 )
diff --git a/tests/test_custom_ops.py b/tests/test_custom_ops.py
index bef8b41021..0a8f053d3d 100644
--- a/tests/test_custom_ops.py
+++ b/tests/test_custom_ops.py
@@ -17,6 +17,8 @@
 )
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
 
 
@@ -58,6 +60,7 @@ def _baseline_sparse_bmm(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
     return torch.stack(out, dim=0)
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("is_sparse", [True, False])
 @pytest.mark.parametrize("contiguous", [True, False])
 @pytest.mark.parametrize("device", _devices)
@@ -89,6 +92,7 @@ def test_matmul_with_mask(device, contiguous, is_sparse):
     assert torch.allclose(res, res_gt)
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("is_sparse", [True, False])
 @pytest.mark.parametrize("contiguous", [True, False])
 @pytest.mark.parametrize("device", _devices)
@@ -130,7 +134,7 @@ def compute_grads(f):
     assert torch.allclose(grad_a, a.grad)
     assert torch.allclose(grad_b, b.grad)
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sddmm_sputnik(device):
     B, L, M, K = 8, 30, 16, 32
@@ -158,6 +162,7 @@ def test_sddmm_sputnik(device):
 
 
 @cuda_only
+@disable_on_rocm
 @pytest.mark.parametrize("prob", [0.5, 1])
 @pytest.mark.parametrize("K", [32, 17])
 @pytest.mark.parametrize("M", [30, 17])
@@ -188,6 +193,7 @@ def test_sddmm_csr(L, M, K, prob):
 
 
 @cuda_only
+@disable_on_rocm
 @pytest.mark.parametrize("nnz", [0, 4, 16, 20, 36])
 def test_sddmm_csr_per_nnz(nnz):
     device = torch.device("cuda")
@@ -215,6 +221,7 @@ def test_sddmm_csr_per_nnz(nnz):
 
 
 @cuda_only
+@disable_on_rocm
 @pytest.mark.parametrize("prob", [0.5, 1])
 @pytest.mark.parametrize("K", [32, 17])
 @pytest.mark.parametrize("M", [30, 17])
@@ -246,7 +253,7 @@ def test_sddmm_coo(L, M, K, prob):
     assert res.dtype == res_gt.dtype
     assert torch.allclose(res, res_gt, atol=1e-6)
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sddmm_sputnik_backward(device):
     contiguous = True
@@ -280,6 +287,7 @@ def test_sddmm_sputnik_backward(device):
     assert torch.allclose(grad_b, b.grad, atol=1e-7)
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sparse_softmax_sputnik(device):
     B, L = 8, 30
@@ -302,6 +310,7 @@ def test_sparse_softmax_sputnik(device):
     assert torch.allclose(res, res_gt)
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sparse_softmax_sputnik_backward(device):
     B, L = 8, 30
@@ -323,7 +332,7 @@ def test_sparse_softmax_sputnik_backward(device):
         grad_a, a.grad.coalesce().values().reshape_as(grad_a), atol=1e-7
     )
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_spmm_sputnik(device):
     B, L, K = 8, 30, 32
@@ -349,6 +358,7 @@ def test_spmm_sputnik(device):
     assert torch.allclose(res, res_gt)
 
 
+@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_spmm_sputnik_backward(device):
     B, M, L, K = 8, 16, 30, 32
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index ee59e72959..c86952877c 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -27,6 +27,8 @@
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
 rocm_only = pytest.mark.skipif(not torch.cuda.is_available() or not torch.version.hip, reason="requires ROCM")
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+
 compute_capability = (0, 0)
 if torch.cuda.is_available():
     compute_capability = torch.cuda.get_device_capability("cuda")
@@ -1218,6 +1220,7 @@ def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
 
 
 @cuda_only
+@disable_on_rocm
 @pytest.mark.parametrize("k_len", [32])
 @pytest.mark.parametrize("batch_size", [1])
 @pytest.mark.parametrize("kv_len", [3 * 32])
@@ -1227,9 +1230,6 @@ def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size,
     op_fw = fmha.small_k.FwOp
     op_bw = fmha.small_k.BwOp
 
-    if torch.version.hip:
-        pytest.skip("fmha.small_k is not supported on ROCM")
-
     scale = 3
     query = torch.randn((batch_size, q_len, k_len), device=device) * scale
     key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
@@ -2119,9 +2119,8 @@ def test_f16_biasf32(self) -> None:
         with pytest.raises((ValueError, RuntimeError)):
             fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
 
+    @disable_on_rocm
     def test_f32_biasf16(self) -> None:
-        if torch.version.hip:
-            pytest.skip("float32 is not supported by ck.FwOp/ck.BwOp currently, skipped")
         q, k, v, bias = self.create_tensors(torch.float32)
         fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
         bias = bias.to(torch.float16)
@@ -2185,6 +2184,7 @@ def test_permuted_attn_bias(self) -> None:
 
 
 @cuda_only
+@disable_on_rocm
 @pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
 @pytest.mark.parametrize(
     "sm_shmem",
@@ -2197,9 +2197,6 @@ def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
     if sm < 80 and dtype_str == "bf16":
         return
 
-    if torch.version.hip:
-        pytest.skip("_has_cutlassF_kernel is not supported on ROCM")
-
     for k in [16, 32, 64, 128, 256]:
         assert torch.ops.xformers._has_cutlassF_kernel_for(
             dtype, sm, shmem_kbytes * 1024, k
@@ -2339,12 +2336,10 @@ def test_forward_gqa_one_group(opFW):
 
 
 @sm80_or_better_only
+@disable_on_rocm
 def test_flash_gqa_wrong_strides() -> None:
     op = (fmha.flash.FwOp, None)
 
-    if torch.version.hip:
-        pytest.skip("flash operation is not supported on ROCM!")
-
     device = "cuda"
     B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
     q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
@@ -2381,10 +2376,8 @@ def _dispatches_to_flash_decoding(q, kv):
         _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
     )
 
-
+@disable_on_rocm
 def test_dispatch_decoding_bmhk() -> None:
-    if torch.version.hip:
-        pytest.skip("dispatch testing currently ignored on ROCM")
     assert not _dispatches_to_splitK(
         torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
     ), "Should not use SplitK with 1 head (no tensorcores)"
@@ -2405,10 +2398,8 @@ def test_dispatch_decoding_bmhk() -> None:
         torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
     ), "Should not use SplitK if B is big"
 
-
+@disable_on_rocm
 def test_dispatch_decoding_bmghk() -> None:
-    if torch.version.hip:
-        pytest.skip("dispatch testing currently ignored on ROCM")
     assert not _dispatches_to_splitK(
         torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
     ), "Should not use SplitK with 1 head (no tensorcores)"
@@ -2600,6 +2591,7 @@ def test_local_attn_bias() -> None:
 
 
 @cuda_only
+@disable_on_rocm
 @pytest.mark.parametrize("cc", [60, 70, 80])
 @pytest.mark.parametrize("maxK", [32, 64, 128, 256])
 @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
@@ -2650,9 +2642,6 @@ def test_cutlassB_iter_order(
         the same block of dQ
     .. and we test this across variable causal masks+local attention combinations
     """
-    if torch.version.hip:
-        pytest.skip("this test is only for cutlass/cuda environment")
-
     if (
         window_size > 0
         and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
diff --git a/tests/test_sparse_tensors.py b/tests/test_sparse_tensors.py
index 2834987385..e32cb8b379 100644
--- a/tests/test_sparse_tensors.py
+++ b/tests/test_sparse_tensors.py
@@ -15,6 +15,7 @@
 _devices = ["cpu", "cuda:0"] if torch.cuda.is_available() else ["cpu"]
 _tensor_types = [BlockSparseTensor, SparseCSRTensor]
 
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
 
 def _create_blocksparse_tensor(
     device, block_size=32, Z=8, C=2, H=64, W=64, dtype=torch.float32
@@ -100,7 +101,7 @@ def test_sparse_binary_ops(func, device):
 
     assert torch.allclose(res, res_gt)
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
 def test_masked_matmul(tensor_type, device):
@@ -152,7 +153,7 @@ def test_masked_matmul(tensor_type, device):
     assert torch.allclose(a.grad, aa.grad, atol=atol)
     assert torch.allclose(b.grad, bb.grad, atol=atol)
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
 def test_bmm(tensor_type, device):
@@ -201,7 +202,7 @@ def test_bmm(tensor_type, device):
         a_grad, a_sparse.grad.to_dense(), atol=atol
     ), f"{torch.max(torch.abs(a_grad-a_sparse.grad.to_dense()))}"
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
 def test_sparse_softmax(tensor_type, device):
diff --git a/tests/test_swiglu.py b/tests/test_swiglu.py
index f662ab4bee..78112a6ed1 100644
--- a/tests/test_swiglu.py
+++ b/tests/test_swiglu.py
@@ -24,6 +24,7 @@
     _is_sm80 = False
 sm80_only = pytest.mark.skipif(not _is_sm80, reason="requires sm80")
 
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
 
 def assert_allclose(
     # The output of the tested function
@@ -112,7 +113,7 @@ def generate_test_shapes():
 def create_module_cached(**kwargs) -> xsw.SwiGLU:
     return xsw.SwiGLU(**kwargs)
 
-
+@disable_on_rocm
 @pytest.mark.parametrize("autocast", [False, True], ids=["regular", "autocast"])
 @pytest.mark.parametrize("op", _ops, ids=[x.NAME for x in _ops])
 @pytest.mark.parametrize("dtype", _dtypes, ids=[str(x) for x in _dtypes])
diff --git a/tests/test_triton_blocksparse.py b/tests/test_triton_blocksparse.py
index e8e4a4dbea..5bf19aa974 100644
--- a/tests/test_triton_blocksparse.py
+++ b/tests/test_triton_blocksparse.py
@@ -14,6 +14,7 @@
 from xformers.components.attention.attention_patterns import block_sparsify_tensor
 from xformers.triton.utils import get_current_cuda_device
 
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
 
 def catch_oor(fn):
     @functools.wraps(fn)
@@ -62,7 +63,7 @@ def mask_tensor(x, mask, block, value=0):
         ret[:, h, i * block : (i + 1) * block, j * block : (j + 1) * block] = value
     return ret
 
-
+@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.skipif(
     not _triton_available or get_current_cuda_device() == "T4",
@@ -117,7 +118,7 @@ def test_matmul(MODE, TRANS_A, TRANS_B, BLOCK, DTYPE, Z=32, H=2, M=512, N=384, K
     # compare
     torch.testing.assert_close(rc, tc)
 
-
+@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("BLOCK", [32, 128])
 @pytest.mark.parametrize("WIDTH", [256, 576, 1024, 1792])
@@ -147,7 +148,7 @@ def test_softmax(BLOCK, WIDTH, DTYPE):
     # compare
     torch.testing.assert_close(ry, ty)
 
-
+@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("block", [32, 43, 128])  # 16, 32,
 @pytest.mark.parametrize("dtype", [torch.float16])
@@ -220,7 +221,7 @@ def loss_fn(x):
                 msg=f"Triton grad {torch.norm(g1).item()} and torch grad {torch.norm(g2).item()}",
             )
 
-
+@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("dtype", [torch.float16])
 def test_blocksparse_attention_parity(dtype):
diff --git a/tests/test_triton_layernorm.py b/tests/test_triton_layernorm.py
index e89a40196d..3946061ee0 100644
--- a/tests/test_triton_layernorm.py
+++ b/tests/test_triton_layernorm.py
@@ -12,6 +12,8 @@
 
 import xformers
 
+disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+
 try:
     from xformers.triton import FusedLayerNorm
     from xformers.triton.utils import gpu_capabilities_older_than_70
@@ -34,7 +36,7 @@
     (1, 2048, 12288),
 ]
 
-
+@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton is not available")
 @pytest.mark.skipif(
     not _triton_available or gpu_capabilities_older_than_70(),
@@ -102,7 +104,7 @@ def test_layernorm_parity(shape, amp):
             + f" {torch.norm(triton_layernorm.bias.grad)}"
         )
 
-
+@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton is not available")
 @pytest.mark.parametrize("dtype", [torch.float16, torch.float32, torch.bfloat16])
 def test_no_contiguous(dtype):

From 6dae63c059a35061bd67e338c788f5067e2ce4d5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Feb 2024 23:25:16 +0000
Subject: [PATCH 427/837] Update to test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index c86952877c..183627d0bb 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2067,6 +2067,9 @@ def test_attn_bias_blockdiag_doc() -> None:
 
     from xformers.ops import fmha
 
+    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
+        pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
+
     K = 16
     dtype = torch.float16
     device = "cuda"
@@ -2507,7 +2510,7 @@ def test_empty_tensors_empty_query(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if opFW is fmha.ck.FwOp and opFW.IS_CK_TILED:
+    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
     if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
@@ -2535,9 +2538,9 @@ def test_empty_tensors_empty_kv(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if opFW is fmha.ck.FwOp and opFW.IS_CK_TILED:
+    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
-
+        
     if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
@@ -2563,7 +2566,7 @@ def test_empty_tensors_empty_b(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if opFW is fmha.ck.FwOp and opFW.IS_CK_TILED:
+    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
     if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):

From 0624c92a23d7962123cacd418d95301a54f0485e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 6 Feb 2024 01:20:45 +0000
Subject: [PATCH 428/837] apply isort

---
 tests/test_mqa_forward_ck_tiled_discarded.py     |  2 +-
 .../benchmarks/benchmark_mem_eff_attention.py    |  2 +-
 .../benchmark_mem_eff_atttention_mqa.py          |  3 +--
 xformers/benchmarks/benchmark_swiglu.py          |  2 +-
 xformers/benchmarks/benchmark_transformer.py     |  2 +-
 xformers/ops/__init__.py                         |  4 ++--
 xformers/ops/fmha/__init__.py                    | 14 ++++++++++++--
 xformers/ops/fmha/ck.py                          |  3 ++-
 xformers/ops/fmha/ck_decoder.py                  |  6 ++++--
 xformers/ops/fmha/ck_splitk.py                   | 12 ++++++++++--
 xformers/ops/fmha/common.py                      |  1 -
 xformers/ops/fmha/dispatch.py                    | 16 ++++++++++++++--
 xformers/ops/fmha/triton.py                      |  4 +---
 13 files changed, 50 insertions(+), 21 deletions(-)

diff --git a/tests/test_mqa_forward_ck_tiled_discarded.py b/tests/test_mqa_forward_ck_tiled_discarded.py
index 5d11b8e40d..fc91f0dccb 100644
--- a/tests/test_mqa_forward_ck_tiled_discarded.py
+++ b/tests/test_mqa_forward_ck_tiled_discarded.py
@@ -13,10 +13,10 @@
 from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
+from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
 from xformers.ops.common import get_xformers_operator
 from xformers.ops.fmha.common import AttentionOpBase
-from xformers.attn_bias_utils import create_attn_bias
 
 from .utils import assert_allclose
 
diff --git a/xformers/benchmarks/benchmark_mem_eff_attention.py b/xformers/benchmarks/benchmark_mem_eff_attention.py
index baaa7d2c85..5c5305a161 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention.py
@@ -10,11 +10,11 @@
 
 import torch
 from torch.utils import benchmark
-from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops
 import xformers.ops.fmha as fmha
 from xformers.attn_bias_utils import create_attn_bias
+from xformers.benchmarks.utils import benchmark_main_helper
 
 torch.backends.cuda.matmul.allow_tf32 = False
 
diff --git a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
index 12b8f7b91d..14e1700bd8 100644
--- a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
+++ b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
@@ -10,12 +10,11 @@
 
 import torch
 from torch.utils import benchmark
-from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops
 import xformers.ops.fmha as fmha
-
 from xformers.attn_bias_utils import create_attn_bias
+from xformers.benchmarks.utils import benchmark_main_helper
 
 torch.backends.cuda.matmul.allow_tf32 = False
 
diff --git a/xformers/benchmarks/benchmark_swiglu.py b/xformers/benchmarks/benchmark_swiglu.py
index fc59ac45de..b268d3f19e 100644
--- a/xformers/benchmarks/benchmark_swiglu.py
+++ b/xformers/benchmarks/benchmark_swiglu.py
@@ -11,9 +11,9 @@
 
 import torch
 from torch.utils import benchmark
-from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops.swiglu_op as xsw
+from xformers.benchmarks.utils import benchmark_main_helper
 
 min_run_time = 0.5
 device = torch.device("cuda")
diff --git a/xformers/benchmarks/benchmark_transformer.py b/xformers/benchmarks/benchmark_transformer.py
index dad5183317..2a6070b62a 100644
--- a/xformers/benchmarks/benchmark_transformer.py
+++ b/xformers/benchmarks/benchmark_transformer.py
@@ -15,9 +15,9 @@
 from timm.models.vision_transformer import Attention as TimmAttention
 from timm.models.vision_transformer import Block as TimmBlock
 from torch.utils import benchmark
-from xformers.benchmarks.utils import benchmark_main_helper
 
 import xformers.ops as xops
+from xformers.benchmarks.utils import benchmark_main_helper
 
 
 def replace_module(module: nn.Module, replace_class, factory):
diff --git a/xformers/ops/__init__.py b/xformers/ops/__init__.py
index 9d1ef2608d..25bbbfc4d0 100644
--- a/xformers/ops/__init__.py
+++ b/xformers/ops/__init__.py
@@ -11,14 +11,14 @@
     AttentionOpBase,
     AttentionOpDispatch,
     LowerTriangularMask,
+    MemoryEfficientAttentionCkOp,
     MemoryEfficientAttentionCutlassFwdFlashBwOp,
     MemoryEfficientAttentionCutlassOp,
     MemoryEfficientAttentionFlashAttentionOp,
     MemoryEfficientAttentionOp,
+    MemoryEfficientAttentionSplitKCkOp,
     MemoryEfficientAttentionTritonFwdFlashBwOp,
     TritonFlashAttentionOp,
-    MemoryEfficientAttentionCkOp,
-    MemoryEfficientAttentionSplitKCkOp,
     memory_efficient_attention,
     memory_efficient_attention_backward,
     memory_efficient_attention_forward,
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index 06b995c308..b1da965421 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -7,8 +7,18 @@
 
 import torch
 
-
-from . import attn_bias, cutlass, decoder, flash, small_k, triton, triton_splitk, ck, ck_decoder, ck_splitk
+from . import (
+    attn_bias,
+    ck,
+    ck_decoder,
+    ck_splitk,
+    cutlass,
+    decoder,
+    flash,
+    small_k,
+    triton,
+    triton_splitk,
+)
 from .attn_bias import AttentionBias, BlockDiagonalMask, LowerTriangularMask
 from .common import (
     AttentionBwOpBase,
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 000a07e56f..268b0dd1ff 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -7,7 +7,7 @@
 from dataclasses import replace
 from enum import Enum
 from functools import partial
-from typing import Any, List, Optional, Set, Tuple, Union, Mapping
+from typing import Any, List, Mapping, Optional, Set, Tuple, Union
 
 import torch
 
@@ -35,6 +35,7 @@
     check_lastdim_alignment_stride1,
 )
 
+
 def _minimum_gemm_alignment(inp: Inputs) -> int:
     return 1
 
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 3579a3f0ae..6b1d76f9c6 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -1,10 +1,12 @@
 # TODO(max): add a proper copyright header
+from typing import Any, List, Optional, Set, Tuple
+
 import torch
 
-from typing import Any, Set, List, Tuple, Optional
+from ..common import get_xformers_operator, register_operator
 from .attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
 from .common import AttentionFwOpBase, Context, Inputs
-from ..common import get_xformers_operator, register_operator
+
 
 @register_operator
 class FwOp(AttentionFwOpBase):
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 49238f83db..3dd2fd7c78 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -1,8 +1,16 @@
+from typing import Any, List, Optional, Set, Tuple
+
 import torch
-from typing import Any, List, Set, Tuple, Optional
+
 from xformers.ops.common import get_xformers_operator, register_operator
 from xformers.ops.fmha.attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
-from xformers.ops.fmha.common import AttentionFwOpBase, Context, Inputs, check_lastdim_alignment_stride1
+from xformers.ops.fmha.common import (
+    AttentionFwOpBase,
+    Context,
+    Inputs,
+    check_lastdim_alignment_stride1,
+)
+
 
 @register_operator
 class FwOp(AttentionFwOpBase):
diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index 9808b59342..18ad70be4d 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -3,7 +3,6 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
-from functools import partial
 import math
 from dataclasses import dataclass
 from functools import partial
diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 0acb7eb352..0af07b3e95 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -5,11 +5,23 @@
 
 
 import textwrap
-import torch
 from collections import deque
 from typing import List, Sequence, Type, TypeVar
 
-from . import attn_bias, cutlass, decoder, flash, small_k, triton, triton_splitk, ck, ck_decoder, ck_splitk
+import torch
+
+from . import (
+    attn_bias,
+    ck,
+    ck_decoder,
+    ck_splitk,
+    cutlass,
+    decoder,
+    flash,
+    small_k,
+    triton,
+    triton_splitk,
+)
 from .common import AttentionBwOpBase, AttentionFwOpBase, Inputs
 
 
diff --git a/xformers/ops/fmha/triton.py b/xformers/ops/fmha/triton.py
index 6dccc1cb98..08018f56fe 100644
--- a/xformers/ops/fmha/triton.py
+++ b/xformers/ops/fmha/triton.py
@@ -16,18 +16,16 @@
 from typing import Any, List, Mapping, Optional, Set, Tuple
 
 import torch
-
 import triton
 import triton.language as tl
 
 from ..common import register_operator
-
 from .attn_bias import (
     BlockDiagonalCausalMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
     LowerTriangularMask,
 )
-from .common import AttentionFwOpBase, check_lastdim_alignment_stride1, Context, Inputs
+from .common import AttentionFwOpBase, Context, Inputs, check_lastdim_alignment_stride1
 
 
 @triton.jit

From b8ebf080d247447a0199228c0045c81c0d60b45e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 6 Feb 2024 01:27:40 +0000
Subject: [PATCH 429/837] apply black

---
 setup.py                                      | 284 +++++++++++++-----
 tests/test_attentions.py                      |   7 +-
 tests/test_checkpoint.py                      |  14 +-
 tests/test_ck_7.py                            |  21 +-
 tests/test_core_attention.py                  |   7 +-
 tests/test_custom_ops.py                      |   7 +-
 tests/test_mem_eff_attention.py               | 147 ++++++---
 tests/test_mem_eff_attention_ck_discarded.py  | 105 ++++---
 tests/test_mqa_forward_ck_tiled_discarded.py  |  35 ++-
 tests/test_sparse_tensors.py                  |   8 +-
 tests/test_swiglu.py                          |   6 +-
 tests/test_triton_blocksparse.py              |   9 +-
 tests/test_triton_layernorm.py                |   6 +-
 .../benchmarks/benchmark_attn_decoding.py     |   5 +-
 .../benchmark_mem_eff_attn_decoder.py         |   4 +-
 .../benchmark_mem_eff_atttention_mqa.py       |  22 +-
 xformers/benchmarks/utils.py                  |   6 +-
 xformers/ops/common.py                        |   5 +-
 xformers/ops/fmha/__init__.py                 |   3 +-
 xformers/ops/fmha/ck.py                       |  45 ++-
 xformers/ops/fmha/ck_decoder.py               |  26 +-
 xformers/ops/fmha/ck_splitk.py                |  19 +-
 xformers/ops/fmha/common.py                   |   6 +-
 xformers/ops/fmha/dispatch.py                 |  26 +-
 24 files changed, 598 insertions(+), 225 deletions(-)

diff --git a/setup.py b/setup.py
index f56dbeca76..59867a8052 100644
--- a/setup.py
+++ b/setup.py
@@ -214,54 +214,199 @@ def get_flash_attention_extensions(cuda_version: int, extra_compile_args):
         )
     ]
 
+
 def rename_cpp_cu(cpp_files):
     for entry in cpp_files:
-        shutil.copy(entry, os.path.splitext(entry)[0] + '.cu')
+        shutil.copy(entry, os.path.splitext(entry)[0] + ".cu")
+
 
 def get_extensions():
     extensions_dir = os.path.join("xformers", "csrc")
 
-    sources = glob.glob(os.path.join(extensions_dir, "attention", "*.cpp"), recursive=False)
-    sources += glob.glob(os.path.join(extensions_dir, "attention", "autograd", "**", "*.cpp"), recursive=True)
-    sources += glob.glob(os.path.join(extensions_dir, "attention", "cpu", "**", "*.cpp"), recursive=True)
-    sources += glob.glob(os.path.join(extensions_dir, "indexing", "**", "*.cpp"), recursive=True)
-    sources += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cpp"), recursive=True)
-    
+    sources = glob.glob(
+        os.path.join(extensions_dir, "attention", "*.cpp"), recursive=False
+    )
+    sources += glob.glob(
+        os.path.join(extensions_dir, "attention", "autograd", "**", "*.cpp"),
+        recursive=True,
+    )
+    sources += glob.glob(
+        os.path.join(extensions_dir, "attention", "cpu", "**", "*.cpp"), recursive=True
+    )
+    sources += glob.glob(
+        os.path.join(extensions_dir, "indexing", "**", "*.cpp"), recursive=True
+    )
+    sources += glob.glob(
+        os.path.join(extensions_dir, "swiglu", "**", "*.cpp"), recursive=True
+    )
+
     ## avoid the temporary .cu file under xformers/csrc/attention/hip_fmha are included
     source_cuda = glob.glob(os.path.join(extensions_dir, "*.cu"), recursive=False)
-    source_cuda += glob.glob(os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True)
-    source_cuda += glob.glob(os.path.join(extensions_dir, "indexing", "**", "*.cu"), recursive=True)
-    source_cuda += glob.glob(os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True)
+    source_cuda += glob.glob(
+        os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True
+    )
+    source_cuda += glob.glob(
+        os.path.join(extensions_dir, "indexing", "**", "*.cu"), recursive=True
+    )
+    source_cuda += glob.glob(
+        os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True
+    )
+
+    source_hip = glob.glob(
+        os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"),
+        recursive=False,
+    )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"
+        ),
+        recursive=False,
+    )
 
-    source_hip = glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"), recursive=False)
-    source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False)
-    
     source_hip_decoder = [
-        *glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"), recursive=False),
-        *glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_splitk.cpp"), recursive=False)
+        *glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"
+            ),
+            recursive=False,
+        ),
+        *glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "attention_forward_splitk.cpp"
+            ),
+            recursive=False,
+        ),
     ]
 
     if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_backward_generic.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_infer_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_infer_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_forward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_forward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_backward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_backward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances", "ck_fmha_*.cpp"), recursive=False)
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "attention_backward_generic.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_infer_*.cpp"
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_infer_*.cpp"
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_forward_*.cpp"
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_forward_*.cpp"
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "ck_fmha_batched_backward_*.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "ck_fmha_grouped_backward_*.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir, "attention", "hip_fmha", "instances", "ck_fmha_*.cpp"
+            ),
+            recursive=False,
+        )
     else:
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "attention_forward_generic_ck_tiled.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_infer_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_infer_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_batched_forward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "ck_tiled_fmha_grouped_forward_*.cpp"), recursive=False)
-        source_hip += glob.glob(os.path.join(extensions_dir, "attention", "hip_fmha", "instances_tiled", "ck_tiled_fmha_*.cpp"), recursive=False)
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "attention_forward_generic_ck_tiled.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "ck_tiled_fmha_batched_infer_*.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "ck_tiled_fmha_grouped_infer_*.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "ck_tiled_fmha_batched_forward_*.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "ck_tiled_fmha_grouped_forward_*.cpp",
+            ),
+            recursive=False,
+        )
+        source_hip += glob.glob(
+            os.path.join(
+                extensions_dir,
+                "attention",
+                "hip_fmha",
+                "instances_tiled",
+                "ck_tiled_fmha_*.cpp",
+            ),
+            recursive=False,
+        )
 
     source_hip += source_hip_decoder
-    
+
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
     cutlass_dir = os.path.join(this_dir, "third_party", "cutlass", "include")
     cutlass_examples_dir = os.path.join(this_dir, "third_party", "cutlass", "examples")
@@ -340,42 +485,46 @@ def get_extensions():
             "--ptxas-options=-O2",
             "--ptxas-options=-allow-expensive-optimizations=true",
         ]
-    elif torch.cuda.is_available() and torch.version.hip: 
-       rename_cpp_cu(source_hip)
-       source_hip_cu = []
-       for ff in source_hip:
-           source_hip_cu += [ff.replace(".cpp", ".cu")]
-
-       extension = CUDAExtension
-       sources += source_hip_cu
-       include_dirs += [ Path(this_dir) / 'xformers' / 'csrc' / 'attention' / 'hip_fmha' ]
-
-       if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
-           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel' / 'include']
-       else:
-           include_dirs += [ Path(this_dir) / 'third_party' / 'composable_kernel_tiled' / 'include']
-           
-       if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
-           generator_flag = []
-       else:
-           generator_flag = ["-DUSE_CK_TILED_KERNEL"]
-       cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
-       extra_compile_args={
+    elif torch.cuda.is_available() and torch.version.hip:
+        rename_cpp_cu(source_hip)
+        source_hip_cu = []
+        for ff in source_hip:
+            source_hip_cu += [ff.replace(".cpp", ".cu")]
+
+        extension = CUDAExtension
+        sources += source_hip_cu
+        include_dirs += [
+            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha"
+        ]
+
+        if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
+            include_dirs += [
+                Path(this_dir) / "third_party" / "composable_kernel" / "include"
+            ]
+        else:
+            include_dirs += [
+                Path(this_dir) / "third_party" / "composable_kernel_tiled" / "include"
+            ]
+
+        if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
+            generator_flag = []
+        else:
+            generator_flag = ["-DUSE_CK_TILED_KERNEL"]
+        cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
+        extra_compile_args = {
             "cxx": ["-O3", "-std=c++17"] + generator_flag,
-            "nvcc":
-                [
-                    "-O3",
-                    "-std=c++17",
-                    f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'native')}",
-                    "-U__CUDA_NO_HALF_OPERATORS__",
-                    "-U__CUDA_NO_HALF_CONVERSIONS__",
-                    "-DCK_FMHA_FWD_FAST_EXP2=1",
-                    "-fgpu-flush-denormals-to-zero",
-                ]
-                + generator_flag
-                + cc_flag
-            ,
-       } 
+            "nvcc": [
+                "-O3",
+                "-std=c++17",
+                f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'native')}",
+                "-U__CUDA_NO_HALF_OPERATORS__",
+                "-U__CUDA_NO_HALF_CONVERSIONS__",
+                "-DCK_FMHA_FWD_FAST_EXP2=1",
+                "-fgpu-flush-denormals-to-zero",
+            ]
+            + generator_flag
+            + cc_flag,
+        }
 
     ext_modules.append(
         extension(
@@ -406,6 +555,7 @@ def get_extensions():
         },
     }
 
+
 class clean(distutils.command.clean.clean):  # type: ignore
     def run(self):
         if os.path.exists(".gitignore"):
diff --git a/tests/test_attentions.py b/tests/test_attentions.py
index 038c55baa3..31f7721fb0 100644
--- a/tests/test_attentions.py
+++ b/tests/test_attentions.py
@@ -22,7 +22,9 @@
     build_attention,
 )
 
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
 
 DEVICES = (
     [torch.device("cpu")] if not torch.cuda.is_available() else [torch.device("cuda")]
@@ -92,6 +94,7 @@ def noop(x):
 
     return multi_head
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("attn_dropout", [0.0, 0.3])
 @pytest.mark.parametrize("residual_dropout", [0.0, 0.1])
@@ -162,6 +165,7 @@ def test_order_invariance(
             with torch.cuda.amp.autocast(enabled=True):
                 _ = multi_head(inputs, inputs_shuffled, inputs)
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("heads", [1, 4])
 @pytest.mark.parametrize("attention_name", ["scaled_dot_product"])
@@ -205,6 +209,7 @@ def test_kqv_ordering(
     res_false = multi_head(query=v, key=k, value=q)
     assert torch.allclose(res_false[0, :, :], res_false[1, :, :])
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("heads", [1, 4])
 @pytest.mark.parametrize("attention_name", ["scaled_dot_product"])
diff --git a/tests/test_checkpoint.py b/tests/test_checkpoint.py
index eab74a1721..8e456d3454 100644
--- a/tests/test_checkpoint.py
+++ b/tests/test_checkpoint.py
@@ -14,7 +14,9 @@
 from xformers import checkpoint, list_operators
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
 _devices = ["cpu"]
 cuda_cap = (0, 0)
 
@@ -30,6 +32,7 @@ def _relu_policy(func, *args, **kwargs):
 def _all_policy(func, *args, **kwargs):
     return True
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("policy_fn", [None, [], _relu_policy, _all_policy])
 @pytest.mark.parametrize("input_requires_grad", [True, False])
@@ -103,7 +106,9 @@ def test_checkpoint_with_grad(policy_fn, input_requires_grad, grad_mode):
     "op",
     [
         xformers.ops.MemoryEfficientAttentionFlashAttentionOp,
-        xformers.ops.MemoryEfficientAttentionCutlassOp if torch.version.cuda else xformers.ops.MemoryEfficientAttentionCkOp,
+        xformers.ops.MemoryEfficientAttentionCutlassOp
+        if torch.version.cuda
+        else xformers.ops.MemoryEfficientAttentionCkOp,
     ],
 )
 def test_checkpoint_attention(policy_fn, input_requires_grad, device, autocast, op):
@@ -113,7 +118,10 @@ def test_checkpoint_attention(policy_fn, input_requires_grad, device, autocast,
     ):
         pytest.skip("skipping operator not supported in this arch")
 
-    if op is xformers.ops.MemoryEfficientAttentionFlashAttentionOp and torch.version.hip:
+    if (
+        op is xformers.ops.MemoryEfficientAttentionFlashAttentionOp
+        and torch.version.hip
+    ):
         pytest.skip("FlashAttentionOp is not supported on ROCM!")
 
     if op is xformers.ops.MemoryEfficientAttentionCkOp and op[0].IS_CK_TILED:
diff --git a/tests/test_ck_7.py b/tests/test_ck_7.py
index 00a42ead06..6f61249450 100644
--- a/tests/test_ck_7.py
+++ b/tests/test_ck_7.py
@@ -36,6 +36,7 @@
     fmha.ck.BwOp,
 ]
 
+
 def sample_random_supported_fw(
     inp: fmha.Inputs, seed: int
 ) -> Type[fmha.common.AttentionFwOpBase]:
@@ -646,7 +647,9 @@ def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
     key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
     value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
 
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, op=(fmha.ck.FwOp, None)
+    )
     # this should be equivalent to the average over value
     ref = value.mean(1, keepdim=True).expand_as(query)
 
@@ -655,6 +658,7 @@ def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
     else:
         assert_allclose(out, ref, atol=1e-2)
 
+
 def _block_diag_reshape_lse(
     lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
 ) -> torch.Tensor:
@@ -732,14 +736,21 @@ def test_backward(
     ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
     if k > 128 or kv > 128:
-        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention-1")
+        pytest.skip(
+            "head-dim length bigger than 128 is not supported by CK-FlashAttention-1"
+        )
 
     if k % 8 != 0 or kv % 8 != 0:
         pytest.skip("head-dim length must be an even value for CK-FlashAttention-1")
 
     ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
-    if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask and q_len <= kv_len:
-        pytest.skip("BlockDiagonalCausalFromBottomRightMask requires kv_len bigger than q_len")
+    if (
+        bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
+        and q_len <= kv_len
+    ):
+        pytest.skip(
+            "BlockDiagonalCausalFromBottomRightMask requires kv_len bigger than q_len"
+        )
 
     if k != kv:
         pytest.skip("k same as kv is not well tested by CK-FlashAttention-1")
@@ -864,5 +875,3 @@ def test_backward(
             atol=atol,
             rtol=rtol,
         )
-
-
diff --git a/tests/test_core_attention.py b/tests/test_core_attention.py
index 81a403e59d..ba8433da43 100644
--- a/tests/test_core_attention.py
+++ b/tests/test_core_attention.py
@@ -21,7 +21,10 @@
     _is_triton_available() and not gpu_capabilities_older_than_70()
 )
 
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
+
 
 def catch_oor(fn):
     @functools.wraps(fn)
@@ -133,6 +136,7 @@ def test_amp_attention_sparse(device):
     expected_device = torch.float32
     assert r.dtype == expected_device
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_sparsecs(device):
@@ -149,6 +153,7 @@ def test_amp_attention_sparsecs(device):
     expected_device = torch.float32
     assert r.dtype == expected_device
 
+
 @disable_on_rocm
 @pytest.mark.skipif(
     not _is_blocksparse_available, reason="Blocksparse is not available"
diff --git a/tests/test_custom_ops.py b/tests/test_custom_ops.py
index 0a8f053d3d..676952df77 100644
--- a/tests/test_custom_ops.py
+++ b/tests/test_custom_ops.py
@@ -17,7 +17,9 @@
 )
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
 
 _devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
 
@@ -134,6 +136,7 @@ def compute_grads(f):
     assert torch.allclose(grad_a, a.grad)
     assert torch.allclose(grad_b, b.grad)
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sddmm_sputnik(device):
@@ -253,6 +256,7 @@ def test_sddmm_coo(L, M, K, prob):
     assert res.dtype == res_gt.dtype
     assert torch.allclose(res, res_gt, atol=1e-6)
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sddmm_sputnik_backward(device):
@@ -332,6 +336,7 @@ def test_sparse_softmax_sputnik_backward(device):
         grad_a, a.grad.coalesce().values().reshape_as(grad_a), atol=1e-7
     )
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_spmm_sputnik(device):
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 183627d0bb..ab4442f774 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -26,8 +26,12 @@
 
 torch.backends.cuda.matmul.allow_tf32 = False
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-rocm_only = pytest.mark.skipif(not torch.cuda.is_available() or not torch.version.hip, reason="requires ROCM")
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+rocm_only = pytest.mark.skipif(
+    not torch.cuda.is_available() or not torch.version.hip, reason="requires ROCM"
+)
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
 
 compute_capability = (0, 0)
 if torch.cuda.is_available():
@@ -313,7 +317,10 @@ def T(t):
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
-def ref_attention_splitk_bmhk(q, k, v, attn_bias, scale=None, split_k=None, dtype=None) -> torch.Tensor:
+
+def ref_attention_splitk_bmhk(
+    q, k, v, attn_bias, scale=None, split_k=None, dtype=None
+) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -327,12 +334,18 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention_splitk(T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype)
+    out = ref_attention_splitk(
+        T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype
+    )
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
-def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2, dtype=None) -> torch.Tensor:
+
+def ref_attention_splitk(
+    q, k, v, attn_bias, scale=None, split_k=2, dtype=None
+) -> torch.Tensor:
     if q.ndim == 5:
+
         def attn_bias_group(group: int):
             if isinstance(attn_bias, torch.Tensor):
                 return attn_bias[:, group]
@@ -345,7 +358,12 @@ def attn_bias_group(group: int):
         return torch.stack(
             [
                 ref_attention_splitk_bmhk(
-                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), split_k=split_k, dtype=dtype
+                    q[:, :, g],
+                    k[:, :, g],
+                    v[:, :, g],
+                    attn_bias=attn_bias_group(g),
+                    split_k=split_k,
+                    dtype=dtype,
                 )
                 for g in range(q.shape[2])
             ],
@@ -353,7 +371,9 @@ def attn_bias_group(group: int):
         )
 
     if q.ndim == 4:
-        return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype)
+        return ref_attention_splitk_bmhk(
+            q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype
+        )
     assert q.ndim == 3
     if dtype is None:
         dtype = torch.float32
@@ -362,7 +382,7 @@ def attn_bias_group(group: int):
     v = v.to(dtype=dtype)
 
     if scale is None:
-        scale = q.shape[-1] ** -.5
+        scale = q.shape[-1] ** -0.5
     assert not q.isnan().any()
     q = q * scale
     assert not q.isnan().any()
@@ -384,15 +404,17 @@ def attn_bias_group(group: int):
             )
 
     split_size = k.size(-2) // split_k
-    split_config = { "dim": -2, "split_size_or_sections": split_size}
+    split_config = {"dim": -2, "split_size_or_sections": split_size}
     k_split = torch.split(k, **split_config)
     v_split = torch.split(v, **split_config)
-    attn_bias_split = torch.split(attn_bias_tensor, dim=-1, split_size_or_sections=split_size)
+    attn_bias_split = torch.split(
+        attn_bias_tensor, dim=-1, split_size_or_sections=split_size
+    )
 
     def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         p_slice = q_whole @ k_slice.transpose(-2, -1)
         p_slice += attn_bias_slice
-        m = torch.max(p_slice, dim = -1, keepdim=True).values
+        m = torch.max(p_slice, dim=-1, keepdim=True).values
         p_slice_scaled = p_slice - m
         p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
         s = torch.exp(p_slice_scaled)
@@ -406,8 +428,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
     splits = list(zip(k_split, v_split, attn_bias_split))
 
-    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]),
-        splits))
+    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]), splits))
     out = torch.zeros_like(q)
 
     # reduce out over split-k slices
@@ -422,11 +443,11 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
         log_alpha = -torch.abs(local_max - global_max)
         alpha = torch.exp(log_alpha)
-        alpha.nan_to_num_(1.)
+        alpha.nan_to_num_(1.0)
 
         pick_new = local_max < global_max
-        new_coef = torch.where(pick_new, alpha, 1.)
-        curr_coef = torch.where(pick_new, 1., alpha)
+        new_coef = torch.where(pick_new, alpha, 1.0)
+        curr_coef = torch.where(pick_new, 1.0, alpha)
 
         out = out * curr_coef + local_out * new_coef
         global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
@@ -434,6 +455,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     out /= global_sumexp
     return out
 
+
 ## this interface assumes the tensor is in BMHK, but q and k/v might have different number of heads
 def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
     assert q.ndim == 4
@@ -462,14 +484,18 @@ def attn_bias_head(head: int):
     q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
 
     return torch.stack(
-           [
-              ref_attention_bmhk(
-                   q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h),
-              )
-              for h in range(q_bmghk.shape[3])
-           ],
-           dim=3,
-       ).reshape((B, M, Hq, Kv))
+        [
+            ref_attention_bmhk(
+                q_bmghk[:, :, :, h],
+                k,
+                v,
+                attn_bias=attn_bias_head(h),
+            )
+            for h in range(q_bmghk.shape[3])
+        ],
+        dim=3,
+    ).reshape((B, M, Hq, Kv))
+
 
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
@@ -618,7 +644,10 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if op is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     if packed and not (k == kv and q_len == kv_len):
@@ -682,13 +711,16 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
 
+
 @rocm_only
 @pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
 @pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
 @pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000)])
 @pytest.mark.parametrize("batches", [100, 64, 1])
 @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize(
+    "attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask]
+)
 @pytest.mark.parametrize("op", [fmha.ck.FwOp])
 def test_mqa_forward(
     op,
@@ -716,7 +748,7 @@ def test_mqa_forward(
     if op is fmha.ck.FwOp and not op.IS_CK_TILED:
         pytest.skip("mqa/gqa is only supported with ck-tiled fmha")
 
-    torch.manual_seed(B * M + N * K + Hq*Hkv + Kv)
+    torch.manual_seed(B * M + N * K + Hq * Hkv + Kv)
 
     scale = 3
     query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
@@ -815,7 +847,10 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
     if op is fmha.ck.FwOp and op.IS_CK_TILED:
         pytest.skip("logsumexp is not yet supported by ck-tiled fmha!")
 
-    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if op is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     query, key, value, attn_bias = create_tensors(
@@ -1317,7 +1352,10 @@ def test_cuda_streams(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     if device != "cuda":
         pytest.skip("Not CUDA")
-    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if op is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     bias_type = None
@@ -1463,7 +1501,10 @@ def test_grad_checkpointing(
         pytest.skip("Triton Flash Attention 2 doesn't support backward pass yet")
     if op is fmha.ck.FwOp and op.IS_CK_TILED:
         pytest.skip("ck-tiled FMHA doesn't supported backward pass yet")
-    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if op is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     bias_type = None
@@ -1538,7 +1579,10 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
         0, 3, 1, 2
     )
 
-    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if op is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     try:
@@ -1557,7 +1601,10 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
 def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
     q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
 
-    if op is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if op is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     try:
@@ -1955,7 +2002,7 @@ def dequant_cache(x):
 
     if torch.version.cuda:
         cutlass_output = fmha.memory_efficient_attention_forward(
-             q, k, v, attn_bias, op=fmha.cutlass.FwOp
+            q, k, v, attn_bias, op=fmha.cutlass.FwOp
         )
 
         assert_allclose(
@@ -2023,8 +2070,11 @@ def test_triton_splitk_decoder(
         dequant=dequant,
     )
 
+
 @rocm_only
-@pytest.mark.parametrize("op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4])
+@pytest.mark.parametrize(
+    "op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4]
+)
 @pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
@@ -2037,7 +2087,7 @@ def test_splitk_decoder(
     padding: int,
     bsz: int,
     dtype: str,
-    d: int
+    d: int,
 ) -> None:
     # no quantized impl compared to cuda
     test_decoder(
@@ -2050,6 +2100,7 @@ def test_splitk_decoder(
         d=d,
     )
 
+
 def test_attn_bias_from_seqlens() -> None:
     bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
     out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
@@ -2320,7 +2371,10 @@ def test_forward_gqa_one_group(opFW):
     k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
     v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
 
-    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if opFW is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     supported = opFW.supports(fmha.Inputs(q, k, v))
@@ -2379,6 +2433,7 @@ def _dispatches_to_flash_decoding(q, kv):
         _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
     )
 
+
 @disable_on_rocm
 def test_dispatch_decoding_bmhk() -> None:
     assert not _dispatches_to_splitK(
@@ -2401,6 +2456,7 @@ def test_dispatch_decoding_bmhk() -> None:
         torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
     ), "Should not use SplitK if B is big"
 
+
 @disable_on_rocm
 def test_dispatch_decoding_bmghk() -> None:
     assert not _dispatches_to_splitK(
@@ -2485,7 +2541,7 @@ def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
     k = k.expand(-1, -1, H, -1)
     v = v.expand(-1, -1, H, -1)
 
-    if (sys.version_info.major, sys.version_info.minor) <= (3, 8): 
+    if (sys.version_info.major, sys.version_info.minor) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     if not op.supports(fmha.Inputs(q, k, v)):
@@ -2513,7 +2569,10 @@ def test_empty_tensors_empty_query(
     if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
-    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if opFW is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     query = query[:, :0]
@@ -2540,8 +2599,11 @@ def test_empty_tensors_empty_kv(
 
     if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
-        
-    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+
+    if opFW is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     key = key[:, :0]
@@ -2569,7 +2631,10 @@ def test_empty_tensors_empty_b(
     if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
-    if opFW is fmha.triton_splitk.FwOp and (sys.version_info.major, sys.version_info.minor) <= (3, 8):
+    if opFW is fmha.triton_splitk.FwOp and (
+        sys.version_info.major,
+        sys.version_info.minor,
+    ) <= (3, 8):
         pytest.skip("triton_splitk requires python 3.9 or above!")
 
     query, key, value = query[:0], key[:0], value[:0]
diff --git a/tests/test_mem_eff_attention_ck_discarded.py b/tests/test_mem_eff_attention_ck_discarded.py
index 633ad761b8..2c91ad1d9c 100644
--- a/tests/test_mem_eff_attention_ck_discarded.py
+++ b/tests/test_mem_eff_attention_ck_discarded.py
@@ -39,6 +39,7 @@
     fmha.ck.BwOp,
 ]
 
+
 def sample_random_supported_fw(
     inp: fmha.Inputs, seed: int
 ) -> Type[fmha.common.AttentionFwOpBase]:
@@ -289,7 +290,9 @@ def T(t):
     return out.permute((0, 2, 1, 3))
 
 
-def ref_attention_splitk_bmhk(q, k, v, attn_bias, scale=None, split_k=None, dtype=None) -> torch.Tensor:
+def ref_attention_splitk_bmhk(
+    q, k, v, attn_bias, scale=None, split_k=None, dtype=None
+) -> torch.Tensor:
     assert q.ndim == 4
 
     def T(t):
@@ -303,13 +306,18 @@ def T(t):
             device=q.device,
             dtype=torch.float32,
         ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention_splitk(T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype)
+    out = ref_attention_splitk(
+        T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype
+    )
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
 
-def ref_attention_splitk(q, k, v, attn_bias, scale=None, split_k=2, dtype=None) -> torch.Tensor:
+def ref_attention_splitk(
+    q, k, v, attn_bias, scale=None, split_k=2, dtype=None
+) -> torch.Tensor:
     if q.ndim == 5:
+
         def attn_bias_group(group: int):
             if isinstance(attn_bias, torch.Tensor):
                 return attn_bias[:, group]
@@ -322,7 +330,12 @@ def attn_bias_group(group: int):
         return torch.stack(
             [
                 ref_attention_splitk_bmhk(
-                    q[:, :, g], k[:, :, g], v[:, :, g], attn_bias=attn_bias_group(g), split_k=split_k, dtype=dtype
+                    q[:, :, g],
+                    k[:, :, g],
+                    v[:, :, g],
+                    attn_bias=attn_bias_group(g),
+                    split_k=split_k,
+                    dtype=dtype,
                 )
                 for g in range(q.shape[2])
             ],
@@ -330,7 +343,9 @@ def attn_bias_group(group: int):
         )
 
     if q.ndim == 4:
-        return ref_attention_splitk_bmhk(q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype)
+        return ref_attention_splitk_bmhk(
+            q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype
+        )
     assert q.ndim == 3
     if dtype is None:
         dtype = torch.float32
@@ -339,7 +354,7 @@ def attn_bias_group(group: int):
     v = v.to(dtype=dtype)
 
     if scale is None:
-        scale = q.shape[-1] ** -.5
+        scale = q.shape[-1] ** -0.5
     assert not q.isnan().any()
     q = q * scale
     assert not q.isnan().any()
@@ -361,15 +376,17 @@ def attn_bias_group(group: int):
             )
 
     split_size = k.size(-2) // split_k
-    split_config = { "dim": -2, "split_size_or_sections": split_size}
+    split_config = {"dim": -2, "split_size_or_sections": split_size}
     k_split = torch.split(k, **split_config)
     v_split = torch.split(v, **split_config)
-    attn_bias_split = torch.split(attn_bias_tensor, dim=-1, split_size_or_sections=split_size)
-    
+    attn_bias_split = torch.split(
+        attn_bias_tensor, dim=-1, split_size_or_sections=split_size
+    )
+
     def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         p_slice = q_whole @ k_slice.transpose(-2, -1)
         p_slice += attn_bias_slice
-        m = torch.max(p_slice, dim = -1, keepdim=True).values
+        m = torch.max(p_slice, dim=-1, keepdim=True).values
         p_slice_scaled = p_slice - m
         p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
         s = torch.exp(p_slice_scaled)
@@ -378,13 +395,12 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         return {
             "attn_slice": attn_slice,
             "row_max": m,
-            "row_lse": l, 
+            "row_lse": l,
         }
-    
+
     splits = list(zip(k_split, v_split, attn_bias_split))
 
-    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]), 
-        splits))
+    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]), splits))
     out = torch.zeros_like(q)
 
     # reduce out over split-k slices
@@ -399,11 +415,11 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
 
         log_alpha = -torch.abs(local_max - global_max)
         alpha = torch.exp(log_alpha)
-        alpha.nan_to_num_(1.)
+        alpha.nan_to_num_(1.0)
 
         pick_new = local_max < global_max
-        new_coef = torch.where(pick_new, alpha, 1.)
-        curr_coef = torch.where(pick_new, 1., alpha)
+        new_coef = torch.where(pick_new, alpha, 1.0)
+        curr_coef = torch.where(pick_new, 1.0, alpha)
 
         out = out * curr_coef + local_out * new_coef
         global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
@@ -634,7 +650,9 @@ def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
     key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
     value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
 
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(fmha.ck.FwOp, None))
+    out = xformers.ops.memory_efficient_attention(
+        query, key, value, op=(fmha.ck.FwOp, None)
+    )
     # this should be equivalent to the average over value
     ref = value.mean(1, keepdim=True).expand_as(query)
 
@@ -643,6 +661,7 @@ def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
     else:
         assert_allclose(out, ref, atol=1e-2)
 
+
 def _block_diag_reshape_lse(
     lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
 ) -> torch.Tensor:
@@ -750,16 +769,22 @@ def test_backward(
 
     ## ToDo: reopen bfloat16 for testing
     if dtype is torch.bfloat16:
-        pytest.skip("Temporarily disabled bfloat16 as we are still improving the accuracy of the results")
+        pytest.skip(
+            "Temporarily disabled bfloat16 as we are still improving the accuracy of the results"
+        )
 
     if k > 128 or kv > 128:
-        pytest.skip("head-dim length bigger than 128 is not supported by CK-FlashAttention")
+        pytest.skip(
+            "head-dim length bigger than 128 is not supported by CK-FlashAttention"
+        )
 
     if k % 2 != 0:
-        pytest.skip("head-dim length must be an even value for CK-FlashAttention")    
+        pytest.skip("head-dim length must be an even value for CK-FlashAttention")
 
     if grad_out_contiguous is False:
-        pytest.skip("CK-FlashAttention requires grad_out and out have same lengths/strides")
+        pytest.skip(
+            "CK-FlashAttention requires grad_out and out have same lengths/strides"
+        )
 
     attn_bias_requires_grad = (
         random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
@@ -913,13 +938,14 @@ def _vec_binom_test(x, n, p):
     pval = np.minimum(1.0, pval)
     return pval
 
+
 def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
     if op == fmha.ck.FwOp:
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
         ## rand_uniform is an int32 tensor
         rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
         ##mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
-        mask = (rand_uniform <= int((1.0-p)*255.0)).to(torch.float32)
+        mask = (rand_uniform <= int((1.0 - p) * 255.0)).to(torch.float32)
         mask = mask.reshape(batch_size, q_len, kv_len)
     else:
         mask = torch.empty((batch_size, q_len, kv_len), device=device)
@@ -927,6 +953,7 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 
     return mask
 
+
 @cuda_only
 @pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
 @pytest.mark.parametrize("seed", [42, 124])
@@ -941,7 +968,7 @@ def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias
     from scipy.stats import binomtest
 
     device = "cuda"
-    scale = 0.05 
+    scale = 0.05
     query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
     key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
     value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
@@ -966,7 +993,9 @@ def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias
     torch.manual_seed(seed)
     mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
     ref = ref_attention(query, key, value, attn_bias, mask, p)
-    assert_allclose(out.float(), ref, atol=3e-3, rtol=5e-4), f"{(out - ref).abs().max()}"
+    assert_allclose(
+        out.float(), ref, atol=3e-3, rtol=5e-4
+    ), f"{(out - ref).abs().max()}"
 
     num_trials = 1000
     p_val_tol = 1e-6
@@ -989,7 +1018,7 @@ def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
     if not op.is_available():
         pytest.skip()
 
-    scale = 3 
+    scale = 3
     device = "cuda"
     query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
     key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
@@ -1415,6 +1444,7 @@ def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
         q = q.contiguous()
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
 
+
 def test_attn_bias_causal() -> None:
     m = -math.inf
     causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
@@ -1643,6 +1673,7 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
         return "mq"
     return f"gqa{kv_heads}"
 
+
 @pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
@@ -1752,12 +1783,10 @@ def test_decoder(
         kv_padding=padding,
     )
     inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
-    if (not_supported_reasons := op.not_supported_reasons(inp)):
+    if not_supported_reasons := op.not_supported_reasons(inp):
         pytest.skip(f"{not_supported_reasons=}")
 
-    decoder_output = fmha.memory_efficient_attention_forward(
-        q, k, v, attn_bias, op=op
-    )
+    decoder_output = fmha.memory_efficient_attention_forward(q, k, v, attn_bias, op=op)
 
     ref_output = ref_attention(q, k, v, attn_bias)
 
@@ -1769,7 +1798,9 @@ def test_decoder(
     )
 
 
-@pytest.mark.parametrize("op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4])
+@pytest.mark.parametrize(
+    "op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4]
+)
 @pytest.mark.parametrize("dtype", ["f32"])
 @pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
 @pytest.mark.parametrize("n_heads", [16])
@@ -1782,7 +1813,7 @@ def test_splitk_decoder(
     padding: int,
     bsz: int,
     dtype: str,
-    d: int
+    d: int,
 ) -> None:
     # no quantized impl compared to cuda
     test_decoder(
@@ -1826,7 +1857,9 @@ def test_attn_bias_blockdiag_doc() -> None:
     linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
 
     q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
-    out = fmha.memory_efficient_attention(q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None))
+    out = fmha.memory_efficient_attention(
+        q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None)
+    )
     list_out = attn_bias.split(out)
     assert tuple(list_out[0].shape) == (1, 3, 1, K)
 
@@ -2072,7 +2105,8 @@ def test_forward_gqa_one_group(opFW):
         rtol=opFW.ERROR_RTOL.get(dtype, 1e-5),
     )
 
-'''
+
+"""
 @sm80_or_better_only
 def test_flash_gqa_wrong_strides() -> None:
     op = (fmha.flash.FwOp, None)
@@ -2098,7 +2132,8 @@ def test_flash_gqa_wrong_strides() -> None:
         :, :, :, :, :K
     ]
     fmha.memory_efficient_attention(q, kv, kv, op=op)
-'''
+"""
+
 
 def _dispatches_to_splitK(q, kv):
     return (
diff --git a/tests/test_mqa_forward_ck_tiled_discarded.py b/tests/test_mqa_forward_ck_tiled_discarded.py
index fc91f0dccb..a1823dfd61 100644
--- a/tests/test_mqa_forward_ck_tiled_discarded.py
+++ b/tests/test_mqa_forward_ck_tiled_discarded.py
@@ -38,7 +38,10 @@
 ck_check_op = get_xformers_operator("is_ck_tiled_used")
 use_ck_tiled = ck_check_op()
 
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+
+def ref_attention(
+    q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None
+):
     if q.ndim == 4:
         B, M, Hq, K = q.shape
         _, N, Hkv, Kv = v.shape
@@ -47,13 +50,13 @@ def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dt
         def attn_bias_head(head: int):
             if isinstance(attn_bias, torch.Tensor):
                 assert attn_bias.ndim == 4
-                _, H, _, _ = attn_bias.shape        
+                _, H, _, _ = attn_bias.shape
                 assert H == Hq
                 bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
                 return bias_bghmn[:, :, head]
             if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
                 assert attn_bias._bias.ndim == 4
-                _, H, _, _ = attn_bias._bias.shape        
+                _, H, _, _ = attn_bias._bias.shape
                 assert H == Hq
                 bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
 
@@ -73,7 +76,7 @@ def attn_bias_head(head: int):
             ],
             dim=3,
         ).reshape((B, M, Hq, Kv))
-     
+
     assert q.ndim == 3
     if dtype is None:
         dtype = torch.float32
@@ -125,24 +128,27 @@ def T(t):
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
+
 @pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
 @pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
 @pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000)])
 @pytest.mark.parametrize("batches", [100, 64, 1])
 @pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize("attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize(
+    "attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask]
+)
 @pytest.mark.parametrize("op", ALL_FW_OPS)
 def test_mqa_forward(
     op,
     attn_bias_type,
-    dtype, 
-    batches: int, 
-    seqlen_kv: int, 
-    seqlen_q: int, 
-    nhead_kv: int, 
-    nhead_q: int, 
-    hdim_v: int, 
-    hdim_k: int, 
+    dtype,
+    batches: int,
+    seqlen_kv: int,
+    seqlen_q: int,
+    nhead_kv: int,
+    nhead_q: int,
+    hdim_v: int,
+    hdim_k: int,
 ):
     B = batches
     M = seqlen_q
@@ -158,7 +164,7 @@ def test_mqa_forward(
     if not use_ck_tiled:
         pytest.skip("mqa/gqa is only supported with ck-tiled")
 
-    torch.manual_seed(B * M + N * K + Hq*Hkv + Kv)
+    torch.manual_seed(B * M + N * K + Hq * Hkv + Kv)
 
     scale = 3
     query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
@@ -208,4 +214,3 @@ def test_mqa_forward(
         atol=op.ERROR_ATOL[dtype],
         rtol=op.ERROR_RTOL.get(dtype, 1e-5),
     )
-
diff --git a/tests/test_sparse_tensors.py b/tests/test_sparse_tensors.py
index e32cb8b379..21246c175d 100644
--- a/tests/test_sparse_tensors.py
+++ b/tests/test_sparse_tensors.py
@@ -15,7 +15,10 @@
 _devices = ["cpu", "cuda:0"] if torch.cuda.is_available() else ["cpu"]
 _tensor_types = [BlockSparseTensor, SparseCSRTensor]
 
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
+
 
 def _create_blocksparse_tensor(
     device, block_size=32, Z=8, C=2, H=64, W=64, dtype=torch.float32
@@ -101,6 +104,7 @@ def test_sparse_binary_ops(func, device):
 
     assert torch.allclose(res, res_gt)
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
@@ -153,6 +157,7 @@ def test_masked_matmul(tensor_type, device):
     assert torch.allclose(a.grad, aa.grad, atol=atol)
     assert torch.allclose(b.grad, bb.grad, atol=atol)
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
@@ -202,6 +207,7 @@ def test_bmm(tensor_type, device):
         a_grad, a_sparse.grad.to_dense(), atol=atol
     ), f"{torch.max(torch.abs(a_grad-a_sparse.grad.to_dense()))}"
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
diff --git a/tests/test_swiglu.py b/tests/test_swiglu.py
index 78112a6ed1..97468a6a25 100644
--- a/tests/test_swiglu.py
+++ b/tests/test_swiglu.py
@@ -24,7 +24,10 @@
     _is_sm80 = False
 sm80_only = pytest.mark.skipif(not _is_sm80, reason="requires sm80")
 
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
+
 
 def assert_allclose(
     # The output of the tested function
@@ -113,6 +116,7 @@ def generate_test_shapes():
 def create_module_cached(**kwargs) -> xsw.SwiGLU:
     return xsw.SwiGLU(**kwargs)
 
+
 @disable_on_rocm
 @pytest.mark.parametrize("autocast", [False, True], ids=["regular", "autocast"])
 @pytest.mark.parametrize("op", _ops, ids=[x.NAME for x in _ops])
diff --git a/tests/test_triton_blocksparse.py b/tests/test_triton_blocksparse.py
index 5bf19aa974..8d8330f049 100644
--- a/tests/test_triton_blocksparse.py
+++ b/tests/test_triton_blocksparse.py
@@ -14,7 +14,10 @@
 from xformers.components.attention.attention_patterns import block_sparsify_tensor
 from xformers.triton.utils import get_current_cuda_device
 
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
+
 
 def catch_oor(fn):
     @functools.wraps(fn)
@@ -63,6 +66,7 @@ def mask_tensor(x, mask, block, value=0):
         ret[:, h, i * block : (i + 1) * block, j * block : (j + 1) * block] = value
     return ret
 
+
 @disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.skipif(
@@ -118,6 +122,7 @@ def test_matmul(MODE, TRANS_A, TRANS_B, BLOCK, DTYPE, Z=32, H=2, M=512, N=384, K
     # compare
     torch.testing.assert_close(rc, tc)
 
+
 @disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("BLOCK", [32, 128])
@@ -148,6 +153,7 @@ def test_softmax(BLOCK, WIDTH, DTYPE):
     # compare
     torch.testing.assert_close(ry, ty)
 
+
 @disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("block", [32, 43, 128])  # 16, 32,
@@ -221,6 +227,7 @@ def loss_fn(x):
                 msg=f"Triton grad {torch.norm(g1).item()} and torch grad {torch.norm(g2).item()}",
             )
 
+
 @disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("dtype", [torch.float16])
diff --git a/tests/test_triton_layernorm.py b/tests/test_triton_layernorm.py
index 3946061ee0..c7a8e06b46 100644
--- a/tests/test_triton_layernorm.py
+++ b/tests/test_triton_layernorm.py
@@ -12,7 +12,9 @@
 
 import xformers
 
-disable_on_rocm = pytest.mark.skipif(not not torch.version.hip, reason="could not be done on ROCM")
+disable_on_rocm = pytest.mark.skipif(
+    not not torch.version.hip, reason="could not be done on ROCM"
+)
 
 try:
     from xformers.triton import FusedLayerNorm
@@ -36,6 +38,7 @@
     (1, 2048, 12288),
 ]
 
+
 @disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton is not available")
 @pytest.mark.skipif(
@@ -104,6 +107,7 @@ def test_layernorm_parity(shape, amp):
             + f" {torch.norm(triton_layernorm.bias.grad)}"
         )
 
+
 @disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton is not available")
 @pytest.mark.parametrize("dtype", [torch.float16, torch.float32, torch.bfloat16])
diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index e1298592c7..31883008b7 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -18,7 +18,8 @@
 
 CASES = [
     dict(B=max(1, 2 ** (16 - i)), Mq=1, Mkv=2**i, Hq=16, Hkv=hkv, K=128)
-    for i in range(8, 18) for hkv in (1, 2)
+    for i in range(8, 18)
+    for hkv in (1, 2)
 ]
 
 
@@ -110,7 +111,7 @@ class AttentionDecodingSplitKV(AttentionDecodingFlashDecoding):
 
 class AttentionDecodingCKSplitKV(AttentionDecodingFlashDecoding):
     OP = xops.fmha.ck_splitk.FwOp
- 
+
 
 class AttentionDecodingPyTorchRepeat(AttentionDecodingFlashDecoding):
     def fw(self) -> None:
diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
index 9fa58e7dde..7616d702db 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
@@ -60,7 +60,9 @@ def T(t):
 
 OPS = [
     xformers.ops.fmha.cutlass.FwOp if torch.version.cuda else xformers.ops.fmha.ck.FwOp,
-    xformers.ops.fmha.decoder.FwOp if torch.version.cuda else xformers.ops.fmha.ck_decoder.FwOp,
+    xformers.ops.fmha.decoder.FwOp
+    if torch.version.cuda
+    else xformers.ops.fmha.ck_decoder.FwOp,
 ]
 
 KV_SHAPES = [
diff --git a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
index 14e1700bd8..ae6f11b15e 100644
--- a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
+++ b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
@@ -19,7 +19,9 @@
 torch.backends.cuda.matmul.allow_tf32 = False
 
 ## this interface assumes the tensor is in BMHK, but q and k/v might has different number of heads
-def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None):
+def ref_attention_mqa(
+    q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None
+):
     if q.ndim == 4:
         B, M, Hq, K = q.shape
         _, N, Hkv, Kv = v.shape
@@ -87,6 +89,7 @@ def attn_bias_head(head: int):
         attn = attn * (drop_mask / (1 - p))
     return attn @ v
 
+
 ## ref_attention_bmhk is completely the same as used by test_forward_ck_tiled.py
 def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
     assert q.ndim == 4
@@ -106,6 +109,7 @@ def T(t):
     out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
     return out.permute((0, 2, 1, 3))
 
+
 min_run_time = 0.5
 device = torch.device("cuda")
 
@@ -123,7 +127,7 @@ def T(t):
     ##*sorted(itertools.product([1, 2], [2048, 4096], [2048, 4096], [4, 8], [1, 2], [128])),
     ##*sorted(
     ##    itertools.product([16], [128, 512], [512, 1024], [16], [2, 4], [64, 128])
-    #),
+    # ),
 ]
 
 OPS = [
@@ -168,11 +172,18 @@ def product_dict(**kwargs):
 
 def create_tensors(shape, dtype, requires_grad=False):
     B, M, N, Hq, Hkv, K = shape
-    q = torch.rand([B, M, Hq, K], device=device, dtype=dtype, requires_grad=requires_grad)
-    k = torch.rand([B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad)
-    v = torch.rand([B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad)
+    q = torch.rand(
+        [B, M, Hq, K], device=device, dtype=dtype, requires_grad=requires_grad
+    )
+    k = torch.rand(
+        [B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad
+    )
+    v = torch.rand(
+        [B, N, Hkv, K], device=device, dtype=dtype, requires_grad=requires_grad
+    )
     return q, k, v
 
+
 def mem_eff_attention_fw(shape, num_threads: int, attn_bias_type, dropout_p, dtype):
     B, M, N, Hq, Hkv, K = shape
     nhead_ratio_qk = Hq // Hkv
@@ -245,4 +256,5 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_type, dropout_p, dty
         num_threads=num_threads,
     )
 
+
 benchmark_main_helper(mem_eff_attention_fw, CASES, min_run_time=min_run_time)
diff --git a/xformers/benchmarks/utils.py b/xformers/benchmarks/utils.py
index 5e18a84ef7..0c94df1b67 100644
--- a/xformers/benchmarks/utils.py
+++ b/xformers/benchmarks/utils.py
@@ -662,8 +662,12 @@ def matches_current(r):
             results, reference=results_compare_to, atol_s=atol_s, rtol=rtol
         )
 
+
 def _is_oom_error(e):
-    return isinstance(e, (torch.cuda.OutOfMemoryError, triton.runtime.autotuner.OutOfResources))
+    return isinstance(
+        e, (torch.cuda.OutOfMemoryError, triton.runtime.autotuner.OutOfResources)
+    )
+
 
 def _fail_if_regressions(
     results: List[Any], reference: List[Any], atol_s: float, rtol: float
diff --git a/xformers/ops/common.py b/xformers/ops/common.py
index 2dad206917..e24b0dda53 100644
--- a/xformers/ops/common.py
+++ b/xformers/ops/common.py
@@ -38,7 +38,10 @@ class BaseOperator:
     @classmethod
     def is_available(cls) -> bool:
         # cls.OPERATOR can be either a kernel or a Triton Autotuner object, which doesn't have __name__
-        if cls.OPERATOR is None or getattr(cls.OPERATOR, "__name__", "") == "no_such_operator":
+        if (
+            cls.OPERATOR is None
+            or getattr(cls.OPERATOR, "__name__", "") == "no_such_operator"
+        ):
             return False
         return True
 
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index b1da965421..15712fe474 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -42,7 +42,8 @@
 TritonFlashAttentionOp = (triton.FwOp, cutlass.BwOp if torch.version.cuda else ck.BwOp)
 MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp)
 MemoryEfficientAttentionCkDecoderOp = (ck_decoder.FwOp, ck.BwOp)
-MemoryEfficientAttentionSplitKCkOp = (ck_splitk.FwOp, ck.BwOp) 
+MemoryEfficientAttentionSplitKCkOp = (ck_splitk.FwOp, ck.BwOp)
+
 
 class _fMHA(torch.autograd.Function):
     @staticmethod
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 268b0dd1ff..e6750e88e6 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -39,6 +39,7 @@
 def _minimum_gemm_alignment(inp: Inputs) -> int:
     return 1
 
+
 def _get_seqlen_info(
     inp: Inputs,
 ) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], int, int]:
@@ -58,7 +59,11 @@ def _get_seqlen_info(
         max_seqlen_q = -1
         ##max_seqlen_k = -1
 
-    return seqstart_k, seqstart_q, max_seqlen_q,
+    return (
+        seqstart_k,
+        seqstart_q,
+        max_seqlen_q,
+    )
 
 
 def _get_tensor_bias(
@@ -98,20 +103,22 @@ def _check_bias_alignment(
                 "you should call `.contiguous()` on the bias"
             )
 
+
 def _check_large_shapes(reasons: List[str], inp: Inputs) -> None:
     """CK kernel throws "Memory access fault by GPU node-2" when B * T >= 2**20, might be some index overflow.
     To reproduce, remove this function and run benchmark_mem_eff_attention with ParlAI model shape (256, 4096, 16, 64).
     This needs further debugging, for now let's not support such shapes.
     """
-    b_t_limit = 1024 ** 2
-    q_too_large = inp.query.shape[0] *  inp.query.shape[1] >= b_t_limit
-    k_too_large = inp.key.shape[0] *  inp.key.shape[1] >= b_t_limit
-    v_too_large = inp.value.shape[0] *  inp.value.shape[1] >= b_t_limit
+    b_t_limit = 1024**2
+    q_too_large = inp.query.shape[0] * inp.query.shape[1] >= b_t_limit
+    k_too_large = inp.key.shape[0] * inp.key.shape[1] >= b_t_limit
+    v_too_large = inp.value.shape[0] * inp.value.shape[1] >= b_t_limit
     if q_too_large or k_too_large or v_too_large:
         reasons.append(
             "Input is too large: product of first two dimensions of q/k/v must be < 2**20"
         )
 
+
 class _CustomMaskType(int, Enum):
     """
     (Matches CustomMaskType in C++.)
@@ -145,6 +152,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
         return int(_CustomMaskType.CausalFromBottomRight)
     return int(_CustomMaskType.NoCustomMask)
 
+
 # checking the availability of ck-tiled is necessary since ck-tiled does not
 # have the same functionalities as old-CK
 def is_ck_tiled() -> bool:
@@ -152,17 +160,17 @@ def is_ck_tiled() -> bool:
     ck_check_op = get_xformers_operator("is_ck_tiled_used")
     return ck_check_op()
 
+
 @register_operator
 class FwOp(AttentionFwOpBase):
-    """xFormers' MHA kernel based on Composable Kernel.
-    """
+    """xFormers' MHA kernel based on Composable Kernel."""
 
     OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
-    SUPPORTED_MAX_K = 256 
+    SUPPORTED_MAX_K = 256
 
-    if is_ck_tiled(): 
+    if is_ck_tiled():
         SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
             type(None),
             torch.Tensor,
@@ -187,7 +195,7 @@ class FwOp(AttentionFwOpBase):
             BlockDiagonalCausalMask,
             BlockDiagonalCausalWithOffsetPaddedKeysMask,
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
-         }
+        }
 
     SUPPORTS_DROPOUT = False if is_ck_tiled() else True
     SUPPORTS_CUSTOM_SCALE = True
@@ -286,7 +294,11 @@ def apply_bmhk(
             raise NotImplementedError("Unsupported attn_bias type")
         seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
-            seqlen_k=inp.attn_bias.k_seqinfo.seqlen if is_ck_tiled() else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
+            seqlen_k = (
+                inp.attn_bias.k_seqinfo.seqlen
+                if is_ck_tiled()
+                else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
+            )
         out, lse, rng_seed, rng_offset = cls.OPERATOR(
             query=inp.query,
             key=inp.key,
@@ -338,7 +350,9 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         check_lastdim_alignment_stride1(reasons, "value", d.value, matmul_alignment_mn)
         _check_bias_alignment(reasons, d.attn_bias)
         _check_large_shapes(reasons, d)
-        requires_grad = d.query.requires_grad or d.key.requires_grad or d.value.requires_grad
+        requires_grad = (
+            d.query.requires_grad or d.key.requires_grad or d.value.requires_grad
+        )
         if is_ck_tiled() and requires_grad:
             reasons.append("Gradience is currently not supported by ck-tiled!")
         return reasons
@@ -449,7 +463,11 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         dtype = inp.query.dtype
 
         if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
-            seqlen_k=inp.attn_bias.k_seqinfo.seqlen if is_ck_tiled() else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
+            seqlen_k = (
+                inp.attn_bias.k_seqinfo.seqlen
+                if is_ck_tiled()
+                else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
+            )
 
         rng_seed = rng_offset = 0
         if inp.p != 0.0:
@@ -486,7 +504,6 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
         )
-        
 
         # c++/CUDA implementation returns an uninitialized tensor if bias doesn't
         # require grad
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 6b1d76f9c6..14e6ba09ab 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -14,11 +14,15 @@ class FwOp(AttentionFwOpBase):
     An operator optimized for K=256 (so the contiguous dim fits into registers).
     Tested to work on MI250x.
     """
+
     OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16, torch.float}
     SUPPORTED_MAX_K: int = 256
-    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {type(None), BlockDiagonalCausalWithOffsetPaddedKeysMask}
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    }
     SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_BMGHK = True
@@ -31,23 +35,29 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         attn_bias = d.attn_bias
         if isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
             if d.query.shape[0] != 1:
-                reasons.append(f"One formal batch element expected; got {d.query.shape[0]}")
+                reasons.append(
+                    f"One formal batch element expected; got {d.query.shape[0]}"
+                )
 
             if d.query.shape[-1] > cls.SUPPORTED_MAX_K:
-                reasons.append(f"Got head_dim={d.query.shape[-1]}; only head_dim<={cls.SUPPORTED_MAX_K} is supported for now.")
+                reasons.append(
+                    f"Got head_dim={d.query.shape[-1]}; only head_dim<={cls.SUPPORTED_MAX_K} is supported for now."
+                )
 
-            threads_per_warp = 64 # TODO: ideally query the platform here
+            threads_per_warp = 64  # TODO: ideally query the platform here
             required_alignment = 0
             head_dim = d.query.shape[-1]
             for vec_size in (4, 2, 1):
                 if head_dim <= vec_size * threads_per_warp:
                     required_alignment = vec_size
-            
+
             if not required_alignment:
                 reasons.append(f"Got head_dim={head_dim} which is too large")
-            
+
             if head_dim % required_alignment != 0:
-                reasons.append(f"Got head_dim={head_dim}; it needs to be divisible by {required_alignment}")
+                reasons.append(
+                    f"Got head_dim={head_dim}; it needs to be divisible by {required_alignment}"
+                )
 
             if d.key.stride(-1) != 1:
                 reasons.append("expect keys to have last dim contiguous")
@@ -98,7 +108,7 @@ def apply(
             else:
                 key = k[0].unflatten(0, (-1, padding))
                 value = v[0].unflatten(0, (-1, padding))
-            query = q[0].unflatten(0, (key.shape[0], -1))    
+            query = q[0].unflatten(0, (key.shape[0], -1))
         else:
             # key: (B, padding, G, 1 if multiquery else Hkv, D)
             # value: like key
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 3dd2fd7c78..63bdb1528b 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -14,13 +14,13 @@
 
 @register_operator
 class FwOp(AttentionFwOpBase):
-    
+
     OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_splitk_ck")
     SUPPORTED_DEVICES = {"cuda"}
     SUPPORTED_DTYPES = {
         torch.half,
         torch.bfloat16,
-        torch.float
+        torch.float,
     }  # Those are dtypes of Q. In the quantized case K/V has dtype int32
     SUPPORTED_MAX_K = 256
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
@@ -105,7 +105,7 @@ def apply(
         attn_bias = inp.attn_bias
         seq_len = None
         q, k, v = inp.get_qkv_in_bmghk()
-        
+
         if attn_bias is not None:
             attn_bias.k_seqinfo.to(k.device)
             attn_bias.q_seqinfo.to(q.device)
@@ -126,7 +126,7 @@ def apply(
             else:
                 key = k[0].unflatten(0, (-1, padding))
                 value = v[0].unflatten(0, (-1, padding))
-            query = q[0].unflatten(0, (key.shape[0], -1))    
+            query = q[0].unflatten(0, (key.shape[0], -1))
         else:
             # key: (B, padding, G, 1 if multiquery else Hkv, D)
             # value: like key
@@ -149,8 +149,15 @@ def apply(
         else:
             qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32))
 
-        out = cls.OPERATOR(query=query, key=key, value=value, seq_positions=seq_positions_gpu, scale=qk_scale, split_k=split_k)
-        
+        out = cls.OPERATOR(
+            query=query,
+            key=key,
+            value=value,
+            seq_positions=seq_positions_gpu,
+            scale=qk_scale,
+            split_k=split_k,
+        )
+
         return out, None
 
 
diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index 18ad70be4d..de38f6423b 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -300,7 +300,11 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         dtype = d.query.dtype
         if device_type not in cls.SUPPORTED_DEVICES:
             reasons.append(f"device={device_type} (supported: {cls.SUPPORTED_DEVICES})")
-        if device_type == "cuda" and not _built_with_cuda and (torch.version.hip is None):
+        if (
+            device_type == "cuda"
+            and not _built_with_cuda
+            and (torch.version.hip is None)
+        ):
             reasons.append("xFormers wasn't build with CUDA support")
         if device_type == "cuda":
             device_capability = torch.cuda.get_device_capability(d.device)
diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 0af07b3e95..aaabe5c8cf 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -81,21 +81,23 @@ def _dispatch_fw_priority_list(
 ) -> Sequence[Type[AttentionFwOpBase]]:
     if torch.version.cuda:
         priority_list_ops = deque(
-           [
-              flash.FwOp,
-              triton.FwOp,
-              cutlass.FwOp,
-              small_k.FwOp,
-           ])
+            [
+                flash.FwOp,
+                triton.FwOp,
+                cutlass.FwOp,
+                small_k.FwOp,
+            ]
+        )
         if _is_cutlass_fwd_faster_than_flash(inp):
             priority_list_ops.remove(cutlass.FwOp)
             priority_list_ops.appendleft(cutlass.FwOp)
     else:
         priority_list_ops = deque(
-           [
-              triton.FwOp,
-              ck.FwOp,
-           ])
+            [
+                triton.FwOp,
+                ck.FwOp,
+            ]
+        )
     if _is_triton_fwd_fastest(inp):
         priority_list_ops.remove(triton.FwOp)
         priority_list_ops.appendleft(triton.FwOp)
@@ -106,7 +108,9 @@ def _dispatch_fw_priority_list(
         if not mqa_or_gqa:
             # With multiquery, cutlass is sometimes faster than decoder
             # but it's not currently clear when.
-            priority_list_ops.appendleft(decoder.FwOp if torch.version.cuda else ck_decoder.FwOp)
+            priority_list_ops.appendleft(
+                decoder.FwOp if torch.version.cuda else ck_decoder.FwOp
+            )
         # Split-KV is useful with MQA
         # for short Q-seqlen / long K-seqlen
         if mqa_or_gqa and inp.query.shape[1] <= 32 and inp.key.shape[1] >= 256:

From 3b33c5d5dfc0957c15d083b698d093b905b91ff0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 6 Feb 2024 02:00:09 +0000
Subject: [PATCH 430/837] fix flake8 suggestions

---
 setup.py                                      |  2 +-
 tests/test_ck_7.py                            | 22 ++++-----
 tests/test_mem_eff_attention.py               | 17 +++----
 tests/test_mem_eff_attention_ck_discarded.py  | 13 ++---
 tests/test_mqa_forward_ck_tiled_discarded.py  | 10 ++--
 .../benchmark_mem_eff_atttention_mqa.py       | 16 ++++---
 xformers/benchmarks/utils.py                  | 47 -------------------
 xformers/ops/fmha/ck.py                       | 14 +++---
 xformers/ops/fmha/ck_splitk.py                |  1 -
 9 files changed, 44 insertions(+), 98 deletions(-)

diff --git a/setup.py b/setup.py
index 59867a8052..14462cf745 100644
--- a/setup.py
+++ b/setup.py
@@ -240,7 +240,7 @@ def get_extensions():
         os.path.join(extensions_dir, "swiglu", "**", "*.cpp"), recursive=True
     )
 
-    ## avoid the temporary .cu file under xformers/csrc/attention/hip_fmha are included
+    # avoid the temporary .cu file under xformers/csrc/attention/hip_fmha are included
     source_cuda = glob.glob(os.path.join(extensions_dir, "*.cu"), recursive=False)
     source_cuda += glob.glob(
         os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True
diff --git a/tests/test_ck_7.py b/tests/test_ck_7.py
index 6f61249450..7477c3f70e 100644
--- a/tests/test_ck_7.py
+++ b/tests/test_ck_7.py
@@ -3,14 +3,11 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
-import math
 import random
 from typing import List, Optional, Sequence, Tuple, Type, TypeVar
 
 import pytest
 import torch
-from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
 from xformers.ops import fmha
@@ -404,7 +401,8 @@ def create_attn_bias(
             # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
             #       with the data read by one-thread
             # make sure it also works if the first columns are partially masked out
-            ## attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
+            #
+            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
 
         if requires_grad:
             attn_bias.requires_grad_(True)
@@ -743,7 +741,7 @@ def test_backward(
     if k % 8 != 0 or kv % 8 != 0:
         pytest.skip("head-dim length must be an even value for CK-FlashAttention-1")
 
-    ## BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
+    # BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
     if (
         bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
         and q_len <= kv_len
@@ -755,9 +753,9 @@ def test_backward(
     if k != kv:
         pytest.skip("k same as kv is not well tested by CK-FlashAttention-1")
 
-    ## attn_bias_requires_grad = (
-    ##    random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
-    ##)
+    # attn_bias_requires_grad = (
+    #    random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
+    # )
     attn_bias_requires_grad = False
 
     query, key, value, attn_bias = create_tensors(
@@ -798,10 +796,10 @@ def test_backward(
     )
 
     grad_out = torch.ones_like(out)
-    ##if grad_out_contiguous is False:
-    ##    grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
-    ##        None, None, :
-    ##    ].expand_as(out)
+    # if grad_out_contiguous is False:
+    #    grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
+    #        None, None, :
+    #    ].expand_as(out)
 
     out.backward(grad_out)
 
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index ab4442f774..4a460ca3c1 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -414,16 +414,16 @@ def attn_bias_group(group: int):
     def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         p_slice = q_whole @ k_slice.transpose(-2, -1)
         p_slice += attn_bias_slice
-        m = torch.max(p_slice, dim=-1, keepdim=True).values
-        p_slice_scaled = p_slice - m
+        row_max = torch.max(p_slice, dim=-1, keepdim=True).values
+        p_slice_scaled = p_slice - row_max
         p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
         s = torch.exp(p_slice_scaled)
-        l = torch.sum(s, dim=-1, keepdim=True)
+        row_sumexp = torch.sum(s, dim=-1, keepdim=True)
         attn_slice = s @ v_slice
         return {
             "attn_slice": attn_slice,
-            "row_max": m,
-            "row_lse": l,
+            "row_max": row_max,
+            "row_sumexp": row_sumexp,
         }
 
     splits = list(zip(k_split, v_split, attn_bias_split))
@@ -434,12 +434,12 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     # reduce out over split-k slices
 
     global_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
-    global_sumexp = torch.zeros_like(slices[0]["row_lse"])
+    global_sumexp = torch.zeros_like(slices[0]["row_sumexp"])
 
     for s in slices:
         local_out = s["attn_slice"]
         local_max = s["row_max"]
-        local_sumexp = s["row_lse"]
+        local_sumexp = s["row_sumexp"]
 
         log_alpha = -torch.abs(local_max - global_max)
         alpha = torch.exp(log_alpha)
@@ -456,7 +456,7 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
     return out
 
 
-## this interface assumes the tensor is in BMHK, but q and k/v might have different number of heads
+# this interface assumes the tensor is in BMHK, but q and k/v might have different number of heads
 def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
     assert q.ndim == 4
 
@@ -777,6 +777,7 @@ def test_mqa_forward(
         err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
         # Ensure we free memory to avoid OOMs
         del query, key, value, attn_bias, inputs
+        assert False, err_msg
 
     out = xformers.ops.memory_efficient_attention_forward(
         query, key, value, attn_bias, op=op
diff --git a/tests/test_mem_eff_attention_ck_discarded.py b/tests/test_mem_eff_attention_ck_discarded.py
index 2c91ad1d9c..2879e6946a 100644
--- a/tests/test_mem_eff_attention_ck_discarded.py
+++ b/tests/test_mem_eff_attention_ck_discarded.py
@@ -16,7 +16,6 @@
 import xformers.ops
 from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
-from xformers.ops.fmha import ALL_BW_OPS, ALL_FW_OPS
 from xformers.ops.fmha.common import AttentionOpBase
 from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
 
@@ -390,12 +389,12 @@ def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
         p_slice_scaled = p_slice - m
         p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
         s = torch.exp(p_slice_scaled)
-        l = torch.sum(s, dim=-1, keepdim=True)
+        l1 = torch.sum(s, dim=-1, keepdim=True)
         attn_slice = s @ v_slice
         return {
             "attn_slice": attn_slice,
             "row_max": m,
-            "row_lse": l,
+            "row_lse": l1,
         }
 
     splits = list(zip(k_split, v_split, attn_bias_split))
@@ -767,7 +766,7 @@ def test_backward(
         kv,
     ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    ## ToDo: reopen bfloat16 for testing
+    # ToDo: reopen bfloat16 for testing
     if dtype is torch.bfloat16:
         pytest.skip(
             "Temporarily disabled bfloat16 as we are still improving the accuracy of the results"
@@ -942,9 +941,9 @@ def _vec_binom_test(x, n, p):
 def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
     if op == fmha.ck.FwOp:
         mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
-        ## rand_uniform is an int32 tensor
+        # rand_uniform is an int32 tensor
         rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
-        ##mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
+        # mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
         mask = (rand_uniform <= int((1.0 - p) * 255.0)).to(torch.float32)
         mask = mask.reshape(batch_size, q_len, kv_len)
     else:
@@ -1013,8 +1012,6 @@ def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias
 
 
 def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
-    if dtype is torch.bfloat16 and compute_capability < (8, 0):
-        pytest.skip("bf16 requires Sm80")
     if not op.is_available():
         pytest.skip()
 
diff --git a/tests/test_mqa_forward_ck_tiled_discarded.py b/tests/test_mqa_forward_ck_tiled_discarded.py
index a1823dfd61..c40bd57086 100644
--- a/tests/test_mqa_forward_ck_tiled_discarded.py
+++ b/tests/test_mqa_forward_ck_tiled_discarded.py
@@ -3,20 +3,15 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
-import math
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
+from typing import Sequence, Type, TypeVar
 
 import pytest
 import torch
-from scipy.stats import binomtest
-from torch.utils.checkpoint import checkpoint
 
 import xformers.ops
 from xformers.attn_bias_utils import create_attn_bias
 from xformers.ops import fmha
 from xformers.ops.common import get_xformers_operator
-from xformers.ops.fmha.common import AttentionOpBase
 
 from .utils import assert_allclose
 
@@ -34,7 +29,7 @@
     fmha.ck.FwOp,
 ]
 
-### ck_check_op is temporarily used to check ck-tiled availability
+# ck_check_op is temporarily used to check ck-tiled availability
 ck_check_op = get_xformers_operator("is_ck_tiled_used")
 use_ck_tiled = ck_check_op()
 
@@ -193,6 +188,7 @@ def test_mqa_forward(
         err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
         # Ensure we free memory to avoid OOMs
         del query, key, value, attn_bias, inputs
+        assert False, err_msg
 
     out = xformers.ops.memory_efficient_attention_forward(
         query, key, value, attn_bias, op=op
diff --git a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
index ae6f11b15e..4e4c47e380 100644
--- a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
+++ b/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
@@ -18,7 +18,8 @@
 
 torch.backends.cuda.matmul.allow_tf32 = False
 
-## this interface assumes the tensor is in BMHK, but q and k/v might has different number of heads
+
+# this interface assumes the tensor is in BMHK, but q and k/v might has different number of heads
 def ref_attention_mqa(
     q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None
 ):
@@ -90,7 +91,7 @@ def attn_bias_head(head: int):
     return attn @ v
 
 
-## ref_attention_bmhk is completely the same as used by test_forward_ck_tiled.py
+# ref_attention_bmhk is completely the same as used by test_forward_ck_tiled.py
 def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
     assert q.ndim == 4
 
@@ -124,9 +125,9 @@ def T(t):
     (1, 1024, 1024, 64, 8, 64),
     (1, 1024, 1024, 8, 1, 64),
     (1, 1024, 1024, 4, 4, 64),
-    ##*sorted(itertools.product([1, 2], [2048, 4096], [2048, 4096], [4, 8], [1, 2], [128])),
-    ##*sorted(
-    ##    itertools.product([16], [128, 512], [512, 1024], [16], [2, 4], [64, 128])
+    # *sorted(itertools.product([1, 2], [2048, 4096], [2048, 4096], [4, 8], [1, 2], [128])),
+    # *sorted(
+    #    itertools.product([16], [128, 512], [512, 1024], [16], [2, 4], [64, 128])
     # ),
 ]
 
@@ -135,7 +136,8 @@ def T(t):
     xformers.ops.fmha.flash.FwOp,
     # TODO: Triton is not stable: it can trigger Illegal Memory Accesses
     # and its performance varies a lot between runs.
-    ##xformers.ops.fmha.triton.FwOp,
+    #
+    # xformers.ops.fmha.triton.FwOp,
 ]
 
 
@@ -199,7 +201,7 @@ def mem_eff_attention_fw(shape, num_threads: int, attn_bias_type, dropout_p, dty
         dtype=dtype,
         requires_grad=False,
         fmt="BMHK",
-        op=fmha.ck.FwOp,  ## only required as a refer op by create_attn_bias
+        op=fmha.ck.FwOp,  # only required as a refer op by create_attn_bias
     )
     inp = fmha.Inputs(query=q, key=k, value=v, attn_bias=bias, p=dropout_p)
 
diff --git a/xformers/benchmarks/utils.py b/xformers/benchmarks/utils.py
index 0c94df1b67..31c6eb688b 100644
--- a/xformers/benchmarks/utils.py
+++ b/xformers/benchmarks/utils.py
@@ -445,53 +445,6 @@ def benchmark_main_helper(benchmark_fn, cases: List[Dict[str, Any]], **kwargs) -
     )
 
 
-def benchmark_main_helper2(
-    name: str,
-    functions,
-    fw: bool = False,
-    bw: bool = False,
-    cuda_graph: bool = True,
-    **kwargs,
-) -> None:
-    assert fw or bw
-
-    def handle_case(**case) -> Iterator[benchmark.Timer]:
-        for k, benchmark_cls in functions.items():
-            benchmark_object = benchmark_cls(**case, bw=bw)
-            label = benchmark_object.label
-            label += "fw" if fw else ""
-            label += "bw" if bw else ""
-
-            def run_one():
-                if fw:
-                    benchmark_object.fw()
-                if bw:
-                    benchmark_object.bw()
-
-            if cuda_graph:
-                run_one()
-                benchmark_object = benchmark_cls(**case, bw=bw)
-                g = torch.cuda.CUDAGraph()
-                with torch.cuda.graph(g):
-                    run_one()
-
-                def run_one():
-                    g.replay()
-
-            yield benchmark.Timer(
-                stmt="fn()",
-                globals={
-                    "fn": run_one,
-                },
-                label=label,
-                description=k,
-                sub_label=benchmark_object.sub_label,
-            )
-
-    handle_case.__name__ = name
-    benchmark_main_helper(handle_case, **kwargs)
-
-
 def benchmark_run_and_compare(
     benchmark_fn,
     cases: List[Dict[str, Any]],
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index e6750e88e6..625caa7e64 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -47,17 +47,17 @@ def _get_seqlen_info(
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
-        ##attn_bias.k_seqinfo.to(inp.query.device)
-        ##attn_bias.q_seqinfo.to(inp.query.device)
+        # attn_bias.k_seqinfo.to(inp.query.device)
+        # attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
-        ##max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
+        # max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
     else:
         seqstart_k = None
         seqstart_q = None
         max_seqlen_q = -1
-        ##max_seqlen_k = -1
+        # max_seqlen_k = -1
 
     return (
         seqstart_k,
@@ -156,7 +156,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
 # checking the availability of ck-tiled is necessary since ck-tiled does not
 # have the same functionalities as old-CK
 def is_ck_tiled() -> bool:
-    ### ck_check_op is temporarily used to check ck-tiled availability
+    # ck_check_op is temporarily used to check ck-tiled availability
     ck_check_op = get_xformers_operator("is_ck_tiled_used")
     return ck_check_op()
 
@@ -394,7 +394,7 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
-        ##LowerTriangularFromBottomRightMask,
+        # LowerTriangularFromBottomRightMask,
         # TODO: Still some infs/nans in the BW pass for
         # local + causal
         # LowerTriangularFromBottomRightLocalAttentionMask,
@@ -403,7 +403,7 @@ class BwOp(AttentionBwOpBase):
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        ##attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        # attn_bias.BlockDiagonalCausalLocalAttentionMask,
     }
     SUPPORTS_ATTN_BIAS_GRAD = True
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 63bdb1528b..87db094b22 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -103,7 +103,6 @@ def apply(
         cls, inp: Inputs, needs_gradient: bool
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         attn_bias = inp.attn_bias
-        seq_len = None
         q, k, v = inp.get_qkv_in_bmghk()
 
         if attn_bias is not None:

From 0a9c933f4896053fb7e2c8e23c5cf07739a1a779 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 6 Feb 2024 02:10:11 +0000
Subject: [PATCH 431/837] add license headers and reapply black

---
 xformers/ops/fmha/ck_decoder.py | 8 ++++++--
 xformers/ops/fmha/ck_splitk.py  | 5 +++++
 2 files changed, 11 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 14e6ba09ab..0da84d4412 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -1,4 +1,8 @@
-# TODO(max): add a proper copyright header
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
 from typing import Any, List, Optional, Set, Tuple
 
 import torch
@@ -69,7 +73,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             padding = attn_bias.k_seqinfo.padding
             bsz = d.key.shape[1] // padding
             num_queries = d.query.shape[1] // bsz
-            
+
             if q_starts != list(range(0, 1 + bsz, num_queries)):
                 reasons.append("expect to have same num_queries in each batch")
             if bsz != len(q_starts) - 1:
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 87db094b22..249edd533c 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -1,3 +1,8 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+
 from typing import Any, List, Optional, Set, Tuple
 
 import torch

From 28d3672973f7e7778237246531ca861243cdbbef Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 6 Feb 2024 16:05:44 +0000
Subject: [PATCH 432/837] Tiny update to rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 6d36a7e97b..f2593d53af 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -57,7 +57,7 @@ jobs:
 
     - name: Run python tests
       run: |
-        pytest -rpfs /xformers/tests/test_mem_eff_attention_ck.py | tee test_mem_eff_attention_ck.log
+        pytest -rpfs /xformers/tests/test_mem_eff_attention.py | tee test_mem_eff_attention.log
     
     - name: Archive logs
       uses: actions/upload-artifact@v3

From 12fb41c2460909285102426ca9ab52162725d64b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 6 Feb 2024 20:08:59 +0000
Subject: [PATCH 433/837] Add conditional compiling for cuda-depending codes in
 ROCM

---
 xformers/csrc/attention/matmul.cpp         | 2 ++
 xformers/csrc/attention/sddmm.cpp          | 2 ++
 xformers/csrc/attention/sparse_softmax.cpp | 2 ++
 xformers/csrc/attention/spmm.cpp           | 2 ++
 xformers/csrc/swiglu/swiglu_op.cpp         | 2 ++
 xformers/csrc/swiglu/swiglu_packedw.cpp    | 2 ++
 6 files changed, 12 insertions(+)

diff --git a/xformers/csrc/attention/matmul.cpp b/xformers/csrc/attention/matmul.cpp
index 2841912639..e5c7deb1d4 100644
--- a/xformers/csrc/attention/matmul.cpp
+++ b/xformers/csrc/attention/matmul.cpp
@@ -35,8 +35,10 @@ at::Tensor matmul_with_mask(
 }
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::matmul_with_mask(Tensor a, Tensor b, Tensor mask) -> Tensor"));
+#endif
 }
 
 TORCH_LIBRARY_IMPL(xformers, CPU, m) {
diff --git a/xformers/csrc/attention/sddmm.cpp b/xformers/csrc/attention/sddmm.cpp
index 7b5e7e3307..f4b810b0af 100644
--- a/xformers/csrc/attention/sddmm.cpp
+++ b/xformers/csrc/attention/sddmm.cpp
@@ -9,6 +9,8 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::sddmm_sputnik(Tensor a, Tensor b, Tensor row_indices, Tensor row_offsets, Tensor column_indices) -> Tensor"));
+#endif
 }
diff --git a/xformers/csrc/attention/sparse_softmax.cpp b/xformers/csrc/attention/sparse_softmax.cpp
index 826e3641e8..074e670e3f 100644
--- a/xformers/csrc/attention/sparse_softmax.cpp
+++ b/xformers/csrc/attention/sparse_softmax.cpp
@@ -9,8 +9,10 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::sparse_softmax_sputnik(int m, int n, Tensor row_indices, Tensor values, Tensor row_offsets, Tensor column_indices) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::sparse_softmax_backward_sputnik(int m, int n, Tensor row_indices, Tensor values, Tensor gradient, Tensor row_offsets, Tensor column_indices) -> Tensor"));
+#endif
 }
diff --git a/xformers/csrc/attention/spmm.cpp b/xformers/csrc/attention/spmm.cpp
index fbe7e1bf9c..06271e6c09 100644
--- a/xformers/csrc/attention/spmm.cpp
+++ b/xformers/csrc/attention/spmm.cpp
@@ -9,6 +9,8 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::spmm_sputnik(Tensor b, Tensor row_indices, Tensor values, Tensor row_offsets, Tensor column_indices, int m) -> Tensor"));
+#endif
 }
diff --git a/xformers/csrc/swiglu/swiglu_op.cpp b/xformers/csrc/swiglu/swiglu_op.cpp
index a8880acf6a..6f1ef4d7ad 100644
--- a/xformers/csrc/swiglu/swiglu_op.cpp
+++ b/xformers/csrc/swiglu/swiglu_op.cpp
@@ -8,10 +8,12 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::dual_gemm_silu_identity_mul(Tensor x, Tensor w1, Tensor? b1, Tensor w2, Tensor? b2) -> (Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::silu_bw_fused(Tensor x1, Tensor x2, Tensor dx4) -> (Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::gemm_fused_operand_sum(Tensor a, Tensor b, Tensor out_mm, Tensor out_sum) -> (Tensor, Tensor)"));
+#endif
 }
diff --git a/xformers/csrc/swiglu/swiglu_packedw.cpp b/xformers/csrc/swiglu/swiglu_packedw.cpp
index 00fbef12a4..65e3e22a82 100644
--- a/xformers/csrc/swiglu/swiglu_packedw.cpp
+++ b/xformers/csrc/swiglu/swiglu_packedw.cpp
@@ -221,8 +221,10 @@ at::Tensor swiglu_packedw_cuda(
 } // namespace
 
 TORCH_LIBRARY(xformers, m) {
+#if !defined(USE_ROCM)
   m.def(
       "swiglu_packedw(Tensor x, Tensor w1w2, Tensor? b1b2, Tensor w3, Tensor? b3) -> Tensor");
+#endif
 }
 
 TORCH_LIBRARY_IMPL(xformers, Autograd, m) {

From a9d83c6cc0267ba3bfd0777fc1821e13db1a7aca Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 00:21:28 +0000
Subject: [PATCH 434/837] Update to benchmark scripts

---
 xformers/benchmarks/benchmark_attn_decoding.py |  8 ++++++--
 xformers/benchmarks/benchmark_core.py          | 12 +++++++-----
 xformers/benchmarks/benchmark_nystrom_utils.py |  4 +++-
 xformers/benchmarks/benchmark_sddmm.py         | 15 +++++++++------
 xformers/benchmarks/benchmark_swiglu.py        |  8 +++++---
 xformers/benchmarks/benchmark_transformer.py   |  6 ++++--
 6 files changed, 34 insertions(+), 19 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 31883008b7..abfb6ae62d 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -3,6 +3,7 @@
 # This source code is licensed under the BSD license found in the
 # LICENSE file in the root directory of this source tree.
 
+import sys
 
 from typing import Any
 
@@ -128,11 +129,14 @@ def fw(self) -> None:
     "pytorch": AttentionDecodingPyTorchRepeat,
     "ck": AttentionDecodingCK,
     "ck-decoder": AttentionDecodingCKDecoder,
-    "flash-decoding": AttentionDecodingFlashDecoding,
-    "triton_splitK": AttentionDecodingSplitKV,
     "ck_splitK": AttentionDecodingCKSplitKV,
 }
 
+if torch.version.cuda:
+    BENCHMARKS["flash-decoding"] = AttentionDecodingFlashDecoding
+
+if (sys.version_info.major, sys.version_info.minor) >= (3, 9): 
+    BENCHMARKS["triton_splitK"] = AttentionDecodingSplitKV
 
 try:
     import flash_attn
diff --git a/xformers/benchmarks/benchmark_core.py b/xformers/benchmarks/benchmark_core.py
index 97cdefa09a..ee14c4cb4b 100644
--- a/xformers/benchmarks/benchmark_core.py
+++ b/xformers/benchmarks/benchmark_core.py
@@ -251,8 +251,10 @@ def bench_bmm():
     compare = benchmark.Compare(results)
     compare.print()
 
-
-bench_sddmm()
-bench_matmul_with_mask()
-bench_softmax()
-bench_bmm()
+if torch.version.hip:
+    print("This benchmark could not be done on ROCM!")
+else:
+    bench_sddmm()
+    bench_matmul_with_mask()
+    bench_softmax()
+    bench_bmm()
diff --git a/xformers/benchmarks/benchmark_nystrom_utils.py b/xformers/benchmarks/benchmark_nystrom_utils.py
index 6f4b38c846..c85b034568 100644
--- a/xformers/benchmarks/benchmark_nystrom_utils.py
+++ b/xformers/benchmarks/benchmark_nystrom_utils.py
@@ -93,7 +93,9 @@ def iterative_pinv_analysis(
                 break
 
 
-if __name__ == "__main__":
+if torch.version.hip:
+    print("This benchmark could not be done on ROCM!")
+else:
     iterative_pinv_analysis()
     bench_inverse(iterative_pinv)
     bench_inverse(torch.linalg.pinv)
diff --git a/xformers/benchmarks/benchmark_sddmm.py b/xformers/benchmarks/benchmark_sddmm.py
index 693e4a6236..536fc5ef8e 100644
--- a/xformers/benchmarks/benchmark_sddmm.py
+++ b/xformers/benchmarks/benchmark_sddmm.py
@@ -109,9 +109,12 @@ def bench_sddmm(configs):
 
 results = []
 
-print("Swin Transformer")
-results += bench_sddmm(swin_t_config)
-print("ViT")
-results += bench_sddmm(vit_config)
-print("Basic cases")
-results += bench_sddmm(basic_config)
+if torch.version.hip:
+    print("This benchmark could not be done on ROCM!")
+else:
+    print("Swin Transformer")
+    results += bench_sddmm(swin_t_config)
+    print("ViT")
+    results += bench_sddmm(vit_config)
+    print("Basic cases")
+    results += bench_sddmm(basic_config)
diff --git a/xformers/benchmarks/benchmark_swiglu.py b/xformers/benchmarks/benchmark_swiglu.py
index b268d3f19e..a0c026fd5d 100644
--- a/xformers/benchmarks/benchmark_swiglu.py
+++ b/xformers/benchmarks/benchmark_swiglu.py
@@ -155,6 +155,8 @@ def benchmark_swiglu_bw(shape, dtype, bias: bool):
         sub_label=sub_label,
     )
 
-
-benchmark_main_helper(benchmark_swiglu, CASES, min_run_time=min_run_time)
-benchmark_main_helper(benchmark_swiglu_bw, CASES, min_run_time=min_run_time)
+if torch.version.hip:
+    print("This benchmark could not be done on ROCM!")
+else:
+    benchmark_main_helper(benchmark_swiglu, CASES, min_run_time=min_run_time)
+    benchmark_main_helper(benchmark_swiglu_bw, CASES, min_run_time=min_run_time)
diff --git a/xformers/benchmarks/benchmark_transformer.py b/xformers/benchmarks/benchmark_transformer.py
index 2a6070b62a..2243cacf40 100644
--- a/xformers/benchmarks/benchmark_transformer.py
+++ b/xformers/benchmarks/benchmark_transformer.py
@@ -152,5 +152,7 @@ def benchmark_transformer(model_info, dtype) -> Iterator[benchmark.Timer]:
             sub_label=model_name,
         )
 
-
-benchmark_main_helper(benchmark_transformer, CASES)
+if torch.version.hip:
+    print("This benchmark could not be done on ROCM!")
+else:
+    benchmark_main_helper(benchmark_transformer, CASES)

From 9ab383110e660b653faf018f49d623f6f3146d17 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 14:28:41 +0000
Subject: [PATCH 435/837] Rename the one script file

---
 ...m_eff_atttention_mqa.py => benchmark_mem_eff_attention_mqa.py} | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename xformers/benchmarks/{benchmark_mem_eff_atttention_mqa.py => benchmark_mem_eff_attention_mqa.py} (100%)

diff --git a/xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py b/xformers/benchmarks/benchmark_mem_eff_attention_mqa.py
similarity index 100%
rename from xformers/benchmarks/benchmark_mem_eff_atttention_mqa.py
rename to xformers/benchmarks/benchmark_mem_eff_attention_mqa.py

From 243dc6a0ef3907ab1903ca84f91ce72b36c70e41 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 15:07:21 +0000
Subject: [PATCH 436/837] Revert "Add conditional compiling for cuda-depending
 codes in ROCM"

This reverts commit 12fb41c2460909285102426ca9ab52162725d64b.
---
 xformers/csrc/attention/matmul.cpp         | 2 --
 xformers/csrc/attention/sddmm.cpp          | 2 --
 xformers/csrc/attention/sparse_softmax.cpp | 2 --
 xformers/csrc/attention/spmm.cpp           | 2 --
 xformers/csrc/swiglu/swiglu_op.cpp         | 2 --
 xformers/csrc/swiglu/swiglu_packedw.cpp    | 2 --
 6 files changed, 12 deletions(-)

diff --git a/xformers/csrc/attention/matmul.cpp b/xformers/csrc/attention/matmul.cpp
index e5c7deb1d4..2841912639 100644
--- a/xformers/csrc/attention/matmul.cpp
+++ b/xformers/csrc/attention/matmul.cpp
@@ -35,10 +35,8 @@ at::Tensor matmul_with_mask(
 }
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
-#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::matmul_with_mask(Tensor a, Tensor b, Tensor mask) -> Tensor"));
-#endif
 }
 
 TORCH_LIBRARY_IMPL(xformers, CPU, m) {
diff --git a/xformers/csrc/attention/sddmm.cpp b/xformers/csrc/attention/sddmm.cpp
index f4b810b0af..7b5e7e3307 100644
--- a/xformers/csrc/attention/sddmm.cpp
+++ b/xformers/csrc/attention/sddmm.cpp
@@ -9,8 +9,6 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
-#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::sddmm_sputnik(Tensor a, Tensor b, Tensor row_indices, Tensor row_offsets, Tensor column_indices) -> Tensor"));
-#endif
 }
diff --git a/xformers/csrc/attention/sparse_softmax.cpp b/xformers/csrc/attention/sparse_softmax.cpp
index 074e670e3f..826e3641e8 100644
--- a/xformers/csrc/attention/sparse_softmax.cpp
+++ b/xformers/csrc/attention/sparse_softmax.cpp
@@ -9,10 +9,8 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
-#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::sparse_softmax_sputnik(int m, int n, Tensor row_indices, Tensor values, Tensor row_offsets, Tensor column_indices) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::sparse_softmax_backward_sputnik(int m, int n, Tensor row_indices, Tensor values, Tensor gradient, Tensor row_offsets, Tensor column_indices) -> Tensor"));
-#endif
 }
diff --git a/xformers/csrc/attention/spmm.cpp b/xformers/csrc/attention/spmm.cpp
index 06271e6c09..fbe7e1bf9c 100644
--- a/xformers/csrc/attention/spmm.cpp
+++ b/xformers/csrc/attention/spmm.cpp
@@ -9,8 +9,6 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
-#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::spmm_sputnik(Tensor b, Tensor row_indices, Tensor values, Tensor row_offsets, Tensor column_indices, int m) -> Tensor"));
-#endif
 }
diff --git a/xformers/csrc/swiglu/swiglu_op.cpp b/xformers/csrc/swiglu/swiglu_op.cpp
index 6f1ef4d7ad..a8880acf6a 100644
--- a/xformers/csrc/swiglu/swiglu_op.cpp
+++ b/xformers/csrc/swiglu/swiglu_op.cpp
@@ -8,12 +8,10 @@
 #include <torch/types.h>
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
-#if !defined(USE_ROCM)
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::dual_gemm_silu_identity_mul(Tensor x, Tensor w1, Tensor? b1, Tensor w2, Tensor? b2) -> (Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::silu_bw_fused(Tensor x1, Tensor x2, Tensor dx4) -> (Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::gemm_fused_operand_sum(Tensor a, Tensor b, Tensor out_mm, Tensor out_sum) -> (Tensor, Tensor)"));
-#endif
 }
diff --git a/xformers/csrc/swiglu/swiglu_packedw.cpp b/xformers/csrc/swiglu/swiglu_packedw.cpp
index 65e3e22a82..00fbef12a4 100644
--- a/xformers/csrc/swiglu/swiglu_packedw.cpp
+++ b/xformers/csrc/swiglu/swiglu_packedw.cpp
@@ -221,10 +221,8 @@ at::Tensor swiglu_packedw_cuda(
 } // namespace
 
 TORCH_LIBRARY(xformers, m) {
-#if !defined(USE_ROCM)
   m.def(
       "swiglu_packedw(Tensor x, Tensor w1w2, Tensor? b1b2, Tensor w3, Tensor? b3) -> Tensor");
-#endif
 }
 
 TORCH_LIBRARY_IMPL(xformers, Autograd, m) {

From 3240ba19f2fb086ab51ebfc280e66bcb66b28416 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 16:05:57 +0000
Subject: [PATCH 437/837] Update to scripts

---
 tests/test_checkpoint.py                         |  8 +++++---
 xformers/benchmarks/LRA/run_tasks.py             | 16 ++++++++++------
 xformers/benchmarks/benchmark_attn_decoding.py   |  9 ++++-----
 .../benchmark_blocksparse_transformers.py        |  4 ++--
 xformers/benchmarks/benchmark_core.py            |  1 +
 xformers/benchmarks/benchmark_indexing.py        |  2 +-
 .../benchmarks/benchmark_mem_eff_attention.py    |  8 +++++---
 .../benchmarks/benchmark_mem_eff_attn_decoder.py |  8 +++++---
 xformers/benchmarks/benchmark_swiglu.py          |  1 +
 xformers/benchmarks/benchmark_transformer.py     |  1 +
 xformers/benchmarks/utils.py                     | 14 ++++++++------
 xformers/ops/fmha/ck.py                          |  6 +-----
 12 files changed, 44 insertions(+), 34 deletions(-)

diff --git a/tests/test_checkpoint.py b/tests/test_checkpoint.py
index 8e456d3454..722a3eb8cd 100644
--- a/tests/test_checkpoint.py
+++ b/tests/test_checkpoint.py
@@ -106,9 +106,11 @@ def test_checkpoint_with_grad(policy_fn, input_requires_grad, grad_mode):
     "op",
     [
         xformers.ops.MemoryEfficientAttentionFlashAttentionOp,
-        xformers.ops.MemoryEfficientAttentionCutlassOp
-        if torch.version.cuda
-        else xformers.ops.MemoryEfficientAttentionCkOp,
+        (
+            xformers.ops.MemoryEfficientAttentionCutlassOp
+            if torch.version.cuda
+            else xformers.ops.MemoryEfficientAttentionCkOp
+        ),
     ],
 )
 def test_checkpoint_attention(policy_fn, input_requires_grad, device, autocast, op):
diff --git a/xformers/benchmarks/LRA/run_tasks.py b/xformers/benchmarks/LRA/run_tasks.py
index e9d1f72843..41c5fbe55e 100644
--- a/xformers/benchmarks/LRA/run_tasks.py
+++ b/xformers/benchmarks/LRA/run_tasks.py
@@ -53,9 +53,11 @@ def build_model(args: argparse.Namespace, config: Dict) -> nn.Module:
 
     model = cast(
         pl.LightningModule,
-        ModelForSCDual(config[f"{task}"], attention_name)
-        if task == Task.Retrieval
-        else ModelForSC(config[f"{task}"], attention_name),
+        (
+            ModelForSCDual(config[f"{task}"], attention_name)
+            if task == Task.Retrieval
+            else ModelForSC(config[f"{task}"], attention_name)
+        ),
     )
 
     logging.info(model)
@@ -252,9 +254,11 @@ def benchmark(args):
 
     trainer = pl.Trainer(
         accelerator="gpu",
-        strategy=DDPStrategy(find_unused_parameters=args.debug)
-        if not args.skip_train
-        else None,
+        strategy=(
+            DDPStrategy(find_unused_parameters=args.debug)
+            if not args.skip_train
+            else None
+        ),
         accumulate_grad_batches=config_training["gradient_accumulation"],
         callbacks=[progress_bar, checkpoint_callback],
         detect_anomaly=args.debug,
diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index abfb6ae62d..3c30e57026 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -4,7 +4,6 @@
 # LICENSE file in the root directory of this source tree.
 
 import sys
-
 from typing import Any
 
 import torch
@@ -135,7 +134,7 @@ def fw(self) -> None:
 if torch.version.cuda:
     BENCHMARKS["flash-decoding"] = AttentionDecodingFlashDecoding
 
-if (sys.version_info.major, sys.version_info.minor) >= (3, 9): 
+if (sys.version_info.major, sys.version_info.minor) >= (3, 9):
     BENCHMARKS["triton_splitK"] = AttentionDecodingSplitKV
 
 try:
@@ -152,9 +151,9 @@ def fw(self) -> None:
                 v = v[:, :, :, 0]
             return flash_attn.flash_attn_func(q, k, v)
 
-    BENCHMARKS[
-        f"flash-attention@{flash_attn.__version__}"
-    ] = AttentionDecodingFlashAttention
+    BENCHMARKS[f"flash-attention@{flash_attn.__version__}"] = (
+        AttentionDecodingFlashAttention
+    )
 except ImportError:
     pass
 
diff --git a/xformers/benchmarks/benchmark_blocksparse_transformers.py b/xformers/benchmarks/benchmark_blocksparse_transformers.py
index f9cb72a15c..3cdd9a3692 100644
--- a/xformers/benchmarks/benchmark_blocksparse_transformers.py
+++ b/xformers/benchmarks/benchmark_blocksparse_transformers.py
@@ -60,7 +60,7 @@ def get_mask(MaskGenType, config, config_setter=[]):
 
     # Get the mask
     mask_generator = MaskGenType(mask_config)
-    for (key, value) in config_setter:
+    for key, value in config_setter:
         mask_generator.set_config_attr(key, value)
     if not mask_generator.is_valid_config():
         return None
@@ -73,7 +73,7 @@ def densify_mask(mask, config):
     seq_length = config.seq_length
     block_size = config.block_size
     dense_mask = torch.zeros(num_heads, seq_length, seq_length)
-    for (h, i, j) in zip(*mask.nonzero(as_tuple=True)):
+    for h, i, j in zip(*mask.nonzero(as_tuple=True)):
         dense_mask[
             h,
             i * block_size : (i + 1) * block_size,
diff --git a/xformers/benchmarks/benchmark_core.py b/xformers/benchmarks/benchmark_core.py
index ee14c4cb4b..2a4d675605 100644
--- a/xformers/benchmarks/benchmark_core.py
+++ b/xformers/benchmarks/benchmark_core.py
@@ -251,6 +251,7 @@ def bench_bmm():
     compare = benchmark.Compare(results)
     compare.print()
 
+
 if torch.version.hip:
     print("This benchmark could not be done on ROCM!")
 else:
diff --git a/xformers/benchmarks/benchmark_indexing.py b/xformers/benchmarks/benchmark_indexing.py
index ed1e71001f..353b9dba7d 100644
--- a/xformers/benchmarks/benchmark_indexing.py
+++ b/xformers/benchmarks/benchmark_indexing.py
@@ -111,7 +111,7 @@ def __init__(self, dtype, batches, D, keep_ratio, bw: bool) -> None:
 
         indices = []
         sources = []
-        for (B, seqlen) in batches:
+        for B, seqlen in batches:
             index = [i for i in range(B)]
             random.Random(B).shuffle(index)
             indices.append(
diff --git a/xformers/benchmarks/benchmark_mem_eff_attention.py b/xformers/benchmarks/benchmark_mem_eff_attention.py
index 5c5305a161..bbeb222648 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attention.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attention.py
@@ -113,9 +113,11 @@ class TritonFlashAttentionFwAutotuned(xformers.ops.fmha.triton.FwOp):
     (xformers.ops.fmha.ck.FwOp, xformers.ops.fmha.ck.BwOp),
     (
         TritonFlashAttentionFwAutotuned,
-        xformers.ops.fmha.cutlass.BwOp
-        if torch.version.cuda
-        else xformers.ops.fmha.ck.BwOp,
+        (
+            xformers.ops.fmha.cutlass.BwOp
+            if torch.version.cuda
+            else xformers.ops.fmha.ck.BwOp
+        ),
     ),
 ]
 
diff --git a/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py b/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
index 7616d702db..67698c87c4 100644
--- a/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
+++ b/xformers/benchmarks/benchmark_mem_eff_attn_decoder.py
@@ -60,9 +60,11 @@ def T(t):
 
 OPS = [
     xformers.ops.fmha.cutlass.FwOp if torch.version.cuda else xformers.ops.fmha.ck.FwOp,
-    xformers.ops.fmha.decoder.FwOp
-    if torch.version.cuda
-    else xformers.ops.fmha.ck_decoder.FwOp,
+    (
+        xformers.ops.fmha.decoder.FwOp
+        if torch.version.cuda
+        else xformers.ops.fmha.ck_decoder.FwOp
+    ),
 ]
 
 KV_SHAPES = [
diff --git a/xformers/benchmarks/benchmark_swiglu.py b/xformers/benchmarks/benchmark_swiglu.py
index a0c026fd5d..b283673347 100644
--- a/xformers/benchmarks/benchmark_swiglu.py
+++ b/xformers/benchmarks/benchmark_swiglu.py
@@ -155,6 +155,7 @@ def benchmark_swiglu_bw(shape, dtype, bias: bool):
         sub_label=sub_label,
     )
 
+
 if torch.version.hip:
     print("This benchmark could not be done on ROCM!")
 else:
diff --git a/xformers/benchmarks/benchmark_transformer.py b/xformers/benchmarks/benchmark_transformer.py
index 2243cacf40..4346af9c19 100644
--- a/xformers/benchmarks/benchmark_transformer.py
+++ b/xformers/benchmarks/benchmark_transformer.py
@@ -152,6 +152,7 @@ def benchmark_transformer(model_info, dtype) -> Iterator[benchmark.Timer]:
             sub_label=model_name,
         )
 
+
 if torch.version.hip:
     print("This benchmark could not be done on ROCM!")
 else:
diff --git a/xformers/benchmarks/utils.py b/xformers/benchmarks/utils.py
index 31c6eb688b..ef508661ac 100644
--- a/xformers/benchmarks/utils.py
+++ b/xformers/benchmarks/utils.py
@@ -263,9 +263,9 @@ def _benchmark_results_from_csv(filename: str) -> List[Tuple[Dict[str, Any], Any
             data.append(
                 (
                     {
-                        META_ALGORITHM: row["algorithm"]
-                        if row["algorithm"] != ""
-                        else None,
+                        META_ALGORITHM: (
+                            row["algorithm"] if row["algorithm"] != "" else None
+                        ),
                     },
                     measurement,
                 )
@@ -282,9 +282,11 @@ def _benchmark_results_to_csv(
             "label": r.task_spec.label,
             "num_threads": r.task_spec.num_threads,
             "algorithm": metadata.get(META_ALGORITHM, ""),
-            "description": r.task_spec.description
-            if r.task_spec.description in BASELINE_DESCRIPTIONS
-            else "",
+            "description": (
+                r.task_spec.description
+                if r.task_spec.description in BASELINE_DESCRIPTIONS
+                else ""
+            ),
             "runtime_us": int(1000 * 1000 * r.mean),
             "mem_use_mb": r.mem_use,
         }
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 625caa7e64..f43cb7905c 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -42,22 +42,18 @@ def _minimum_gemm_alignment(inp: Inputs) -> int:
 
 def _get_seqlen_info(
     inp: Inputs,
-) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], int, int]:
+) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], int]:
     attn_bias = inp.attn_bias
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
-        # attn_bias.k_seqinfo.to(inp.query.device)
-        # attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
-        # max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
     else:
         seqstart_k = None
         seqstart_q = None
         max_seqlen_q = -1
-        # max_seqlen_k = -1
 
     return (
         seqstart_k,

From 0c51af1953dcdd99763223cf838e2ea7c82b50bf Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 16:19:58 +0000
Subject: [PATCH 438/837] Change and add readme for tests and benchmarks

---
 tests/readme_test_on_rocm.txt                 | 35 ++++---------------
 .../benchmarks/readme_benchmark_on_rocm.txt   | 17 +++++++++
 2 files changed, 23 insertions(+), 29 deletions(-)
 create mode 100644 xformers/benchmarks/readme_benchmark_on_rocm.txt

diff --git a/tests/readme_test_on_rocm.txt b/tests/readme_test_on_rocm.txt
index 129bf3df08..c21fd0d587 100644
--- a/tests/readme_test_on_rocm.txt
+++ b/tests/readme_test_on_rocm.txt
@@ -1,36 +1,13 @@
 
-   1. pip install -e ./
+   1. #> pip install -e ./
 
-   2. verify testing for memory_efficient_attention inference 
+   2. verify testing for generic fmha inference on ROCM
 
-      pytest tests/test_mem_eff_attention_ck.py::test_forward
-      pytest tests/test_mem_eff_attention.py::test_forward -k ckF 
+      #> pytest tests/test_mem_eff_attention.py::test_forward  
 
-   3. The following tests in tests/memory_eff_attention_ck.py have passed
+   3. verify testing for decoder fmha inference on ROCM
 
-      * test_forward
-      * test_key_query_all_ones
-      * test_logsumexp
-      * test_attn_bias 
-        - test_attn_bias_causal
-        - test_attn_bias_torch_tensor 
-        - test_attn_bias_blockdiag
-        - test_attn_bias_blockdiag_batched
-        - test_attn_bias_blockdiag_crossattn_causal
-        - test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond
-        - test_attn_bias_blockdiag_crossattn_causal_with_prefix()
-        - test_attn_bias_padded
-        - test_attn_bias_from_seqlens
-        - test_attn_bias_blockdiag_doc
-      * test_unsupported_cpu
-      * test_unsupported_stride_lastdim
-      * test_unsupported_stride_alignment
-      * test_cuda_streams
-      * test_dropout
-      * test_backward
-      * test_decoder
+      #> pytest tests/test_mem_eff_attention.py::test_decoder
+      #> pytest tests/test_mem_eff_attention.py::test_splitk_decoder
 
-   4. verify testing for memory_efficient_attention forward (with dropout)
-
-      pytest tests/test_mem_eff_attention_ck.py::test_dropout
 
diff --git a/xformers/benchmarks/readme_benchmark_on_rocm.txt b/xformers/benchmarks/readme_benchmark_on_rocm.txt
new file mode 100644
index 0000000000..9ae61f5294
--- /dev/null
+++ b/xformers/benchmarks/readme_benchmark_on_rocm.txt
@@ -0,0 +1,17 @@
+
+
+    1. #> pip install -e ./
+
+    2. Benchmark for generic fmha inference on ROCM
+
+       #> python xformers/benchmarks/benchmark_mem_eff_attention.py
+
+    3. Benchmark for decoder fmha inference on ROCM
+
+       #> python xformers/benchmarks/benchmark_mem_eff_attn_decoder.py  
+
+    4. Other Benchmarks for fmha inference on ROCM
+
+       #> python xformers/benchmarks/benchmark_attn_decoding.py
+       #> python xformers/benchmarks/benchmark_mem_eff_attention_mqa.py
+

From f36c93be9d7d61346e331b9e63d3ee8dfa35c36c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 17:33:04 +0000
Subject: [PATCH 439/837] Remove the stuffs for supporting old ck

---
 setup.py                                      |  198 +-
 tests/test_checkpoint.py                      |    2 +-
 tests/test_mem_eff_attention.py               |   14 +-
 tests/test_mem_eff_attention_ck_discarded.py  | 2466 -----------------
 tests/test_mqa_forward_ck_tiled_discarded.py  |  212 --
 .../hip_fmha/attention_backward_generic.cpp   |  573 ----
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  125 -
 .../hip_fmha/attention_forward_generic.cpp    |  425 ---
 .../csrc/attention/hip_fmha/ck_align_switch.h |  151 -
 .../csrc/attention/hip_fmha/ck_bool_switch.h  |   29 -
 .../ck_fmha_backward_gemm_constants.h         |  196 --
 .../hip_fmha/ck_fmha_batched_backward.h       |  525 ----
 .../ck_fmha_batched_backward_bp16.cpp         |  113 -
 .../ck_fmha_batched_backward_fp16.cpp         |  113 -
 .../hip_fmha/ck_fmha_batched_forward.h        |  379 ---
 .../hip_fmha/ck_fmha_batched_forward_bp16.cpp |   63 -
 .../hip_fmha/ck_fmha_batched_forward_fp16.cpp |   63 -
 .../hip_fmha/ck_fmha_batched_infer.h          |  359 ---
 .../hip_fmha/ck_fmha_batched_infer_bp16.cpp   |   63 -
 .../hip_fmha/ck_fmha_batched_infer_fp16.cpp   |   63 -
 .../hip_fmha/ck_fmha_common_gemm_constants.h  |   28 -
 .../hip_fmha/ck_fmha_forward_gemm_constants.h |  110 -
 .../hip_fmha/ck_fmha_grouped_backward.h       |  525 ----
 .../ck_fmha_grouped_backward_bp16.cpp         |  113 -
 .../ck_fmha_grouped_backward_fp16.cpp         |  113 -
 .../hip_fmha/ck_fmha_grouped_forward.h        |  375 ---
 .../hip_fmha/ck_fmha_grouped_forward_bp16.cpp |   63 -
 .../hip_fmha/ck_fmha_grouped_forward_fp16.cpp |   63 -
 .../hip_fmha/ck_fmha_grouped_infer.h          |  359 ---
 .../hip_fmha/ck_fmha_grouped_infer_bp16.cpp   |   63 -
 .../hip_fmha/ck_fmha_grouped_infer_fp16.cpp   |   63 -
 .../hip_fmha/ck_fmha_infer_gemm_constants.h   |  106 -
 .../attention/hip_fmha/ck_fmha_op_helper.h    |   49 -
 .../csrc/attention/hip_fmha/ck_fmha_params.h  |  212 --
 .../csrc/attention/hip_fmha/ck_fmha_test.cpp  |   14 -
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |   14 -
 ..._bp16_masktype_0_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_bp16_masktype_0_with_attnbias.cpp |   14 -
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |   14 -
 ..._bp16_masktype_1_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_bp16_masktype_1_with_attnbias.cpp |   14 -
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |   14 -
 ..._bp16_masktype_2_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_bp16_masktype_2_with_attnbias.cpp |   14 -
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |   14 -
 ..._fp16_masktype_0_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_fp16_masktype_0_with_attnbias.cpp |   14 -
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |   14 -
 ..._fp16_masktype_1_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_fp16_masktype_1_with_attnbias.cpp |   14 -
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |   16 -
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |   14 -
 ..._fp16_masktype_2_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_fp16_masktype_2_with_attnbias.cpp |   14 -
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |   14 -
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |   13 -
 ..._forward_bp16_masktype_0_with_attnbias.cpp |   13 -
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |   13 -
 ..._forward_bp16_masktype_1_with_attnbias.cpp |   13 -
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |   13 -
 ..._forward_bp16_masktype_2_with_attnbias.cpp |   13 -
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |   13 -
 ..._forward_fp16_masktype_0_with_attnbias.cpp |   13 -
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |   13 -
 ..._forward_fp16_masktype_1_with_attnbias.cpp |   13 -
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |   13 -
 ..._forward_fp16_masktype_2_with_attnbias.cpp |   13 -
 ...ched_infer_bp16_masktype_0_no_attnbias.cpp |   14 -
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |   14 -
 ...ched_infer_bp16_masktype_1_no_attnbias.cpp |   14 -
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |   14 -
 ...ched_infer_bp16_masktype_2_no_attnbias.cpp |   14 -
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |   14 -
 ...ched_infer_fp16_masktype_0_no_attnbias.cpp |   14 -
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   14 -
 ...ched_infer_fp16_masktype_1_no_attnbias.cpp |   14 -
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   14 -
 ...ched_infer_fp16_masktype_2_no_attnbias.cpp |   14 -
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   14 -
 ...d_backward_bp16_masktype_0_no_attnbias.cpp |   14 -
 ..._bp16_masktype_0_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_bp16_masktype_0_with_attnbias.cpp |   14 -
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_bp16_masktype_1_no_attnbias.cpp |   14 -
 ..._bp16_masktype_1_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_bp16_masktype_1_with_attnbias.cpp |   14 -
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_bp16_masktype_2_no_attnbias.cpp |   14 -
 ..._bp16_masktype_2_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_bp16_masktype_2_with_attnbias.cpp |   14 -
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_fp16_masktype_0_no_attnbias.cpp |   14 -
 ..._fp16_masktype_0_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_fp16_masktype_0_with_attnbias.cpp |   14 -
 ...p16_masktype_0_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_fp16_masktype_1_no_attnbias.cpp |   14 -
 ..._fp16_masktype_1_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_fp16_masktype_1_with_attnbias.cpp |   14 -
 ...p16_masktype_1_with_attnbias_fp32_grad.cpp |   14 -
 ...d_backward_fp16_masktype_2_no_attnbias.cpp |   14 -
 ..._fp16_masktype_2_no_attnbias_fp32_grad.cpp |   14 -
 ...backward_fp16_masktype_2_with_attnbias.cpp |   14 -
 ...p16_masktype_2_with_attnbias_fp32_grad.cpp |   14 -
 ...ed_forward_bp16_masktype_0_no_attnbias.cpp |   13 -
 ..._forward_bp16_masktype_0_with_attnbias.cpp |   13 -
 ...ed_forward_bp16_masktype_1_no_attnbias.cpp |   13 -
 ..._forward_bp16_masktype_1_with_attnbias.cpp |   13 -
 ...ed_forward_bp16_masktype_2_no_attnbias.cpp |   13 -
 ..._forward_bp16_masktype_2_with_attnbias.cpp |   13 -
 ...ed_forward_fp16_masktype_0_no_attnbias.cpp |   13 -
 ..._forward_fp16_masktype_0_with_attnbias.cpp |   13 -
 ...ed_forward_fp16_masktype_1_no_attnbias.cpp |   13 -
 ..._forward_fp16_masktype_1_with_attnbias.cpp |   13 -
 ...ed_forward_fp16_masktype_2_no_attnbias.cpp |   13 -
 ..._forward_fp16_masktype_2_with_attnbias.cpp |   13 -
 ...uped_infer_bp16_masktype_0_no_attnbias.cpp |   14 -
 ...ed_infer_bp16_masktype_0_with_attnbias.cpp |   14 -
 ...uped_infer_bp16_masktype_1_no_attnbias.cpp |   14 -
 ...ed_infer_bp16_masktype_1_with_attnbias.cpp |   14 -
 ...uped_infer_bp16_masktype_2_no_attnbias.cpp |   14 -
 ...ed_infer_bp16_masktype_2_with_attnbias.cpp |   14 -
 ...uped_infer_fp16_masktype_0_no_attnbias.cpp |   14 -
 ...ed_infer_fp16_masktype_0_with_attnbias.cpp |   14 -
 ...uped_infer_fp16_masktype_1_no_attnbias.cpp |   14 -
 ...ed_infer_fp16_masktype_1_with_attnbias.cpp |   14 -
 ...uped_infer_fp16_masktype_2_no_attnbias.cpp |   14 -
 ...ed_infer_fp16_masktype_2_with_attnbias.cpp |   14 -
 xformers/ops/fmha/ck.py                       |  115 +-
 132 files changed, 112 insertions(+), 9713 deletions(-)
 delete mode 100644 tests/test_mem_eff_attention_ck_discarded.py
 delete mode 100644 tests/test_mqa_forward_ck_tiled_discarded.py
 delete mode 100644 xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_align_switch.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_bool_switch.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_fmha_params.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
 delete mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp

diff --git a/setup.py b/setup.py
index 14462cf745..312bf4d2df 100644
--- a/setup.py
+++ b/setup.py
@@ -278,132 +278,61 @@ def get_extensions():
         ),
     ]
 
-    if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "attention_forward_generic.cpp"
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "attention_backward_generic.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "attention_ck_rand_uniform.cpp"
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_infer_*.cpp"
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_infer_*.cpp"
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "ck_fmha_batched_forward_*.cpp"
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "ck_fmha_grouped_forward_*.cpp"
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "ck_fmha_batched_backward_*.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "ck_fmha_grouped_backward_*.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "instances", "ck_fmha_*.cpp"
-            ),
-            recursive=False,
-        )
-    else:
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "attention_forward_generic_ck_tiled.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "ck_tiled_fmha_batched_infer_*.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "ck_tiled_fmha_grouped_infer_*.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "ck_tiled_fmha_batched_forward_*.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "ck_tiled_fmha_grouped_forward_*.cpp",
-            ),
-            recursive=False,
-        )
-        source_hip += glob.glob(
-            os.path.join(
-                extensions_dir,
-                "attention",
-                "hip_fmha",
-                "instances_tiled",
-                "ck_tiled_fmha_*.cpp",
-            ),
-            recursive=False,
-        )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir,
+            "attention",
+            "hip_fmha",
+            "attention_forward_generic_ck_tiled.cpp",
+        ),
+        recursive=False,
+    )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir,
+            "attention",
+            "hip_fmha",
+            "ck_tiled_fmha_batched_infer_*.cpp",
+        ),
+        recursive=False,
+    )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir,
+            "attention",
+            "hip_fmha",
+            "ck_tiled_fmha_grouped_infer_*.cpp",
+        ),
+        recursive=False,
+    )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir,
+            "attention",
+            "hip_fmha",
+            "ck_tiled_fmha_batched_forward_*.cpp",
+        ),
+        recursive=False,
+    )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir,
+            "attention",
+            "hip_fmha",
+            "ck_tiled_fmha_grouped_forward_*.cpp",
+        ),
+        recursive=False,
+    )
+    source_hip += glob.glob(
+        os.path.join(
+            extensions_dir,
+            "attention",
+            "hip_fmha",
+            "instances_tiled",
+            "ck_tiled_fmha_*.cpp",
+        ),
+        recursive=False,
+    )
 
     source_hip += source_hip_decoder
 
@@ -497,19 +426,12 @@ def get_extensions():
             Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha"
         ]
 
-        if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
-            include_dirs += [
-                Path(this_dir) / "third_party" / "composable_kernel" / "include"
-            ]
-        else:
-            include_dirs += [
-                Path(this_dir) / "third_party" / "composable_kernel_tiled" / "include"
-            ]
+        include_dirs += [
+            Path(this_dir) / "third_party" / "composable_kernel_tiled" / "include"
+        ]
+
+        generator_flag = []
 
-        if os.getenv("FORCE_OLD_CK_KERNEL", "0") == "1":
-            generator_flag = []
-        else:
-            generator_flag = ["-DUSE_CK_TILED_KERNEL"]
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         extra_compile_args = {
             "cxx": ["-O3", "-std=c++17"] + generator_flag,
diff --git a/tests/test_checkpoint.py b/tests/test_checkpoint.py
index 722a3eb8cd..d01abee673 100644
--- a/tests/test_checkpoint.py
+++ b/tests/test_checkpoint.py
@@ -126,7 +126,7 @@ def test_checkpoint_attention(policy_fn, input_requires_grad, device, autocast,
     ):
         pytest.skip("FlashAttentionOp is not supported on ROCM!")
 
-    if op is xformers.ops.MemoryEfficientAttentionCkOp and op[0].IS_CK_TILED:
+    if op is xformers.ops.MemoryEfficientAttentionCkOp:
         pytest.skip("Gradience is currently not supported by ck-tiled!")
 
     class Attn(nn.Module):
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 4a460ca3c1..72d7db48af 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -745,7 +745,7 @@ def test_mqa_forward(
 
     device = torch.device("cuda")
 
-    if op is fmha.ck.FwOp and not op.IS_CK_TILED:
+    if op is fmha.ck.FwOp:
         pytest.skip("mqa/gqa is only supported with ck-tiled fmha")
 
     torch.manual_seed(B * M + N * K + Hq * Hkv + Kv)
@@ -845,7 +845,7 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if op is fmha.ck.FwOp and op.IS_CK_TILED:
+    if op is fmha.ck.FwOp:
         pytest.skip("logsumexp is not yet supported by ck-tiled fmha!")
 
     if op is fmha.triton_splitk.FwOp and (
@@ -1500,7 +1500,7 @@ def test_grad_checkpointing(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     if op is fmha.triton.FwOp:
         pytest.skip("Triton Flash Attention 2 doesn't support backward pass yet")
-    if op is fmha.ck.FwOp and op.IS_CK_TILED:
+    if op is fmha.ck.FwOp:
         pytest.skip("ck-tiled FMHA doesn't supported backward pass yet")
     if op is fmha.triton_splitk.FwOp and (
         sys.version_info.major,
@@ -2119,7 +2119,7 @@ def test_attn_bias_blockdiag_doc() -> None:
 
     from xformers.ops import fmha
 
-    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
+    if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
     K = 16
@@ -2567,7 +2567,7 @@ def test_empty_tensors_empty_query(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
+    if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
     if opFW is fmha.triton_splitk.FwOp and (
@@ -2598,7 +2598,7 @@ def test_empty_tensors_empty_kv(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
+    if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
     if opFW is fmha.triton_splitk.FwOp and (
@@ -2629,7 +2629,7 @@ def test_empty_tensors_empty_b(
     )
     opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
 
-    if torch.version.hip and fmha.ck.FwOp.IS_CK_TILED:
+    if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
     if opFW is fmha.triton_splitk.FwOp and (
diff --git a/tests/test_mem_eff_attention_ck_discarded.py b/tests/test_mem_eff_attention_ck_discarded.py
deleted file mode 100644
index 2879e6946a..0000000000
--- a/tests/test_mem_eff_attention_ck_discarded.py
+++ /dev/null
@@ -1,2466 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import math
-import random
-from functools import partial
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
-
-import pytest
-import torch
-import torch.nn.functional as F
-from torch.utils.checkpoint import checkpoint
-
-import xformers.ops
-from xformers.attn_bias_utils import create_attn_bias
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-from xformers.ops.fmha.dispatch import _dispatch_fw_priority_list
-
-from .utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-_types = [torch.float16, torch.bfloat16]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
-    fmha.ck.BwOp,
-]
-
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    for B in op._TEST_BATCH_SIZES:
-        for Mq in [32, 256]:
-            for Mkv in [32, 64, 256, 1024]:
-                for K in op._TEST_K:
-                    shapes.append((B, Mq, Mkv, 1, K, K))
-        Mq = 256
-        Mkv = 128
-        K = 32
-        H = 1
-        # Weird values of parameters
-        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
-            shapes.append((B, M, Mkv, H, K, K))
-            shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
-            if _K <= op.SUPPORTED_MAX_K:
-                shapes.append((B, Mq, Mkv, H, _K, _K))
-        # Different value for K / Kv
-        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-            for _K in [32, 36, 64, 256 + 8]:
-                shapes.append((B, Mq, Mkv, H, K, _K))
-                shapes.append((B, Mq, Mkv, H, _K, K))
-        # Exotic sizes
-        for K in op._TEST_K:
-            shapes.append((B, 16, 1024, H, K, K))
-            shapes.append((B, 1024, 16, H, K, K))
-        # Some number of heads
-        for H in [3, 5, 12]:
-            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
-    # Filter-out not supported shapes
-    shapes = [
-        shape
-        for shape in shapes
-        if len(
-            op.shape_not_supported_reasons(
-                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
-            )
-        )
-        == 0
-    ]
-    # Add some random shapes
-    if op in [
-        fmha.cutlass.FwOp,
-        fmha.cutlass.BwOp,
-        fmha.flash.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        found_count = 0
-        while found_count < 200:
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
-                continue
-            found_count += 1
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def make_id(op, device, dtype, bias_type, *shape):
-    return (
-        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-        f"-{'-'.join([str(s) for s in shape])}"
-    )
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if bias_type in {
-                            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-                            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
-                        }:
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-    return {
-        "argvalues": combination,
-        "ids": [make_id(*c) for c in combination],
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
-)
-
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 5:
-
-        def attn_bias_group(group: int):
-            if isinstance(attn_bias, torch.Tensor):
-                return attn_bias[:, group]
-            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    attn_bias._bias[:, group]
-                )
-            return attn_bias
-
-        return torch.stack(
-            [
-                ref_attention_bmhk(
-                    q[:, :, g],
-                    k[:, :, g],
-                    v[:, :, g],
-                    scale=scale,
-                    attn_bias=attn_bias_group(g),
-                )
-                for g in range(q.shape[2])
-            ],
-            dim=2,
-        )
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, scale=scale, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def ref_attention_splitk_bmhk(
-    q, k, v, attn_bias, scale=None, split_k=None, dtype=None
-) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention_splitk(
-        T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype
-    )
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def ref_attention_splitk(
-    q, k, v, attn_bias, scale=None, split_k=2, dtype=None
-) -> torch.Tensor:
-    if q.ndim == 5:
-
-        def attn_bias_group(group: int):
-            if isinstance(attn_bias, torch.Tensor):
-                return attn_bias[:, group]
-            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    attn_bias._bias[:, group]
-                )
-            return attn_bias
-
-        return torch.stack(
-            [
-                ref_attention_splitk_bmhk(
-                    q[:, :, g],
-                    k[:, :, g],
-                    v[:, :, g],
-                    attn_bias=attn_bias_group(g),
-                    split_k=split_k,
-                    dtype=dtype,
-                )
-                for g in range(q.shape[2])
-            ],
-            dim=2,
-        )
-
-    if q.ndim == 4:
-        return ref_attention_splitk_bmhk(
-            q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype
-        )
-    assert q.ndim == 3
-    if dtype is None:
-        dtype = torch.float32
-    q = q.to(dtype=dtype)
-    k = k.to(dtype=dtype)
-    v = v.to(dtype=dtype)
-
-    if scale is None:
-        scale = q.shape[-1] ** -0.5
-    assert not q.isnan().any()
-    q = q * scale
-    assert not q.isnan().any()
-
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-
-    split_size = k.size(-2) // split_k
-    split_config = {"dim": -2, "split_size_or_sections": split_size}
-    k_split = torch.split(k, **split_config)
-    v_split = torch.split(v, **split_config)
-    attn_bias_split = torch.split(
-        attn_bias_tensor, dim=-1, split_size_or_sections=split_size
-    )
-
-    def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
-        p_slice = q_whole @ k_slice.transpose(-2, -1)
-        p_slice += attn_bias_slice
-        m = torch.max(p_slice, dim=-1, keepdim=True).values
-        p_slice_scaled = p_slice - m
-        p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
-        s = torch.exp(p_slice_scaled)
-        l1 = torch.sum(s, dim=-1, keepdim=True)
-        attn_slice = s @ v_slice
-        return {
-            "attn_slice": attn_slice,
-            "row_max": m,
-            "row_lse": l1,
-        }
-
-    splits = list(zip(k_split, v_split, attn_bias_split))
-
-    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]), splits))
-    out = torch.zeros_like(q)
-
-    # reduce out over split-k slices
-
-    global_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
-    global_sumexp = torch.zeros_like(slices[0]["row_lse"])
-
-    for s in slices:
-        local_out = s["attn_slice"]
-        local_max = s["row_max"]
-        local_sumexp = s["row_lse"]
-
-        log_alpha = -torch.abs(local_max - global_max)
-        alpha = torch.exp(log_alpha)
-        alpha.nan_to_num_(1.0)
-
-        pick_new = local_max < global_max
-        new_coef = torch.where(pick_new, alpha, 1.0)
-        curr_coef = torch.where(pick_new, 1.0, alpha)
-
-        out = out * curr_coef + local_out * new_coef
-        global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
-        global_max = torch.max(local_max, global_max)
-    out /= global_sumexp
-    return out
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
-    tensor_with_grad: Optional[torch.Tensor] = None
-    if isinstance(attn_bias, torch.Tensor):
-        tensor_with_grad = attn_bias
-    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-        tensor_with_grad = attn_bias._bias
-    if tensor_with_grad is not None:
-        grad = tensor_with_grad.grad
-        if clear:
-            tensor_with_grad.grad = None
-        return grad
-    return None
-
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-    g: int = 1,
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-
-    mask_is_bottom_right = attn_bias_type is not None and issubclass(
-        attn_bias_type,
-        (
-            fmha.attn_bias.LowerTriangularFromBottomRightMask,
-            fmha.attn_bias.LowerTriangularFromBottomRightLocalAttentionMask,
-            fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            fmha.attn_bias.BlockDiagonalCausalLocalAttentionFromBottomRightMask,
-            fmha.attn_bias.BlockDiagonalCausalLocalAttentionMask,
-            fmha.attn_bias.LocalAttentionFromBottomRightMask,
-        ),
-    )
-    if mask_is_bottom_right and q_len > kv_len:
-        # Bottom-right attention and local-attention masks require q_len <= kv_len
-        kv_len = q_len
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype)
-    elif fmt == "BMHK":
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype)
-    else:
-        assert fmt == "BMGHK"
-        query = torch.randn((B, q_len, g, h, k), device=device, dtype=dtype)
-        key = torch.randn((B, kv_len, g, 1, k), device=device, dtype=dtype)
-        value = torch.randn((B, kv_len, g, 1, kv), device=device, dtype=dtype)
-
-    for x in [query, key, value]:
-        x.mul_(scale)
-
-    if fmt == "BMGHK":
-        # Expand - after the in-place mul
-        key = key.expand((B, kv_len, g, h, k))
-        value = value.expand((B, kv_len, g, h, k))
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            num_heads_groups=g,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("packed", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK" if packed else fmt,
-        **kwargs,
-    )
-
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                num_heads_groups=1,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        elif fmt == "BMHK":
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-        else:
-            assert False, f"Unsupport fmt {fmt} with packing"
-        assert not query.is_contiguous()
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("k_len", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 4])
-@pytest.mark.parametrize("kv_len", [128, 512])
-@pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("dtype", _types)
-def test_key_query_all_ones(dtype, q_len, kv_len, batch_size, k_len):
-    device = "cuda"
-    scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
-    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, op=(fmha.ck.FwOp, None)
-    )
-    # this should be equivalent to the average over value
-    ref = value.mean(1, keepdim=True).expand_as(query)
-
-    if dtype is torch.float16:
-        assert_allclose(out, ref, atol=1e-5)
-    else:
-        assert_allclose(out, ref, atol=1e-2)
-
-
-def _block_diag_reshape_lse(
-    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
-) -> torch.Tensor:
-    """LSE can be padded, let's remove the padding"""
-    parts = []
-    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
-        parts.append(slice[:, : end - start])
-    return torch.cat(parts, dim=1).unsqueeze(1)
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
-    )
-
-    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query,
-        key,
-        value,
-        op=op,
-        attn_bias=attn_bias,
-    )
-    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            tensor_bias = attn_bias.materialize(
-                (query.shape[0], 1, query.shape[1], key.shape[1]),
-                device=query.device,
-                dtype=torch.float32,
-            )
-        else:
-            assert isinstance(attn_bias, torch.Tensor)
-            tensor_bias = attn_bias
-        if tensor_bias.ndim == 4:
-            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
-        attn = attn + tensor_bias.float()
-    ref_lse = attn.logsumexp(-1)
-    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
-        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
-    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
-
-
-@cuda_only
-@pytest.mark.parametrize("op", [fmha.cutlass.FwOp, fmha.flash.FwOp])
-def test_logsumexp_mqa(op):
-    if not op.is_available():
-        pytest.skip("not available")
-
-    dtype = torch.float16
-    s = 3
-    query = torch.randn([1, 1, 32, 128], dtype=dtype, device="cuda") * s
-    key = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
-        -1, -1, 32, -1
-    )
-    value = (torch.randn([1, 16, 1, 128], dtype=dtype, device="cuda") * s).expand(
-        -1, -1, 32, -1
-    )
-    assert key.stride(2) == 0
-
-    _, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query,
-        key,
-        value,
-        op=op,
-    )
-    query, key, value = [x[0].transpose(0, 1) for x in [query, key, value]]
-    attn = (query.float() / query.shape[-1] ** 0.5) @ key.float().transpose(-2, -1)
-    ref_lse = attn.logsumexp(-1)
-    assert_allclose(lse[0, :, 0], ref_lse[:, 0], atol=2e-4)
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("grad_out_contiguous", [False, True])
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_backward(
-    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    grad_out_contiguous,
-    fmt,
-):
-    (
-        op_bw,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    # ToDo: reopen bfloat16 for testing
-    if dtype is torch.bfloat16:
-        pytest.skip(
-            "Temporarily disabled bfloat16 as we are still improving the accuracy of the results"
-        )
-
-    if k > 128 or kv > 128:
-        pytest.skip(
-            "head-dim length bigger than 128 is not supported by CK-FlashAttention"
-        )
-
-    if k % 2 != 0:
-        pytest.skip("head-dim length must be an even value for CK-FlashAttention")
-
-    if grad_out_contiguous is False:
-        pytest.skip(
-            "CK-FlashAttention requires grad_out and out have same lengths/strides"
-        )
-
-    attn_bias_requires_grad = (
-        random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
-    )
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        attn_bias_requires_grad=attn_bias_requires_grad,
-        fmt=fmt,
-    )
-
-    # To understand why we do this, check the comment on the
-    # `AttentionBwOpBase` class
-    scale = None
-    if op_bw.SUPPORTS_CUSTOM_SCALE and query.shape[-1] < 32:
-        scale = (1 / 32) ** 0.5
-    op_fw = (
-        sample_random_supported_fw(
-            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
-            seed=q_len * kv + kv_len * k,
-        )
-        if op_bw != fmha.ck.BwOp
-        else fmha.ck.FwOp
-    )
-    qkv = None
-
-    if (
-        fmt == "BMHK"
-        and query.shape[3] == value.shape[3]
-        and query.shape[1] == value.shape[1]
-    ):
-        qkv = torch.stack([query, key, value], 2)
-        qkv.requires_grad_(True)
-        # bm3hk -> 3 x bmhk
-        query, key, value = xformers.ops.unbind(qkv, 2)
-        assert not query.is_contiguous()
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
-        pytest.skip("inputs not supported")
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, scale=scale, op=(op_fw, op_bw)
-    )
-
-    grad_out = torch.randn_like(out)
-    if grad_out_contiguous is False:
-        grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
-            None, None, :
-        ].expand_as(out)
-
-    out.backward(grad_out)
-
-    if qkv is None and op_bw == fmha.cutlass.BwOp:
-        assert query.stride() == query.grad.stride()
-
-    grads = []
-    if qkv is None:
-        grads = [query.grad, key.grad, value.grad]
-        query.grad = None
-        key.grad = None
-        value.grad = None
-    else:
-        grads = [qkv.grad]
-        qkv.grad = None
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
-        if attn_bias_grad is not None:
-            grads.append(attn_bias_grad)
-
-    ref = ref_attention(query, key, value, attn_bias, scale=scale)
-    ref.backward(grad_out)
-
-    assert_allclose(
-        out.float(),
-        ref.float(),
-        "fw pass",
-        atol=op_fw.ERROR_ATOL[dtype],
-        rtol=op_fw.ERROR_RTOL[dtype],
-    )
-
-    del out
-    del grad_out
-    del ref
-
-    atol = op_bw.ERROR_ATOL[dtype]
-    rtol = op_bw.ERROR_RTOL[dtype]
-
-    grads_ref = []
-    grads_name = []
-    if qkv is None:
-        assert isinstance(query.grad, torch.Tensor)
-        assert isinstance(key.grad, torch.Tensor)
-        assert isinstance(value.grad, torch.Tensor)
-        grads_ref = [query.grad, key.grad, value.grad]
-        grads_name = ["query", "key", "value"]
-    else:
-        assert isinstance(qkv.grad, torch.Tensor)
-        grads_ref = [qkv.grad]
-        grads_name = ["qkv"]
-
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias)
-        if attn_bias_grad is not None:
-            grads_ref.append(attn_bias.grad)
-            grads_name.append("bias")
-
-    del query
-    del key
-    del value
-    del qkv
-
-    assert len(grads_ref) == len(
-        grads
-    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
-    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
-        assert_allclose(
-            calc_grad,
-            ref_grad,
-            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
-            atol=atol,
-            rtol=rtol,
-        )
-
-
-def _vec_binom_test(x, n, p):
-    """
-    vectorized implementation of scipy.stats.binom_test
-    this makes our tests much faster
-    reference: https://github.com/scipy/scipy/blob/v1.8.0/scipy/stats/_morestats.py#L2609-L2702
-    """
-    import numpy as np
-    from scipy.stats import distributions
-
-    x = np.atleast_1d(x)
-    d = distributions.binom.pmf(x, n, p)[:, None]
-    rerr = 1 + 1e-7
-    # x < p * n case
-    i = np.arange(np.ceil(p * n), n + 1)
-    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
-    pval1 = distributions.binom.cdf(x, n, p) + distributions.binom.sf(n - y, n, p)
-
-    # other case
-    i = np.arange(np.floor(p * n) + 1)
-    y = np.sum(distributions.binom.pmf(i, n, p) <= d * rerr, axis=1)
-    pval2 = distributions.binom.cdf(y - 1, n, p) + distributions.binom.sf(x - 1, n, p)
-
-    pval = np.where(x < p * n, pval1, pval2)
-    pval = np.minimum(1.0, pval)
-    return pval
-
-
-def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
-    if op == fmha.ck.FwOp:
-        mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
-        # rand_uniform is an int32 tensor
-        rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
-        # mask = (rand_uniform <= int((1.0-p)*65535.0)).to(torch.float32)
-        mask = (rand_uniform <= int((1.0 - p) * 255.0)).to(torch.float32)
-        mask = mask.reshape(batch_size, q_len, kv_len)
-    else:
-        mask = torch.empty((batch_size, q_len, kv_len), device=device)
-        mask = torch.ops.xformers._temp_dropout(mask, p)
-
-    return mask
-
-
-@cuda_only
-@pytest.mark.parametrize("attn_bias", [None, fmha.attn_bias.LowerTriangularMask()])
-@pytest.mark.parametrize("seed", [42, 124])
-@pytest.mark.parametrize("p", [0.3, 0.7])
-@pytest.mark.parametrize("k_len", [32])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 15, 32, 33, 65])
-@pytest.mark.parametrize("q_len", [2, 33])
-@pytest.mark.parametrize("op", ALL_FW_OPS, ids=list(map(lambda t: t.NAME, ALL_FW_OPS)))
-@pytest.mark.parametrize("dtype", [torch.half, torch.bfloat16])
-def test_dropout(dtype, op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
-    from scipy.stats import binomtest
-
-    device = "cuda"
-    scale = 0.05
-    query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
-    key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-
-    inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
-    if not op.supports(inputs_for_support_check):
-        del query, key, value, attn_bias
-        pytest.skip(f"{op.NAME}: unsupported input")
-
-    torch.manual_seed(seed)
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, p, op=(op, None)
-    )
-
-    torch.manual_seed(seed)
-    out2 = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, p, op=(op, None)
-    )
-
-    assert_allclose(out, out2, "dropout reproducibility")
-
-    torch.manual_seed(seed)
-    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
-    ref = ref_attention(query, key, value, attn_bias, mask, p)
-    assert_allclose(
-        out.float(), ref, atol=3e-3, rtol=5e-4
-    ), f"{(out - ref).abs().max()}"
-
-    num_trials = 1000
-    p_val_tol = 1e-6
-    keep_prob = 1 - p
-    masks = []
-    for i in range(num_trials):
-        mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
-        masks.append(mask.clone().cpu())
-    masks = torch.stack(masks, dim=0)
-    p_value = binomtest(int(masks.sum()), masks.numel(), p=keep_prob).pvalue
-    assert p_value > p_val_tol, p_value
-    masks = masks.sum(0).flatten()
-    p_values = _vec_binom_test(masks, num_trials, p=keep_prob)
-    assert all(p_values > p_val_tol)
-
-
-def _test_dropout_backward(q_len, kv_len, batch_size, k, p, op, dtype):
-    if not op.is_available():
-        pytest.skip()
-
-    scale = 3
-    device = "cuda"
-    query = torch.randn((batch_size, q_len, k), device=device, dtype=dtype) * scale
-    key = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
-    value = torch.randn((batch_size, kv_len, k), device=device, dtype=dtype) * scale
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    grad_out = torch.ones_like(query)
-
-    assert op.supports(fmha.Inputs(query=query, key=key, value=value, p=p))
-
-    seed = 42
-    torch.manual_seed(seed)
-    out = xformers.ops.memory_efficient_attention(query, key, value, p=p, op=(op, None))
-
-    out.backward(grad_out)
-
-    grad_q = query.grad
-    grad_k = key.grad
-    grad_v = value.grad
-
-    query.grad = None
-    key.grad = None
-    value.grad = None
-
-    torch.manual_seed(seed)
-    mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
-
-    ref = ref_attention(query, key, value, None, mask, p)
-    ref.backward(grad_out)
-
-    atol, rtol = (
-        fmha.AttentionBwOpBase.ERROR_ATOL[dtype],
-        fmha.AttentionBwOpBase.ERROR_RTOL[dtype],
-    )
-    assert_allclose(
-        grad_v,
-        value.grad,
-        "grad_v",
-        atol=atol,
-        rtol=rtol,
-    )
-    # TODO: Investigate why precision is worse
-    if dtype in [torch.float16, torch.bfloat16]:
-        atol = atol * 2 + 0.15
-        rtol = rtol * 2
-    assert_allclose(
-        grad_q,
-        query.grad,
-        "grad_q",
-        atol=atol,
-        rtol=rtol,
-    )
-    assert_allclose(
-        grad_k,
-        key.grad,
-        "grad_k",
-        atol=atol,
-        rtol=rtol,
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("p", [0.3, 0.7])
-@pytest.mark.parametrize("k", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 15, 32, 33])
-@pytest.mark.parametrize("q_len", [2, 33])
-def test_dropout_backward_small_k(q_len, kv_len, batch_size, k, p):
-    _test_dropout_backward(
-        q_len, kv_len, batch_size, k, p, op=fmha.small_k.FwOp, dtype=torch.float32
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
-@pytest.mark.parametrize("k", [16, 128, 256])
-@pytest.mark.parametrize("batch_size", [1, 2])
-@pytest.mark.parametrize("kv_len", [3, 248, 256])
-@pytest.mark.parametrize("q_len", [3, 248, 256])
-@pytest.mark.parametrize("dt", ["f16", "bf16", "f32"])
-def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
-    _test_dropout_backward(
-        q_len,
-        kv_len,
-        batch_size,
-        k,
-        p,
-        op=fmha.cutlass.FwOp,
-        dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("k_len", [32])
-@pytest.mark.parametrize("batch_size", [1])
-@pytest.mark.parametrize("kv_len", [3 * 32])
-@pytest.mark.parametrize("q_len", [3 * 32])
-def test_memory_efficient_attention_full_block_masked(q_len, kv_len, batch_size, k_len):
-    device = "cuda"
-    op_fw = fmha.small_k.FwOp
-    op_bw = fmha.small_k.BwOp
-
-    scale = 3
-    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
-    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-
-    # in this case, most of the blocks in a row get masked
-    attn_bias = torch.full((3, 32), float("-inf"), device=device)
-    attn_bias[:2, :4] = 0
-    attn_bias = attn_bias.flatten()[None, None, :].expand(1, q_len, -1)
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, op=(op_fw, op_bw)
-    )
-    ref = ref_attention(query, key, value, attn_bias)
-
-    assert_allclose(
-        out, ref, atol=op_fw.ERROR_ATOL[query.dtype], rtol=op_fw.ERROR_RTOL[query.dtype]
-    )
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    grad_out = torch.ones_like(query)
-
-    out = xformers.ops.memory_efficient_attention(query, key, value, attn_bias)
-    out.backward(grad_out)
-
-    grad_q = query.grad
-    grad_k = key.grad
-    grad_v = value.grad
-
-    query.grad = None
-    key.grad = None
-    value.grad = None
-
-    ref = ref_attention(query, key, value, attn_bias)
-    ref.backward(grad_out)
-
-    atol = op_bw.ERROR_ATOL[query.dtype]
-    rtol = op_bw.ERROR_RTOL[query.dtype]
-    assert_allclose(grad_q, query.grad, "grad_q", atol=atol, rtol=rtol)
-    assert_allclose(grad_k, key.grad, "grad_k", atol=atol, rtol=rtol)
-    assert_allclose(grad_v, value.grad, "grad_v", atol=atol, rtol=rtol)
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_lowlevel_api_shapes(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt):
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt=fmt
-    )
-    grad_out = torch.ones_like(query)
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query, key, value, attn_bias
-    )
-    assert out.ndim == query.ndim
-    dq, dk, dv = xformers.ops.memory_efficient_attention_backward(
-        grad_out, out, lse, query, key, value, attn_bias
-    )
-    assert dq.shape == query.shape
-    assert dk.shape == key.shape
-    assert dv.shape == value.shape
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_cuda_streams(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    if device != "cuda":
-        pytest.skip("Not CUDA")
-    bias_type = None
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ]
-    s_hipri = torch.cuda.Stream(priority=-1)
-    s_lopri = torch.cuda.Stream(priority=0)
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK"
-    )
-    torch.cuda.synchronize()
-    with torch.cuda.stream(s_lopri):
-        torch.cuda._sleep(100_000_000)  # wait 100m cycles
-        query *= 2
-    s_hipri.wait_stream(s_lopri)
-    with torch.cuda.stream(s_hipri):
-        # If the kernel is scheduled in the main stream
-        # `query * 2` has not been executed yet
-        out = xformers.ops.memory_efficient_attention(query, key, value, op=(op, None))
-    # Test that `s_lopri` is still sleeping
-    # and that `query *= 2` has not been executed yet
-    query2_main_stream = query * 2
-    torch.cuda.synchronize()
-    # TODO: Figure out why this is failing sometimes
-    # The sleep timer seems to be high enough already ...
-    # assert torch.allclose(query2_main_stream, query), "Need to increase sleep time"
-    del query2_main_stream
-
-    ref = ref_attention(query, key, value)
-    assert out.shape == ref.shape, out.shape
-
-    assert_allclose(
-        out.float(),
-        ref.float(),
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_custom_scale(opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
-    p = 0.0
-    scale = 0.1
-
-    (
-        op_bw,
-        device,
-        dtype,
-        _,
-        B,
-        q_len,
-        kv_len,
-        H,
-        k,
-        Kv,
-    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    torch.manual_seed(q_len + kv_len + k)
-    if device != "cuda":
-        pytest.skip("Not CUDA")
-
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
-    )
-    inputs = fmha.Inputs(
-        query=query, key=key, value=value, attn_bias=attn_bias, scale=scale
-    )
-    op_fw = sample_random_supported_fw(inputs, seed=q_len * k + kv_len * k)
-    grad_out = query.new_ones(B * H, q_len, Kv)
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    reasons = op_fw.not_supported_reasons(inputs)
-    if reasons:
-        pytest.skip(f"{op_fw.NAME}: unsupported ({'/'.join(reasons)})")
-    reasons = op_bw.not_supported_reasons(inputs)
-    if reasons:
-        pytest.skip(f"{op_bw.NAME}: unsupported ({'/'.join(reasons)})")
-
-    # NOTE: we still need to scale the inputs to not blowup
-    # the pre-softmax values (numerical stability)
-    s = k**-0.5
-    out = xformers.ops.memory_efficient_attention(
-        query * s, key, value, attn_bias, p, scale, op=(op_fw, op_bw)
-    )
-    out.backward(grad_out)
-    grad_q, grad_k, grad_v = query.grad, key.grad, value.grad
-    query.grad = key.grad = value.grad = None
-
-    ref = ref_attention(query * s, key, value, attn_bias, None, p, scale)
-    ref.backward(grad_out)
-    ref_grad_q, ref_grad_k, ref_grad_v = query.grad, key.grad, value.grad
-    query.grad = key.grad = value.grad = None
-
-    atol = op_fw.ERROR_ATOL[dtype]
-    rtol = op_fw.ERROR_RTOL[dtype]
-    assert_allclose(out.float(), ref.float(), "out", atol=atol, rtol=rtol)
-    atol = op_bw.ERROR_ATOL[dtype]
-    rtol = op_bw.ERROR_RTOL[dtype]
-    assert_allclose(grad_q, ref_grad_q, "grad_q", atol=atol, rtol=rtol)
-    assert_allclose(grad_k, ref_grad_k, "grad_k", atol=atol, rtol=rtol)
-    assert_allclose(grad_v, ref_grad_v, "grad_v", atol=atol, rtol=rtol)
-
-
-def apply_attention(query, key, value, attn_bias, op_fw, proj):
-    x = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias=attn_bias, op=(op_fw, None)
-    )
-    x = proj(x)
-    return x
-
-
-@pytest.mark.parametrize("use_reentrant", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_grad_checkpointing(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    use_reentrant,
-):
-    fmt = "BMHK"
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    bias_type = None
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    )
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt=fmt,
-    )
-    qkv = None
-
-    if (
-        fmt == "BMHK"
-        and query.shape[3] == value.shape[3]
-        and query.shape[1] == value.shape[1]
-    ):
-        qkv = torch.stack([query, key, value], 2)
-        qkv.requires_grad_(True)
-        # bm3hk -> 3 x bmhk
-        query, key, value = xformers.ops.unbind(qkv, 2)
-        assert not query.is_contiguous()
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    proj = torch.nn.Linear(kv, k, device=device, dtype=dtype)
-
-    x = query
-    for _ in range(5):
-        x = checkpoint(
-            apply_attention,
-            x,
-            key,
-            value,
-            attn_bias,
-            op,
-            proj,
-            use_reentrant=use_reentrant,
-        )
-    x.mean().backward()
-
-
-ALL_FW_OPS_NO_SMALLK = [op for op in ALL_FW_OPS if op is not fmha.small_k.FwOp]
-
-
-@pytest.mark.parametrize(
-    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
-)
-def test_unsupported_cpu(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 1, 1, 32])
-    with pytest.raises(ValueError):
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
-)
-def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 1, 32, 4], device="cuda", dtype=torch.float16).permute(
-        0, 3, 1, 2
-    )
-    try:
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-    except ValueError as e:
-        if "Only work on pre-MLIR triton for now" in str(e):
-            pytest.skip("Only work on pre-MLIR triton for now")
-        q = q.contiguous()
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "op", ALL_FW_OPS_NO_SMALLK, ids=[op.NAME for op in ALL_FW_OPS_NO_SMALLK]
-)
-def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
-    q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
-    try:
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-    except ValueError as e:
-        if "Only work on pre-MLIR triton for now" in str(e):
-            pytest.skip("Only work on pre-MLIR triton for now")
-        q = q.contiguous()
-        fmha.memory_efficient_attention(q, q, q, op=(op, None))
-
-
-def test_attn_bias_causal() -> None:
-    m = -math.inf
-    causal_mask = torch.tensor([[0, m], [0, 0], [0, 0]])
-    tensor_bias = torch.tensor([[1.0, 2.0], [3.0, 4.0], [5.0, 6.0]])
-
-    attn_bias = fmha.attn_bias.LowerTriangularMask()
-    assert_allclose(attn_bias.materialize(causal_mask.shape), causal_mask, "causal")
-    attn_bias = attn_bias.add_bias(tensor_bias)
-    assert_allclose(
-        attn_bias.materialize(causal_mask.shape),
-        tensor_bias + causal_mask,
-        "causal+tensor_bias",
-    )
-
-
-def test_attn_bias_torch_tensor() -> None:
-    tensor_bias = torch.tensor([[1.0, 2.0, 3.0], [3.0, 4.0, 5.0]])
-    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias)
-    m = -math.inf
-    causal_bias = torch.tensor([[0, m, m], [0, 0, m]])
-    assert_allclose(
-        attn_bias.materialize((2, 3)), causal_bias + tensor_bias, "tensor_bias+causal"
-    )
-
-
-def test_attn_bias_blockdiag() -> None:
-    queries = [
-        torch.randn([1, 3, 1, 8]),
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([1, 5, 1, 8]),
-    ]
-    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
-
-    # Verify mask
-    as_tensor = attn_bias.materialize((10, 10))
-    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 2 * 2 + 5 * 5
-    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
-    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1")
-    assert_allclose(as_tensor[5:, 5:], torch.zeros([5, 5]), "batch2")
-
-    # Verify we can split it back
-    queries2 = attn_bias.split(q)
-    assert len(queries) == len(queries2)
-    for q1, q2 in zip(queries, queries2):
-        assert_allclose(q1, q2)
-
-
-def test_attn_bias_blockdiag_batched() -> None:
-    queries = [
-        torch.randn([1, 3, 1, 8]),
-        torch.randn([3, 2, 1, 8]),
-        torch.randn([1, 5, 1, 8]),
-    ]
-    attn_bias, q = fmha.BlockDiagonalMask.from_tensor_list(queries)
-
-    # Verify mask
-    as_tensor = attn_bias.materialize((14, 14))
-    assert int((as_tensor != -math.inf).sum().item()) == 3 * 3 + 3 * 2 * 2 + 5 * 5
-    assert_allclose(as_tensor[0:3, 0:3], torch.zeros([3, 3]), "batch0")
-    assert_allclose(as_tensor[3:5, 3:5], torch.zeros([2, 2]), "batch1.0")
-    assert_allclose(as_tensor[5:7, 5:7], torch.zeros([2, 2]), "batch1.1")
-    assert_allclose(as_tensor[7:9, 7:9], torch.zeros([2, 2]), "batch1.2")
-    assert_allclose(as_tensor[9:, 9:], torch.zeros([5, 5]), "batch2")
-
-    # Verify we can split it back
-    queries2 = attn_bias.split(q)
-    assert len(queries) == len(queries2)
-    for q1, q2 in zip(queries, queries2):
-        assert_allclose(q1, q2)
-
-
-def test_attn_bias_blockdiag_crossattn_causal() -> None:
-    # Q / KV have different seqlen
-    list_q = [
-        torch.randn([1, 3, 1, 8]),
-        torch.randn([2, 1, 1, 8]),
-    ]
-    list_k = [
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([2, 3, 1, 8]),
-    ]
-
-    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
-        list_q, list_k
-    )
-
-    # Verify mask
-    as_tensor = attn_bias.materialize((q.shape[1], k.shape[1]))
-    assert int((as_tensor != -math.inf).sum().item()) == 3 * 2 + 2 * 3 * 1
-    assert_allclose(as_tensor[0:3, 0:2], torch.zeros([3, 2]), "batch0")
-    assert_allclose(as_tensor[3:4, 2:5], torch.zeros([1, 3]), "batch1.0")
-    assert_allclose(as_tensor[4:, 5:], torch.zeros([1, 3]), "batch1.1")
-
-    # Also test causal version
-    as_tensor = attn_bias.make_causal().materialize((q.shape[1], k.shape[1]))
-    assert_allclose(
-        as_tensor[3:4, 2:5],
-        fmha.attn_bias.LowerTriangularMask().materialize((1, 3)),
-        "batch1.0[causal]",
-    )
-
-    # Verify we can split it back
-    list_q2 = attn_bias.split_queries(q)
-    assert len(list_q) == len(list_q2)
-    for q1, q2 in zip(list_q, list_q2):
-        assert_allclose(q1, q2)
-    with pytest.raises(ValueError):
-        attn_bias.split_queries(k)
-    list_k2 = attn_bias.split_kv(k)
-    assert len(list_k) == len(list_k2)
-    for k1, k2 in zip(list_k, list_k2):
-        assert_allclose(k1, k2)
-
-
-def test_attn_bias_blockdiag_crossattn_causal_with_prefix_qk_cond() -> None:
-    list_q = [
-        torch.randn([1, 3, 1, 8]),
-    ]
-    list_k = [
-        torch.randn([1, 2, 1, 8]),
-    ]
-    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
-        list_q, list_k
-    )
-    with pytest.raises(ValueError):
-        attn_bias.make_causal_from_bottomright()
-
-
-def test_attn_bias_blockdiag_crossattn_causal_with_prefix() -> None:
-    # Q / KV have different seqlen
-    list_q = [
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([2, 2, 1, 8]),
-    ]
-    list_k = [
-        torch.randn([1, 2, 1, 8]),
-        torch.randn([2, 5, 1, 8]),
-    ]
-
-    attn_bias, q, k, _ = fmha.attn_bias.BlockDiagonalMask.from_tensor_lists_qkv(
-        list_q, list_k
-    )
-    as_tensor = attn_bias.make_causal_from_bottomright().materialize(
-        (q.shape[1], k.shape[1])
-    )
-    m = -math.inf
-    assert_allclose(
-        as_tensor[0:2, 0:2],
-        torch.tensor([[0, m], [0, 0]], dtype=torch.float32),
-        "batch1.1[causal_with_prefix]",
-    )
-    assert_allclose(
-        as_tensor[2:4, 2:7],
-        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
-        "batch2.1[causal_with_prefix]",
-    )
-    assert_allclose(
-        as_tensor[4:6, 7:12],
-        torch.tensor([[0, 0, 0, 0, m], [0, 0, 0, 0, 0]], dtype=torch.float32),
-        "batch2.2[causal_with_prefix]",
-    )
-
-
-@cuda_only
-def test_attn_bias_padded() -> None:
-    bsize, n_heads, d, padding = 8, 3, 8, 32
-
-    # Q / KV have different seqlen
-    k = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
-    k_seqlen = [5, 8, 7, 1, 9, 3, 12, 32]
-    other = bsize - 1
-    v = torch.randn((bsize, padding, n_heads, d), device="cuda", dtype=torch.float16)
-    n_q_first = 4
-    q = [
-        torch.randn((1, n_q_first, n_heads, d), device="cuda", dtype=torch.float16),
-        torch.randn((1, other, n_heads, d), device="cuda", dtype=torch.float16),
-    ]
-    q_cat = torch.cat([x.view(1, -1, n_heads, d) for x in q], dim=1)
-    q_seqlen = [n_q_first] + [1] * other
-
-    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=q_seqlen,
-        kv_seqlen=k_seqlen,
-        kv_padding=padding,
-    )
-
-    v = v.view(1, -1, n_heads, d)
-    k = k.view(1, -1, n_heads, d)
-
-    scores = (q_cat.transpose(1, 2) @ k.transpose(1, 2).transpose(2, 3)).float()
-    assert not scores.isnan().any()
-    mask = torch.full_like(scores, -float("inf"))
-    for i, (slen, qlen) in enumerate(zip(k_seqlen, q_seqlen)):
-        kseq_start = i * padding
-        qstart = sum(q_seqlen[:i])
-        mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen] = torch.triu(
-            mask[:, :, qstart : qstart + qlen, kseq_start : kseq_start + slen].float(),
-            diagonal=1 + slen - qlen,
-        ).float()
-
-    scores += mask
-    assert not scores.isnan().any()
-    # 1,3,10,8 @ 1,3,8,256 -> 1,3,10,256
-    scores = torch.nn.functional.softmax(scores, -1).half()
-    # torch.Size([1, 3, 3, 32]) @ torch.Size([1, 3, 32, 8])
-    output = scores @ v.transpose(1, 2)  # 1,3,10,256 @ 1,3,256, 8 -> 1,3,10,8
-    output = output.transpose(1, 2).contiguous()
-
-    fmha_output = fmha.memory_efficient_attention_forward(
-        q_cat, k, v, attn_bias, scale=1.0, op=fmha.ck.FwOp
-    )
-
-    # assert torch.allclose(output, fmha_output)
-    assert_allclose(
-        output,
-        fmha_output,
-        atol=fmha.cutlass.FwOp.ERROR_ATOL[torch.float16],
-        rtol=fmha.cutlass.FwOp.ERROR_RTOL[torch.float16],
-    )
-
-
-def _kv_heads_label(kv_heads: Optional[int]) -> str:
-    if kv_heads is None:
-        return ""
-    if kv_heads == 1:
-        return "mq"
-    return f"gqa{kv_heads}"
-
-
-@pytest.mark.parametrize("dtype", ["f32"])
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("n_heads", [16])
-@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
-@pytest.mark.parametrize("split_k", [1, 2, 4])
-def test_splitk_reference(
-    kv_heads: int, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
-):
-    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
-    torch.manual_seed(1)
-    d = 256
-    num_queries = 1
-    if kv_heads is not None and kv_heads > 1:
-        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
-        q_shape: Tuple[int, ...] = (
-            1,
-            bsz * num_queries,
-            kv_heads,
-            n_heads,
-            d,
-        )
-    else:
-        k_shape = (1, bsz * padding, n_heads, d)
-        q_shape = (1, bsz * num_queries, n_heads, d)
-
-    k = torch.rand(k_shape, dtype=dtype_).cuda()
-    k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
-    v = torch.rand_like(k)
-    q = torch.rand(q_shape, dtype=dtype_).cuda()
-    causal_diagonal = torch.tensor(  # TODO: make unnecessary
-        [i - 1 for i in k_seqlen], dtype=torch.int32
-    ).cuda()
-
-    if kv_heads is not None:
-        k = k[..., :1, :].expand(k_shape)
-        v = v[..., :1, :].expand(k_shape)
-
-    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[1] * bsz,
-        kv_seqlen=k_seqlen,
-        causal_diagonal=causal_diagonal,
-        kv_padding=padding,
-    )
-    ref_out = ref_attention(q, k, v, attn_bias)
-    splitk_out = ref_attention_splitk(q, k, v, attn_bias, None, split_k=split_k)
-    assert_allclose(
-        ref_out,
-        splitk_out,
-        atol=fmha.ck.FwOp.ERROR_ATOL[dtype_],
-        rtol=fmha.ck.FwOp.ERROR_RTOL[dtype_],
-    )
-
-
-@pytest.mark.parametrize("op", [fmha.ck_decoder.FwOp])
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
-@pytest.mark.parametrize("padding", [32, 4096])
-@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
-@pytest.mark.parametrize("d", [256])
-def test_decoder(
-    op,
-    n_heads: int,
-    kv_heads: Optional[int],
-    padding: int,
-    bsz: int,
-    dtype: str,
-    d: int,
-    dequant: bool = False,
-    num_queries: int = 1,
-) -> None:
-    # kv_heads = 1: multiquery
-    # kv_heads = None: neither MQA nor GQA
-    # kv_heads > 1: BMGHK
-    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float}[dtype]
-    tensor_options = {"dtype": dtype_, "device": "cuda"}
-    torch.manual_seed(1)
-    num_queries = 1
-    if kv_heads is not None and kv_heads > 1:
-        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
-        q_shape: Tuple[int, ...] = (
-            1,
-            bsz * num_queries,
-            kv_heads,
-            n_heads,
-            d,
-        )
-    else:
-        k_shape = (1, bsz * padding, n_heads, d)
-        q_shape = (1, bsz * num_queries, n_heads, d)
-
-    k = torch.randn(k_shape, **tensor_options)
-    k_seqlen = torch.randint(num_queries, padding + 1, (bsz,)).tolist()
-    v = torch.randn_like(k)
-    q = torch.randn(q_shape, **tensor_options)
-    causal_diagonal = torch.tensor(  # TODO: make unnecessary
-        [i - 1 for i in k_seqlen], dtype=torch.int32
-    ).cuda()
-
-    if kv_heads is not None:
-        k = k[..., :1, :].expand(k_shape)
-        v = v[..., :1, :].expand(k_shape)
-
-    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[num_queries] * bsz,
-        kv_seqlen=k_seqlen,
-        causal_diagonal=causal_diagonal,
-        kv_padding=padding,
-    )
-    inp = fmha.Inputs(q, k, v, attn_bias=attn_bias)
-    if not_supported_reasons := op.not_supported_reasons(inp):
-        pytest.skip(f"{not_supported_reasons=}")
-
-    decoder_output = fmha.memory_efficient_attention_forward(q, k, v, attn_bias, op=op)
-
-    ref_output = ref_attention(q, k, v, attn_bias)
-
-    assert_allclose(
-        decoder_output.float(),
-        ref_output,
-        atol=fmha.ck_decoder.FwOp.ERROR_ATOL[dtype_] * 4,
-        rtol=fmha.ck_decoder.FwOp.ERROR_RTOL[dtype_],
-    )
-
-
-@pytest.mark.parametrize(
-    "op", [fmha.ck_splitk.FwOp_S1, fmha.ck_splitk.FwOp_S2, fmha.ck_splitk.FwOp_S4]
-)
-@pytest.mark.parametrize("dtype", ["f32"])
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("n_heads", [16])
-@pytest.mark.parametrize("d", [256])
-@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1), (32, 1), (4096, 8)])
-def test_splitk_decoder(
-    op,
-    kv_heads: Optional[int],
-    n_heads: int,
-    padding: int,
-    bsz: int,
-    dtype: str,
-    d: int,
-) -> None:
-    # no quantized impl compared to cuda
-    test_decoder(
-        op,
-        kv_heads=kv_heads,
-        n_heads=n_heads,
-        padding=padding,
-        bsz=bsz,
-        dtype=dtype,
-        d=d,
-    )
-
-
-def test_attn_bias_from_seqlens() -> None:
-    bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens([3, 5, 1])
-    out = bias.split(torch.randn([1, 3 + 5 + 1, 16]))
-    assert len(out) == 3
-    assert tuple(out[0].shape) == (1, 3, 16)
-
-
-@cuda_only
-def test_attn_bias_blockdiag_doc() -> None:
-    """IMPORTANT:
-    This is the example in the doc for `BlockDiagonalMask`.
-    If this example needs to be updated, please also update the doc
-    """
-    import torch
-
-    from xformers.ops import fmha
-
-    K = 16
-    dtype = torch.float16
-    device = "cuda"
-    list_x = [
-        torch.randn([1, 3, 1, K], dtype=dtype, device=device),
-        torch.randn([1, 6, 1, K], dtype=dtype, device=device),
-        torch.randn([1, 2, 1, K], dtype=dtype, device=device),
-    ]
-    attn_bias, x = fmha.BlockDiagonalMask.from_tensor_list(list_x)
-
-    linear = torch.nn.Linear(K, K * 3).to(device=device, dtype=dtype)  # type: ignore
-
-    q, k, v = linear(x).reshape([1, -1, 1, 3, K]).unbind(-2)
-    out = fmha.memory_efficient_attention(
-        q, k, v, attn_bias=attn_bias, op=(fmha.ck.FwOp, None)
-    )
-    list_out = attn_bias.split(out)
-    assert tuple(list_out[0].shape) == (1, 3, 1, K)
-
-
-@cuda_only
-class TestAttnBias:
-    @staticmethod
-    def create_tensors(
-        dtype,
-        B: int = 2,
-        Mq: int = 32,
-        Mkv: int = 32,
-        H: int = 3,
-        K: int = 16,
-        Kv: int = 16,
-    ) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-        return (
-            torch.randn([B, Mq, H, K], device="cuda", dtype=dtype) * 3,
-            torch.randn([B, Mkv, H, K], device="cuda", dtype=dtype) * 3,
-            torch.randn([B, Mkv, H, Kv], device="cuda", dtype=dtype) * 3,
-            torch.randn([B, H, Mq, Mkv], device="cuda", dtype=dtype) * 3,
-        )
-
-    @staticmethod
-    def pad_bias(bias: torch.Tensor) -> torch.Tensor:
-        align_to = 16
-        if (bias.shape[-1] % align_to) == 0:
-            return bias
-        pad_count = align_to - (bias.shape[-1] % align_to)
-        return torch.nn.functional.pad(bias, [0, pad_count])[:, :, :, : bias.shape[-1]]
-
-    def test_f16_biasf32(self) -> None:
-        q, k, v, bias = self.create_tensors(torch.float16)
-        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-        bias = bias.to(torch.float32)
-        with pytest.raises((ValueError, RuntimeError)):
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-
-    def test_f32_biasf16(self) -> None:
-        q, k, v, bias = self.create_tensors(torch.float32)
-        fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-        bias = bias.to(torch.float16)
-        with pytest.raises((ValueError, RuntimeError)):
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias)
-
-    @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
-    def test_wrong_alignment(self, dtype) -> None:
-        op = fmha.cutlass.FwOp
-        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
-        try:
-            fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=(op, None))
-            return
-        except (ValueError, RuntimeError):
-            pass
-        # This case is not supported, likely due to padding issues
-        # Let's make sure it works with padding
-        assert bias.ndim == 4, bias.shape
-        bias_padded = self.pad_bias(bias)
-        out = fmha.memory_efficient_attention(
-            q, k, v, attn_bias=bias_padded, op=(op, None)
-        ).float()
-        ref_out = ref_attention_bmhk(q, k, v, bias)
-        assert_allclose(
-            out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
-        )
-
-    def test_permuted_attn_bias(self) -> None:
-        op = fmha.cutlass.FwOp
-        dtype = torch.float16
-        q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=7)
-        bias = bias.transpose(-1, -2)  # now `stride(-1) != 1`
-        # Either it works, or it raises an exception
-        # but we should never get a CUDA error
-        try:
-            out = fmha.memory_efficient_attention(
-                q, k, v, attn_bias=bias, op=(op, None)
-            ).float()
-            ref_out = ref_attention_bmhk(q, k, v, bias)
-            assert_allclose(
-                out, ref_out, atol=op.ERROR_ATOL[dtype], rtol=op.ERROR_RTOL[dtype]
-            )
-        except (ValueError, RuntimeError):
-            pass
-
-
-SM_AND_SHMEM_KBYTES = [
-    # https://docs.nvidia.com/cuda/cuda-c-programming-guide/#features-and-technical-specifications-technical-specifications-per-compute-capability
-    (50, 64),
-    (60, 64),
-    (70, 96),
-    (75, 64),
-    (80, 163),
-    (86, 99),
-    (89, 99),
-    # (90, 227),
-]
-
-
-@cuda_only
-@pytest.mark.parametrize("dtype_str", ["f32", "f16", "bf16"])
-@pytest.mark.parametrize(
-    "sm_shmem",
-    SM_AND_SHMEM_KBYTES,
-    ids=[f"cc{sm}_shmem{shmem}kb" for sm, shmem in SM_AND_SHMEM_KBYTES],
-)
-def test_has_kernel_for(sm_shmem: Tuple[int, int], dtype_str: str) -> None:
-    dtype = {"f32": torch.float, "f16": torch.half, "bf16": torch.bfloat16}[dtype_str]
-    sm, shmem_kbytes = sm_shmem
-    if sm < 80 and dtype_str == "bf16":
-        return
-
-    for k in [16, 32, 64, 128, 256]:
-        assert torch.ops.xformers._has_cutlassF_kernel_for(
-            dtype, sm, shmem_kbytes * 1024, k
-        ), f"k={k}"
-        assert torch.ops.xformers._has_cutlassB_kernel_for(
-            dtype, sm, shmem_kbytes * 1024, k
-        ), f"k={k}"
-
-
-def test_window_size_materialize() -> None:
-    seqlens = [4, 6]
-    attn_bias = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-        q_seqlen=seqlens,
-        kv_seqlen=seqlens,
-    ).make_local_attention(2)
-    mask = attn_bias.materialize(
-        (1, 1, sum(seqlens), sum(seqlens)),
-        device="cpu",
-        dtype=torch.float32,
-    )
-    true_mask = torch.log(
-        torch.Tensor(
-            [
-                [
-                    [
-                        [1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0],
-                        [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0],
-                    ]
-                ]
-            ]
-        )
-    )
-    assert torch.all(mask == true_mask)
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "opFW_biasT",
-    [
-        (op, biasT)
-        for op in ALL_FW_OPS
-        for biasT in op.SUPPORTED_ATTN_BIAS_TYPES
-        if op.SUPPORTS_BMGHK
-    ],
-)
-def test_forward_gqa(opFW_biasT):
-    opFW, biasT = opFW_biasT
-    B_Mq_Mkv_H_K_Kv = (3, 512, 512, 16, 128, 128)
-    test_forward(
-        (
-            opFW,
-            "cuda",
-            torch.float16,
-            biasT,
-            *B_Mq_Mkv_H_K_Kv,
-        ),
-        packed=False,
-        fmt="BMGHK",
-        g=2,
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize(
-    "opBW",
-    [
-        fmha.flash.BwOp,
-        fmha.cutlass.BwOp,
-    ],
-)
-def test_backward_gqa(opBW):
-    H = 8
-    B_Mq_Mkv_H_K_Kv = (3, 512, 512, H, 128, 128)
-    dtype = torch.float16
-    query, key, value, attn_bias = create_tensors(
-        *(opBW, "cuda", dtype, type(None), *B_Mq_Mkv_H_K_Kv),
-        attn_bias_requires_grad=False,
-        fmt="BMHK",
-    )
-    op = (fmha.cutlass.FwOp, opBW)
-    key = key[:, :, :1].expand(-1, -1, H, -1)
-    value = value[:, :, :1].expand(-1, -1, H, -1)
-    key.requires_grad_(True)
-    out = fmha.memory_efficient_attention(query, key, value, attn_bias=attn_bias)
-    out_ref = ref_attention_bmhk(query, key, value, attn_bias=attn_bias)
-    assert_allclose(
-        out.float(),
-        out_ref.float(),
-        atol=op[0].ERROR_ATOL[dtype],
-        rtol=op[0].ERROR_RTOL[dtype],
-    )
-    out.backward(query)
-    dk = key.grad
-    key.grad = None
-    out_ref.backward(query)
-    assert_allclose(
-        dk.float(),
-        key.grad.float(),
-        atol=op[1].ERROR_ATOL[dtype],
-        rtol=op[1].ERROR_RTOL[dtype],
-    )
-
-
-@cuda_only
-@pytest.mark.parametrize("opFW", [op for op in ALL_FW_OPS if op.SUPPORTS_BMGHK])
-def test_forward_gqa_one_group(opFW):
-    dtype = torch.float16
-    B, Mq, Mkv, H, K = 3, 13, 16, 5, 128
-    q = torch.randn([B, Mq, 1, H, K], dtype=dtype, device="cuda") * 3
-    k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
-    v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
-
-    supported = opFW.supports(fmha.Inputs(q, k, v))
-    if not supported:
-        supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
-        assert supported == supported_bmhk
-        pytest.skip("not supported")
-    out = fmha.memory_efficient_attention_forward(q, k, v, op=opFW)
-    ref = ref_attention(q, k, v)
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=opFW.ERROR_ATOL[dtype],
-        rtol=opFW.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-"""
-@sm80_or_better_only
-def test_flash_gqa_wrong_strides() -> None:
-    op = (fmha.flash.FwOp, None)
-    device = "cuda"
-    B, Mq, Mkv, G, H, K = 3, 1, 512, 2, 8, 128
-    q = torch.empty((B, Mq, G, H, K), dtype=torch.float16, device=device)
-    kv = torch.empty((B, Mkv, G, H, K), dtype=torch.float16, device=device)
-    fmha.memory_efficient_attention(q, kv, kv, op=op)
-
-    kv = torch.empty((B, Mkv, H, G, K), dtype=torch.float16, device=device).permute(
-        0, 1, 3, 2, 4
-    )
-    with pytest.raises(ValueError):
-        fmha.memory_efficient_attention(q, kv, kv, op=op)
-
-    kv = torch.empty((B, Mkv, G, 1, K), dtype=torch.float16, device=device)
-    with pytest.raises(ValueError):
-        fmha.memory_efficient_attention(q, kv, kv, op=op)
-    kv = kv.expand(-1, -1, -1, H, K)
-    fmha.memory_efficient_attention(q, kv, kv, op=op)
-
-    kv = torch.empty((B, Mkv, G, H, 2 * K), dtype=torch.float16, device=device)[
-        :, :, :, :, :K
-    ]
-    fmha.memory_efficient_attention(q, kv, kv, op=op)
-"""
-
-
-def _dispatches_to_splitK(q, kv):
-    return (
-        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0]
-        is fmha.triton_splitk.FwOp
-    )
-
-
-def _dispatches_to_flash_decoding(q, kv):
-    return (
-        _dispatch_fw_priority_list(fmha.Inputs(q, kv, kv), False)[0] is fmha.flash.FwOp
-    )
-
-
-def test_dispatch_decoding_bmhk() -> None:
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 1, 128]), torch.empty([1, 2048, 1, 128])
-    ), "Should not use SplitK with 1 head (no tensorcores)"
-    assert _dispatches_to_flash_decoding(
-        torch.empty([1, 8, 32, 128]),
-        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
-    ), "Should use Flash-Decoding with BMHK MQA"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 32, 128]),
-        torch.empty([1, 2048, 32, 128]),
-    ), "Should not use SplitK when no TensorCores"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 128, 32, 128]),
-        torch.empty([1, 2048, 1, 128]).expand(-1, -1, 32, -1),
-    ), "Should not use SplitK if q seqlen is long"
-    assert not _dispatches_to_splitK(
-        torch.empty([128, 8, 32, 128]),
-        torch.empty([128, 2048, 1, 128]).expand(-1, -1, 32, -1),
-    ), "Should not use SplitK if B is big"
-
-
-def test_dispatch_decoding_bmghk() -> None:
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 1, 1, 128]), torch.empty([1, 2048, 1, 1, 128])
-    ), "Should not use SplitK with 1 head (no tensorcores)"
-    assert _dispatches_to_flash_decoding(
-        torch.empty([1, 8, 1, 32, 128]),
-        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should use Flash-Decoding with MQA"
-    assert _dispatches_to_flash_decoding(
-        torch.empty([1, 8, 4, 32, 128]),
-        torch.empty([1, 2048, 4, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should use Flash-Decoding with GQA"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 8, 1, 32, 128]),
-        torch.empty([1, 2048, 1, 32, 128]),
-    ), "Should not use SplitK when no TensorCores"
-    assert not _dispatches_to_splitK(
-        torch.empty([1, 128, 1, 32, 128]),
-        torch.empty([1, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should not use SplitK if q seqlen is long"
-    assert not _dispatches_to_splitK(
-        torch.empty([128, 8, 1, 32, 128]),
-        torch.empty([128, 2048, 1, 1, 128]).expand(-1, -1, -1, 32, -1),
-    ), "Should not use SplitK if B is big"
-
-
-shapes_triton_splitk = [
-    (1, 8, 2**16, 1, 128, 128),
-    (1, 4, 2**16, 1, 128, 128),
-    (1, 16, 2**16, 1, 128, 128),
-    (1, 16, 2**16, 1, 32, 32),
-    (1, 8, 1025, 1, 128, 128),
-    (2, 8, 4096, 1, 128, 128),
-    (10, 8, 2**16, 1, 128, 128),
-    (10, 15, 2**16, 1, 128, 128),
-    (1, 3, 2**16, 1, 128, 128),
-    (1, 3, 2**16 - 10, 1, 128, 128),
-    (2, 3, 73, 1, 128, 128),
-    (2, 7, 7328, 1, 128, 128),
-    (2, 7, 7328, 1, 120, 120),
-    (2, 7, 63, 1, 120, 120),
-]
-op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk = [
-    (fmha.triton_splitk.FwOp, "cuda", torch.float16, type(None), *s)
-    for s in shapes_triton_splitk
-] + [
-    (fmha.triton_splitk.FwOp, "cuda", torch.bfloat16, type(None), *s)
-    for s in shapes_triton_splitk
-]
-
-
-@pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk,
-    ids=[make_id(*c) for c in op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv_splitk],
-)
-@cuda_only
-def test_forward_splitk(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed=False,
-    fmt="BMHK",
-):
-    test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed=packed, fmt=fmt)
-
-
-@cuda_only
-@pytest.mark.parametrize("op", [fmha.triton_splitk.FwOp])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize(
-    "B_Mkv_H_K",
-    [
-        (1, 2**16, 3, 128),
-        (5, 53, 4, 64),
-    ],
-)
-def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
-    B, Mkv, H, K = B_Mkv_H_K
-    q = torch.randn([B, 1, H, K], dtype=dtype, device="cuda") * 3
-    k = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
-    v = torch.randn([B, Mkv, 1, K], dtype=dtype, device="cuda") * 3
-    k = k.expand(-1, -1, H, -1)
-    v = v.expand(-1, -1, H, -1)
-
-    if not op.supports(fmha.Inputs(q, k, v)):
-        pytest.skip("not supported")
-    out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
-    ref = ref_attention(q, k, v)
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_empty_tensors_empty_query(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK",
-    )
-    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
-
-    query = query[:, :0]
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
-    assert out.shape[1] == 0
-    out.backward(out)
-    # dK/dV should be all zeros
-    assert_allclose(key.grad, torch.zeros_like(key.grad), "key.grad")
-    assert_allclose(value.grad, torch.zeros_like(value.grad), "value.grad")
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_empty_tensors_empty_kv(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK",
-    )
-    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
-
-    key = key[:, :0]
-    value = value[:, :0]
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
-    assert_allclose(out, torch.zeros_like(out), "out")
-    out.backward(out)
-    # dQ should be all zeros
-    assert_allclose(query.grad, torch.zeros_like(query.grad), "query.grad")
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs
-def test_empty_tensors_empty_b(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-):
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        fmt="BMHK",
-    )
-    opFW = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv[0]
-
-    query, key, value = query[:0], key[:0], value[:0]
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-    out = xformers.ops.memory_efficient_attention(query, key, value, op=(opFW, None))
-    out.backward(out)
-
-
-def test_local_attn_bias() -> None:
-    mask = (
-        fmha.attn_bias.LocalAttentionFromBottomRightMask(window_left=1, window_right=2)
-        .materialize(shape=(4, 4))
-        .exp()
-    )
-
-    expected = torch.tensor(
-        [[1, 1, 1, 0], [1, 1, 1, 1], [0, 1, 1, 1], [0, 0, 1, 1]], dtype=torch.float32
-    )
-    assert (mask == expected).all().item()
-
-
-@cuda_only
-@pytest.mark.parametrize("cc", [60, 70, 80])
-@pytest.mark.parametrize("maxK", [32, 64, 128, 256])
-@pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
-@pytest.mark.parametrize(
-    "custom_mask_type",
-    [
-        fmha.cutlass._CustomMaskType.NoCustomMask,
-        fmha.cutlass._CustomMaskType.CausalFromTopLeft,
-        fmha.cutlass._CustomMaskType.CausalFromBottomRight,
-    ],
-)
-@pytest.mark.parametrize("window_size", [0, 3, 300])
-@pytest.mark.parametrize(
-    "num_queries,num_keys",
-    [
-        (30, 66),
-        (256, 256),
-        # Edge cases
-        (314, 320),
-        (32, 256),
-        (224, 226),
-        (5, 531),
-        (320, 332),  # for win_size=300
-        # Others
-        (256, 62),
-        (256, 63),
-        (256, 64),
-        (256, 65),
-        (256, 66),
-    ],
-)
-def test_cutlassB_iter_order(
-    dtype,
-    cc: int,
-    maxK: int,
-    num_queries: int,
-    num_keys: int,
-    custom_mask_type,
-    window_size,
-) -> None:
-    """
-    This tests some internals of the cutlassB kernel
-    We test the iteration across blocks of [queries, keys] to ensure
-    that we correctly:
-    * Iterate over all the blocks that should be iterated
-    * Do *not* iterate over blocks that are completely masked out
-    * Correctly compute the number of parallel blocks that will compute
-        the same block of dQ
-    .. and we test this across variable causal masks+local attention combinations
-    """
-    if (
-        window_size > 0
-        and custom_mask_type == fmha.cutlass._CustomMaskType.NoCustomMask
-    ):
-        pytest.skip("LocalAttention is only supported for causal")
-    get_iteration_data = partial(
-        torch.ops.xformers._cutlassB_iteration_data,
-        dtype=dtype,
-        cc=cc,
-        maxK=maxK,
-        num_queries=num_queries,
-        num_keys=num_keys,
-        custom_mask_type=custom_mask_type,
-        window_size=window_size,
-    )
-    bias = torch.zeros([num_queries, num_keys], dtype=torch.float32)
-    if custom_mask_type != fmha.cutlass._CustomMaskType.NoCustomMask:
-        bias = fmha.attn_bias._materialize_causal_mask(
-            (num_queries, num_keys),
-            dtype=torch.float32,
-            device="cpu",
-            window_size=None if window_size == 0 else window_size,
-            from_bottomright=(
-                custom_mask_type == fmha.cutlass._CustomMaskType.CausalFromBottomRight
-            ),
-        )
-
-    block_queries, block_keys = get_iteration_data()[:2]
-    mask_pooled = (
-        F.max_pool2d(bias.unsqueeze(0), (block_queries, block_keys), ceil_mode=True)
-        == 0
-    ).int()[0]
-    attn_computed = torch.zeros_like(mask_pooled)
-    for key_start in range(0, num_keys, block_keys):
-        it = 0
-        new_key_start = key_start
-        new_query_start = get_iteration_data(key_start=key_start)[2]
-        try:
-            expected_first_query = (
-                mask_pooled[:, key_start // block_keys].tolist().index(1)
-                * block_queries
-            )
-            assert (
-                new_query_start == expected_first_query
-            ), f"Wrong first query for K={key_start}: {new_query_start} (expected {expected_first_query})"
-        except ValueError:  # Nothing to compute in this column
-            pass
-
-        while new_key_start == key_start and new_query_start < num_queries:
-            query_start = new_query_start
-            attn_computed[query_start // block_queries, key_start // block_keys] += 1
-            # print(f"Compute [{query_start}, {key_start}]")
-
-            # Is there something to compute here?
-            assert mask_pooled[
-                query_start // block_queries, key_start // block_keys
-            ].item(), "Computing a block that is not needed!"
-            new_query_start, new_key_start = get_iteration_data(
-                key_start=key_start, query_start=query_start
-            )[3:5]
-            it += 1
-            assert it < num_queries, ""
-        assert (attn_computed == mask_pooled)[
-            :, key_start // block_keys
-        ].all(), "some blocks were not computed!"
-
-    # Now check that the number returned by `getNumParallelBlocksForQuery` is correct
-    for query_start in range(0, num_queries, block_queries):
-        num_parallel_blocks = get_iteration_data(
-            query_start=query_start, num_splits_key=num_keys
-        )[5]
-        num_actual = mask_pooled[query_start // block_queries].sum().item()
-        assert num_parallel_blocks == num_actual
-
-
-# end of file
diff --git a/tests/test_mqa_forward_ck_tiled_discarded.py b/tests/test_mqa_forward_ck_tiled_discarded.py
deleted file mode 100644
index c40bd57086..0000000000
--- a/tests/test_mqa_forward_ck_tiled_discarded.py
+++ /dev/null
@@ -1,212 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-from typing import Sequence, Type, TypeVar
-
-import pytest
-import torch
-
-import xformers.ops
-from xformers.attn_bias_utils import create_attn_bias
-from xformers.ops import fmha
-from xformers.ops.common import get_xformers_operator
-
-from .utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-_types = [torch.float16, torch.bfloat16]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-# ck_check_op is temporarily used to check ck-tiled availability
-ck_check_op = get_xformers_operator("is_ck_tiled_used")
-use_ck_tiled = ck_check_op()
-
-
-def ref_attention(
-    q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None, dtype=None
-):
-    if q.ndim == 4:
-        B, M, Hq, K = q.shape
-        _, N, Hkv, Kv = v.shape
-        nhead_ratio_qk = Hq // Hkv
-
-        def attn_bias_head(head: int):
-            if isinstance(attn_bias, torch.Tensor):
-                assert attn_bias.ndim == 4
-                _, H, _, _ = attn_bias.shape
-                assert H == Hq
-                bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-                return bias_bghmn[:, :, head]
-            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                assert attn_bias._bias.ndim == 4
-                _, H, _, _ = attn_bias._bias.shape
-                assert H == Hq
-                bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-
-                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    bias_bghmn[:, :, head]
-                )
-            return attn_bias
-
-        q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
-
-        return torch.stack(
-            [
-                ref_attention_bmhk(
-                    q_bmghk[:, :, :, h], k, v, attn_bias=attn_bias_head(h), dtype=dtype
-                )
-                for h in range(q_bmghk.shape[3])
-            ],
-            dim=3,
-        ).reshape((B, M, Hq, Kv))
-
-    assert q.ndim == 3
-    if dtype is None:
-        dtype = torch.float32
-    q = q.to(dtype=dtype)
-    k = k.to(dtype=dtype)
-    v = v.to(dtype=dtype)
-
-    scale = scale if scale is not None else (q.shape[-1] ** -0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=dtype,
-            )
-        else:
-            attn_bias_tensor = attn_bias.to(dtype=dtype)
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None, dtype=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale, dtype=dtype)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
-@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
-@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000)])
-@pytest.mark.parametrize("batches", [100, 64, 1])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize(
-    "attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask]
-)
-@pytest.mark.parametrize("op", ALL_FW_OPS)
-def test_mqa_forward(
-    op,
-    attn_bias_type,
-    dtype,
-    batches: int,
-    seqlen_kv: int,
-    seqlen_q: int,
-    nhead_kv: int,
-    nhead_q: int,
-    hdim_v: int,
-    hdim_k: int,
-):
-    B = batches
-    M = seqlen_q
-    N = seqlen_kv
-    Hq = nhead_q
-    Hkv = nhead_kv
-    K = hdim_k
-    Kv = hdim_v
-    nhead_ratio_qk = Hq // Hkv
-
-    device = torch.device("cuda")
-
-    if not use_ck_tiled:
-        pytest.skip("mqa/gqa is only supported with ck-tiled")
-
-    torch.manual_seed(B * M + N * K + Hq * Hkv + Kv)
-
-    scale = 3
-    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
-    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
-    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
-
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=Hq,
-            num_heads_groups=nhead_ratio_qk,
-            q_len=M,
-            kv_len=N,
-            dtype=dtype,
-            device=device,
-            requires_grad=False,
-            fmt="BMHK",
-            op=op,
-        )
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        assert False, err_msg
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
deleted file mode 100644
index 4a4a06d710..0000000000
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic.cpp
+++ /dev/null
@@ -1,573 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <cmath>
-#include <cstdlib>
-
-#include <ATen/Context.h>
-#include <ATen/ScalarOps.h>
-#include <ATen/Tensor.h>
-#include <ATen/TensorOperators.h>
-#include <c10/cuda/CUDAGuard.h>
-#include <torch/library.h>
-
-#include "ck_fmha_params.h"
-#include "ck_fmha_util.h"
-
-extern void batched_backward_fp16(
-    BatchedBackwardParams& param,
-    hipStream_t stream);
-extern void batched_backward_bp16(
-    BatchedBackwardParams& param,
-    hipStream_t stream);
-extern void grouped_backward_fp16(
-    GroupedBackwardParams& param,
-    hipStream_t stream);
-extern void grouped_backward_bp16(
-    GroupedBackwardParams& param,
-    hipStream_t stream);
-
-namespace {
-
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
-efficient_attention_backward_ck(
-    const at::Tensor& grad_out,
-    const at::Tensor& query,
-    const at::Tensor& key,
-    const at::Tensor& value,
-    const c10::optional<at::Tensor>& bias, // additive attention bias
-    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
-    // position of the first query token for batch $b
-    const c10::optional<at::Tensor>& seqstart_q,
-    // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
-    // position of the first key token for batch $b
-    const c10::optional<at::Tensor>& seqstart_k,
-    // (Mode 1MHK only) Maximum sequence length across batches
-    const c10::optional<int64_t> max_seqlen_q_,
-    const c10::optional<at::Tensor>& seqlen_k,
-    const at::Tensor& logsumexp,
-    const at::Tensor& out,
-    double dropout_p, // dropout probability
-    int64_t rng_seed, // seed using for generating random numbers for dropout
-    int64_t rng_offset, // offset into random number sequence
-    int64_t custom_mask_type,
-    const c10::optional<double> scale) {
-#ifdef XFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD
-  TORCH_CHECK(
-      false,
-      "MemoryEfficient build has been disabled at build time with "
-      "-DXFORMERS_MEM_EFF_ATTENTION_DISABLE_BACKWARD");
-#else
-  at::globalContext().alertNotDeterministic(
-      "mem_efficient_attention_backward_cutlass");
-
-  // ndim
-  TORCH_CHECK(query.dim() == grad_out.dim());
-  TORCH_CHECK(query.dim() == key.dim());
-  TORCH_CHECK(query.dim() == value.dim());
-  TORCH_CHECK(query.dim() == 4);
-
-  // batch size
-  TORCH_CHECK(query.size(0) == grad_out.size(0));
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // seqlen
-  TORCH_CHECK(key.size(1) == value.size(1));
-  TORCH_CHECK(query.size(1) == grad_out.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) % key.size(2) == 0);
-  TORCH_CHECK(key.size(2) == value.size(2));
-  TORCH_CHECK(query.size(2) == grad_out.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-  TORCH_CHECK(value.size(3) == grad_out.size(3));
-
-  // CK-FlashAttn requires out, grad_out to have same shapes
-  TORCH_CHECK(out.sizes() == grad_out.sizes());
-  TORCH_CHECK(out.strides() == grad_out.strides());
-
-  // last dim is contiguous, device is CUDA
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  // logsumexp should be completely contiguous
-  CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  TORCH_CHECK(
-      !(seqstart_q.has_value() && bias.has_value()),
-      "seqstart_q + bias not supported");
-
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
-    TORCH_CHECK(max_seqlen_q_.has_value());
-  }
-
-  bool use_fp32_qkv_grad = false;
-
-  if (const char* env_str = std::getenv("USE_FP32_QKV_GRAD")) {
-    use_fp32_qkv_grad = (std::stoi(env_str) > 0) ? true : false;
-  };
-
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t Hq = query.size(2);
-  int64_t Hkv = key.size(2);
-  int64_t K = query.size(3);
-  int64_t Kv = value.size(3);
-
-  auto opts = query.options();
-
-  at::Tensor grad_q, grad_k, grad_v, grad_bias;
-
-  if (query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
-      query.size(2) == key.size(2) &&
-      query.storage().is_alias_of(key.storage()) &&
-      query.storage().is_alias_of(value.storage())) {
-    // Create one big contiguous chunk for grad_q, grad_k, grad_v
-    // This is because q, k and v usually come from a single
-    // output of a linear layer that is chunked.
-    // Creating the gradients with the right layout saves us
-    // a `torch.cat` call in the backward pass
-    at::Tensor chunk;
-    if (use_fp32_qkv_grad)
-      chunk = at::empty({B, M, 3, Hq, K}, opts.dtype(at::kFloat));
-    else
-      chunk = at::empty({B, M, 3, Hq, K}, opts);
-    grad_q = chunk.select(2, 0);
-    grad_k = chunk.select(2, 1);
-    grad_v = chunk.select(2, 2);
-    grad_q.fill_(0);
-  } else if (
-      key.size(3) == value.size(3) &&
-      key.storage().is_alias_of(value.storage())) {
-    // Create one big contiguous chunk for grad_k, grad_v
-    // This is because k and v usually come from a single
-    // output of a linear layer that is chunked.
-    // Creating the gradients with the right layout saves us
-    // a `torch.cat` call in the backward pass
-    at::Tensor chunk;
-    if (use_fp32_qkv_grad)
-      chunk = at::empty({B, N, 2, Hkv, Kv}, opts.dtype(at::kFloat));
-    else
-      chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
-    grad_k = chunk.select(2, 0);
-    grad_v = chunk.select(2, 1);
-
-    if (use_fp32_qkv_grad)
-      grad_q = at::empty_strided(
-          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
-    else
-      grad_q =
-          at::empty_strided(query.sizes(), query.strides(), query.options());
-    grad_q.fill_(0);
-  } else {
-    if (use_fp32_qkv_grad) {
-      grad_q = at::empty_strided(
-          query.sizes(), query.strides(), query.options().dtype(at::kFloat));
-      grad_k = at::empty_strided(
-          key.sizes(), key.strides(), key.options().dtype(at::kFloat));
-      grad_v = at::empty_strided(
-          value.sizes(), value.strides(), value.options().dtype(at::kFloat));
-    } else {
-      grad_q =
-          at::empty_strided(query.sizes(), query.strides(), query.options());
-      grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
-      grad_v =
-          at::empty_strided(value.sizes(), value.strides(), value.options());
-    }
-    grad_q.fill_(0);
-  }
-
-  // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
-  TORCH_CHECK(query.sizes() == grad_q.sizes());
-  TORCH_CHECK(query.strides() == grad_q.strides());
-  TORCH_CHECK(key.sizes() == grad_k.sizes());
-  TORCH_CHECK(key.strides() == grad_k.strides());
-  TORCH_CHECK(value.sizes() == grad_v.sizes());
-  TORCH_CHECK(value.strides() == grad_v.strides());
-
-  const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
-
-  // even it is an output, the grad_bias is required to use the same data-type
-  // as bias in CK-FlashAttn
-  if (bias_requires_grad)
-    grad_bias =
-        at::empty_strided(bias->sizes(), bias->strides(), bias->options());
-
-  bool is_mqa_gqa = (Hq > Hkv);
-
-  at::Tensor tmp_grad_k, tmp_grad_v;
-
-  if (is_mqa_gqa) {
-    // allocate tmp_grad_k/tmp_grad_v which will be reduce to
-    // grad_k/grad_v for returning
-    if (use_fp32_qkv_grad) {
-      tmp_grad_k = at::empty({B, N, Hq, K}, opts.dtype(at::kFloat));
-      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts.dtype(at::kFloat));
-    } else {
-      tmp_grad_k = at::empty({B, N, Hq, K}, opts);
-      tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
-    }
-  }
-
-  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
-    p.is_mqa_gqa = is_mqa_gqa;
-
-    TORCH_CHECK(p.B == logsumexp.size(0));
-    TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.M == logsumexp.size(2));
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.grad_out_ptr = grad_out.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.grad_q_ptr = grad_q.data_ptr();
-    p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
-    p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(0)),
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (is_mqa_gqa) {
-      p.tmp_grad_k_strides = {
-          static_cast<int>(tmp_grad_k.stride(0)),
-          static_cast<int>(tmp_grad_k.stride(1)),
-          static_cast<int>(tmp_grad_k.stride(2)),
-          static_cast<int>(tmp_grad_k.stride(3))};
-      p.tmp_grad_v_strides = {
-          static_cast<int>(tmp_grad_v.stride(0)),
-          static_cast<int>(tmp_grad_v.stride(1)),
-          static_cast<int>(tmp_grad_v.stride(2)),
-          static_cast<int>(tmp_grad_v.stride(3))};
-    }
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-
-      if (bias_requires_grad)
-        p.grad_bias_ptr = grad_bias.data_ptr();
-    } else {
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = nullptr;
-      p.grad_bias_ptr = nullptr;
-    }
-
-    p.bias_has_grad = bias_requires_grad;
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.philox_seed = rng_seed;
-    p.philox_offset = rng_offset;
-
-    p.logsumexp_ptr = logsumexp.data_ptr();
-  };
-
-  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    p.use_fp32_qkv_grad = use_fp32_qkv_grad;
-    p.is_mqa_gqa = is_mqa_gqa;
-
-    p.max_seqlen_q = *max_seqlen_q_;
-
-    TORCH_CHECK(p.num_batches == logsumexp.size(0));
-    TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (is_mqa_gqa) {
-      p.tmp_grad_k_strides = {
-          static_cast<int>(tmp_grad_k.stride(1)),
-          static_cast<int>(tmp_grad_k.stride(2)),
-          static_cast<int>(tmp_grad_k.stride(3))};
-      p.tmp_grad_v_strides = {
-          static_cast<int>(tmp_grad_v.stride(1)),
-          static_cast<int>(tmp_grad_v.stride(2)),
-          static_cast<int>(tmp_grad_v.stride(3))};
-    };
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.bias_has_grad = bias_requires_grad;
-
-    p.dropout_prob = static_cast<float>(dropout_p);
-    p.philox_seed = rng_seed;
-    p.philox_offset = rng_offset;
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
-
-    for (int i = 0; i < p.host_seqstart_q.size(); i++)
-      p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
-
-    for (int i = 0; i < p.host_seqstart_k.size(); i++)
-      p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
-
-    if (seqlen_k.has_value()) {
-      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-      TORCH_CHECK(seqlen_k->dim() == 1);
-      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
-
-      p.host_seqlen_k.resize(p.num_batches);
-
-      for (int i = 0; i < p.host_seqlen_k.size(); i++)
-        p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
-    }
-
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* grad_out_ptr = reinterpret_cast<char*>(grad_out.data_ptr());
-    char* attn_bias_ptr =
-        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-    char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-    char* grad_q_ptr = reinterpret_cast<char*>(grad_q.data_ptr());
-    char* grad_k_ptr = is_mqa_gqa
-        ? reinterpret_cast<char*>(tmp_grad_k.data_ptr())
-        : reinterpret_cast<char*>(grad_k.data_ptr());
-    char* grad_v_ptr = is_mqa_gqa
-        ? reinterpret_cast<char*>(tmp_grad_v.data_ptr())
-        : reinterpret_cast<char*>(grad_v.data_ptr());
-    char* grad_bias_ptr = bias_requires_grad
-        ? reinterpret_cast<char*>(grad_bias.data_ptr())
-        : nullptr;
-
-    size_t multiplier = 1;
-
-    if (p.use_fp32_qkv_grad)
-      multiplier = get_size_in_bytes(1, at::ScalarType::Float) /
-          get_size_in_bytes(1, query.scalar_type());
-
-    std::cout << "qkv-grad precision multiplier is " << multiplier << std::endl;
-
-    for (int i = 0; i < p.num_batches; i++) {
-      size_t tmp_q_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
-          query.scalar_type());
-      size_t tmp_k_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
-          key.scalar_type());
-      size_t tmp_v_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
-          value.scalar_type());
-      size_t tmp_o_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
-          out.scalar_type());
-      size_t tmp_logsumexp_offset = get_size_in_bytes(
-          static_cast<size_t>(i) * p.Hq * p.max_seqlen_q,
-          logsumexp.scalar_type());
-
-      size_t tmp_grad_k_offset = is_mqa_gqa
-          ? get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.tmp_grad_k_strides[0],
-                tmp_grad_k.scalar_type())
-          : tmp_k_offset;
-      size_t tmp_grad_v_offset = is_mqa_gqa
-          ? get_size_in_bytes(
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.tmp_grad_v_strides[0],
-                tmp_grad_v.scalar_type())
-          : tmp_v_offset;
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-      p.grad_q_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_q_ptr[tmp_q_offset * multiplier]));
-
-      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-      p.grad_k_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_k_ptr[tmp_grad_k_offset * multiplier]));
-
-      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-      p.grad_v_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_v_ptr[tmp_grad_v_offset * multiplier]));
-
-      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-      p.grad_out_ptrs.push_back(
-          reinterpret_cast<void*>(&grad_out_ptr[tmp_o_offset]));
-
-      p.logsumexp_ptrs.push_back(
-          reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-
-      if (bias.has_value()) {
-        size_t tmp_bias_offset = get_size_in_bytes(
-            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(
-            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-
-        if (bias_requires_grad) {
-          p.grad_bias_ptrs.push_back(
-              reinterpret_cast<void*>(&grad_bias_ptr[tmp_bias_offset]));
-        }
-      }
-
-      // ToDO: remove this after dev-op fix
-      p.randvals_ptrs.push_back(nullptr);
-    }
-  };
-
-  auto inDataType = query.scalar_type();
-
-  if (!seqstart_q.has_value()) { // input is batched
-    BatchedBackwardParams batched_backward_params;
-
-    set_batched_backward_params(batched_backward_params);
-
-    if (inDataType == at::ScalarType::Half) {
-      batched_backward_fp16(batched_backward_params, stream);
-    } else if (inDataType == at::ScalarType::BFloat16) {
-      batched_backward_bp16(batched_backward_params, stream);
-    } else
-      throw std::runtime_error("input data-type is not supported");
-  } else { // input is grouped
-    GroupedBackwardParams grouped_backward_params;
-
-    set_grouped_backward_params(grouped_backward_params);
-
-    if (inDataType == at::ScalarType::Half) {
-      grouped_backward_fp16(grouped_backward_params, stream);
-    } else if (inDataType == at::ScalarType::BFloat16) {
-      grouped_backward_bp16(grouped_backward_params, stream);
-    } else
-      throw std::runtime_error("input data-type is not supported");
-  }
-
-  if (is_mqa_gqa) {
-    auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
-    auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
-    grad_k = tmp_grad_k_view.sum(3);
-    grad_v = tmp_grad_v_view.sum(3);
-  }
-
-  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
-#endif
-} // namespace
-
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
-      TORCH_FN(efficient_attention_backward_ck));
-}
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
deleted file mode 100644
index ecf73c09b0..0000000000
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ /dev/null
@@ -1,125 +0,0 @@
-/*
- * Copyright (c) Meta Platforms, Inc. and affiliates.
- * All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ATen/ATen.h>
-#include <ATen/cuda/CUDAContext.h>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <c10/core/TensorOptions.h>
-#include <torch/library.h>
-#include <torch/types.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include "ck/tensor_operation/gpu/device/impl/device_batched_dropout.hpp"
-
-#include "ck_fmha_util.h"
-
-namespace {
-
-/**
- * generate a tensor with random uniform values. only used for testing, not much
- * attention is paid to performance
- */
-at::Tensor rand_uniform_int(
-    double dropout_prob,
-    const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
-{
-  int B = out_pattern.size(0);
-  int num_heads = out_pattern.size(1);
-  int M = out_pattern.size(2);
-  int N = out_pattern.size(3);
-
-  // at::cuda::CUDAGuard device_guard(out_pattern.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  at::CUDAGeneratorImpl* gen =
-      at::get_generator_or_default<at::CUDAGeneratorImpl>(
-          c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-  at::PhiloxCudaState rng_engine_inputs;
-  {
-    std::lock_guard<std::mutex> lock(gen->mutex_);
-    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
-  }
-
-  const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-  int64_t philox_seed = std::get<0>(seeds);
-  int64_t philox_offset = std::get<1>(seeds);
-
-  at::Tensor randvals;
-
-  randvals = at::empty(
-      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-
-  using DeviceOpInstance = ck::tensor_operation::device::DeviceBatchedDropout<
-      2, // NumDimG
-      ck::half_t,
-      int,
-      ck::half_t,
-      GemmSpec,
-      TensorSpecA,
-      TensorSpecB0,
-      TensorSpecB1,
-      TensorSpecC,
-      256, // BlockSize
-      64, // MPerBlock
-      128, // NPerBlock
-      32, // KPerBlock
-      8, // AK1
-      8, // BK1
-      32, // MPerXDL
-      32, // NPerXDL
-      2, // MXdlPerWave
-      1>; // NXdlPerWave
-
-  const uint64_t seed = 1;
-  const uint64_t offset = 0;
-
-  std::vector<ck::index_t> z_gs_ms_ns_lengths = {B, num_heads, M, N};
-  std::vector<ck::index_t> z_gs_ms_ns_strides = {
-      static_cast<int>(randvals.stride(0)),
-      static_cast<int>(randvals.stride(1)),
-      static_cast<int>(randvals.stride(2)),
-      static_cast<int>(randvals.stride(3))};
-
-  auto dropout_op = DeviceOpInstance();
-  auto dropout_invoker = dropout_op.MakeInvoker();
-
-  auto dropout_arg = dropout_op.MakeArgument(
-      static_cast<int*>(randvals.data_ptr()),
-      z_gs_ms_ns_lengths,
-      z_gs_ms_ns_strides,
-      {philox_seed, philox_offset});
-
-  dropout_invoker.Run(dropout_arg, StreamConfig{stream, false});
-  (void)hipStreamSynchronize(stream);
-
-  return randvals;
-} // namespace
-
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"),
-      TORCH_FN(rand_uniform_int));
-}
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
deleted file mode 100644
index 5060b03c8b..0000000000
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic.cpp
+++ /dev/null
@@ -1,425 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <cmath>
-#include <mutex>
-#include <tuple>
-
-#include <ATen/Context.h>
-#include <ATen/ScalarOps.h>
-#include <ATen/Tensor.h>
-#include <ATen/core/Generator.h>
-#include <ATen/cuda/CUDAContext.h>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <c10/cuda/CUDAGuard.h>
-#include <c10/util/Optional.h>
-#include <torch/library.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
-
-#include <ck/host_utility/hip_check_error.hpp>
-
-#include "ck_fmha_params.h"
-#include "ck_fmha_util.h"
-
-extern void batched_forward_fp16(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-extern void batched_forward_bp16(
-    BatchedForwardParams& param,
-    hipStream_t stream);
-extern void grouped_forward_fp16(
-    GroupedForwardParams& param,
-    hipStream_t stream);
-extern void grouped_forward_bp16(
-    GroupedForwardParams& param,
-    hipStream_t stream);
-
-extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
-extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
-extern void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream);
-extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream);
-
-namespace {
-
-/*
-  There are 2 modes for using this function.
-  (Mode BMHK) With all the heads having the same seqlen
-  (Mode 1MHK) `batch=1` with all tokens across batches concatenated
-*/
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
-efficient_attention_forward_ck(
-    const at::Tensor& query, // [b, seqlen, num_heads_q, K]
-    const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
-    const at::Tensor& value, // [b, seqlen, num_heads_kv, Kv]
-    const c10::optional<at::Tensor>& bias, // [b, num_heads_q, seqlen, seqlen]
-    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
-    // position of the first query token for batch $b
-    const c10::optional<at::Tensor>& seqstart_q,
-    // (Mode 1MHK only) [b+1]: cu_seqlen_k[b] contains the
-    // position of the first key token for batch $b
-    const c10::optional<at::Tensor>& seqstart_k,
-    // (Mode 1MHK only) Maximum sequence length across batches
-    const c10::optional<int64_t> max_seqlen_q_,
-    double dropout_p, // attention matrix dropout probability
-    bool compute_logsumexp,
-    int64_t custom_mask_type,
-    c10::optional<double> scale,
-    const c10::optional<at::Tensor>& seqlen_k,
-    const c10::optional<int64_t> window_size) {
-  std::ignore = window_size;
-
-  TORCH_CHECK(query.dim() == 4);
-  TORCH_CHECK(key.dim() == 4);
-  TORCH_CHECK(value.dim() == 4);
-
-  // Batch sizes
-  TORCH_CHECK(query.size(0) == key.size(0));
-  TORCH_CHECK(query.size(0) == value.size(0));
-
-  // Sequence length
-  TORCH_CHECK(key.size(1) == value.size(1));
-
-  // Num heads
-  TORCH_CHECK(query.size(2) % key.size(2) == 0);
-  TORCH_CHECK(key.size(2) == value.size(2));
-
-  // Embedding per head
-  TORCH_CHECK(query.size(3) == key.size(3));
-
-  TORCH_CHECK(query.scalar_type() == key.scalar_type());
-  TORCH_CHECK(query.scalar_type() == value.scalar_type());
-
-  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
-  if (seqstart_q.has_value()) {
-    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
-    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_q));
-    CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqstart_k));
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
-    TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
-    TORCH_CHECK(max_seqlen_q_.has_value());
-  };
-
-  // last dim is contiguous, device is kCUDA
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
-
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
-
-  int64_t B = query.size(0);
-  int64_t M = query.size(1);
-  int64_t N = key.size(1);
-  int64_t Hq = query.size(-2);
-  int64_t Hkv = key.size(-2);
-  int64_t K = query.size(-1);
-  int64_t Kv = value.size(-1);
-
-  auto opts = query.options();
-
-  at::Tensor logsumexp;
-
-  at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
-
-  const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  if (use_dropout) {
-    at::PhiloxCudaState rng_engine_inputs;
-    at::CUDAGeneratorImpl* gen =
-        at::get_generator_or_default<at::CUDAGeneratorImpl>(
-            c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-    std::lock_guard<std::mutex> lock(gen->mutex_);
-    // if using dropout, we produce 1 random number for each element of the
-    // attention tensor
-    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
-
-    const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
-
-    philox_seed = std::get<0>(seeds);
-    philox_offset = std::get<1>(seeds);
-  }
-
-  auto set_batched_forward_params = [&](BatchedForwardParams& p) {
-    p.B = B;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_ptr = query.data_ptr();
-    p.k_ptr = key.data_ptr();
-    p.v_ptr = value.data_ptr();
-    p.out_ptr = out.data_ptr();
-
-    p.q_strides = {
-        static_cast<int>(query.stride(0)),
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(0)),
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(0)),
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(0)),
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      p.attn_bias_ptr = bias->data_ptr();
-
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.custom_mask_type = custom_mask_type;
-
-    p.use_dropout = use_dropout;
-    p.philox_seed = philox_seed;
-    p.philox_offset = philox_offset;
-    p.compute_logsumexp = compute_logsumexp;
-
-    // the following parameters are only used by training forward
-    if (p.use_dropout)
-      p.dropout_prob = static_cast<float>(dropout_p);
-    else
-      p.dropout_prob = 0.0f;
-
-    if (p.compute_logsumexp) {
-      logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
-      p.logsumexp_ptr = logsumexp.data_ptr();
-    } else
-      p.logsumexp_ptr = nullptr;
-  };
-
-  auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
-    p.num_batches = seqstart_q->size(0) - 1;
-    p.M = M;
-    p.N = N;
-    p.Hq = Hq;
-    p.Hkv = Hkv;
-    p.K = K;
-    p.Kv = Kv;
-
-    if (scale.has_value()) {
-      p.scale = float(*scale);
-    } else {
-      p.scale = float(1.0 / std::sqrt(float(K)));
-    }
-
-    p.q_strides = {
-        static_cast<int>(query.stride(1)),
-        static_cast<int>(query.stride(2)),
-        static_cast<int>(query.stride(3))};
-    p.k_strides = {
-        static_cast<int>(key.stride(1)),
-        static_cast<int>(key.stride(2)),
-        static_cast<int>(key.stride(3))};
-    p.v_strides = {
-        static_cast<int>(value.stride(1)),
-        static_cast<int>(value.stride(2)),
-        static_cast<int>(value.stride(3))};
-    p.out_strides = {
-        static_cast<int>(out.stride(1)),
-        static_cast<int>(out.stride(2)),
-        static_cast<int>(out.stride(3))};
-
-    if (bias.has_value()) {
-      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
-      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
-
-      p.has_attn_bias = true;
-      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
-      p.attn_bias_strides = {
-          static_cast<int>(bias_4d_view.stride(0)),
-          static_cast<int>(bias_4d_view.stride(1)),
-          static_cast<int>(bias_4d_view.stride(2)),
-          static_cast<int>(bias_4d_view.stride(3))};
-    } else
-      p.has_attn_bias = false;
-
-    p.custom_mask_type = custom_mask_type;
-
-    // max_seqlen_q is used to create logsumexp tensor
-    p.max_seqlen_q = *max_seqlen_q_;
-
-    p.host_seqstart_q.resize(p.num_batches + 1);
-    p.host_seqstart_k.resize(p.num_batches + 1);
-
-    for (int i = 0; i < p.host_seqstart_q.size(); i++)
-      p.host_seqstart_q[i] =
-          *(reinterpret_cast<int*>(seqstart_q->data_ptr()) + i);
-
-    for (int i = 0; i < p.host_seqstart_k.size(); i++)
-      p.host_seqstart_k[i] =
-          *(reinterpret_cast<int*>(seqstart_k->data_ptr()) + i);
-
-    if (seqlen_k.has_value()) {
-      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
-      TORCH_CHECK(seqlen_k->dim() == 1);
-      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
-      CHECK_NOSPARSE_CONTIGUOUS_CPU((*seqlen_k));
-
-      p.host_seqlen_k.resize(p.num_batches);
-
-      for (int i = 0; i < p.host_seqlen_k.size(); i++)
-        p.host_seqlen_k[i] =
-            *(reinterpret_cast<int*>(seqlen_k->data_ptr()) + i);
-    }
-
-    char* q_ptr = reinterpret_cast<char*>(query.data_ptr());
-    char* k_ptr = reinterpret_cast<char*>(key.data_ptr());
-    char* v_ptr = reinterpret_cast<char*>(value.data_ptr());
-
-    char* out_ptr = reinterpret_cast<char*>(out.data_ptr());
-    char* attn_bias_ptr =
-        bias.has_value() ? reinterpret_cast<char*>(bias->data_ptr()) : nullptr;
-
-    for (int i = 0; i < p.num_batches; i++) {
-      size_t tmp_q_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.q_strides[0],
-          query.scalar_type());
-      size_t tmp_k_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.k_strides[0],
-          key.scalar_type());
-      size_t tmp_v_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_k[i]) * p.v_strides[0],
-          value.scalar_type());
-      size_t tmp_o_offset = get_size_in_bytes(
-          static_cast<size_t>(p.host_seqstart_q[i]) * p.out_strides[0],
-          out.scalar_type());
-
-      p.q_ptrs.push_back(reinterpret_cast<void*>(&q_ptr[tmp_q_offset]));
-      p.k_ptrs.push_back(reinterpret_cast<void*>(&k_ptr[tmp_k_offset]));
-      p.v_ptrs.push_back(reinterpret_cast<void*>(&v_ptr[tmp_v_offset]));
-      p.out_ptrs.push_back(reinterpret_cast<void*>(&out_ptr[tmp_o_offset]));
-
-      if (bias.has_value()) {
-        size_t tmp_bias_offset = get_size_in_bytes(
-            static_cast<size_t>(p.host_seqstart_q[i]) * p.attn_bias_strides[2] +
-                static_cast<size_t>(p.host_seqstart_k[i]) *
-                    p.attn_bias_strides[3],
-            bias->scalar_type());
-
-        p.attn_bias_ptrs.push_back(
-            reinterpret_cast<void*>(&attn_bias_ptr[tmp_bias_offset]));
-      };
-
-      // ToDO: remove this after dev-op fix
-      p.randvals_ptrs.push_back(nullptr);
-    }
-
-    p.use_dropout = use_dropout;
-    p.philox_seed = philox_seed;
-    p.philox_offset = philox_offset;
-    p.compute_logsumexp = compute_logsumexp;
-
-    // the following parameters are only used by training forward
-    if (p.use_dropout)
-      p.dropout_prob = static_cast<float>(dropout_p);
-    else
-      p.dropout_prob = 0.0f;
-
-    if (p.compute_logsumexp) {
-      logsumexp = at::empty(
-          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
-      char* logsumexp_ptr = reinterpret_cast<char*>(logsumexp.data_ptr());
-
-      for (int i = 0; i < p.num_batches; i++) {
-        size_t tmp_logsumexp_offset = get_size_in_bytes(
-            static_cast<size_t>(i) * Hq * p.max_seqlen_q,
-            logsumexp.scalar_type());
-        p.logsumexp_ptrs.push_back(
-            reinterpret_cast<void*>(&logsumexp_ptr[tmp_logsumexp_offset]));
-      };
-    };
-  };
-
-  auto inDataType = query.scalar_type();
-
-  if (!seqstart_q.has_value()) { // input is batched
-    BatchedForwardParams batched_forward_params;
-
-    set_batched_forward_params(batched_forward_params);
-
-    if (!batched_forward_params.use_dropout &&
-        !batched_forward_params.compute_logsumexp) {
-      if (inDataType == at::ScalarType::Half) {
-        batched_infer_fp16(batched_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_infer_bp16(batched_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else {
-      if (inDataType == at::ScalarType::Half) {
-        batched_forward_fp16(batched_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_forward_bp16(batched_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    };
-  } else { // input is grouped
-    GroupedForwardParams grouped_forward_params;
-
-    set_grouped_forward_params(grouped_forward_params);
-
-    if (!grouped_forward_params.use_dropout &&
-        !grouped_forward_params.compute_logsumexp) {
-      if (inDataType == at::ScalarType::Half) {
-        grouped_infer_fp16(grouped_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_infer_bp16(grouped_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    } else {
-      if (inDataType == at::ScalarType::Half) {
-        grouped_forward_fp16(grouped_forward_params, stream);
-      } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_forward_bp16(grouped_forward_params, stream);
-      } else
-        throw std::runtime_error("input data-type is not supported!");
-    };
-  };
-
-  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
-}
-
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_ck"),
-      TORCH_FN(efficient_attention_forward_ck));
-}
diff --git a/xformers/csrc/attention/hip_fmha/ck_align_switch.h b/xformers/csrc/attention/hip_fmha/ck_align_switch.h
deleted file mode 100644
index 9e7228355a..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_align_switch.h
+++ /dev/null
@@ -1,151 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <stdexcept>
-
-// assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_1(CONST_ALIGN_MAX1, CONST_ALIGN_NAME1, LENGTH1, ...)   \
-  [&] {                                                                     \
-    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
-      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
-        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
-        __VA_ARGS__();                                                      \
-      } else {                                                              \
-        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
-          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
-            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
-            __VA_ARGS__();                                                  \
-          } else {                                                          \
-            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
-              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
-                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
-                    CONST_ALIGN_MAX1 / 4;                                   \
-                __VA_ARGS__();                                              \
-              } else {                                                      \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
-                __VA_ARGS__();                                              \
-              };                                                            \
-            }                                                               \
-          };                                                                \
-        }                                                                   \
-      };                                                                    \
-    }                                                                       \
-  }()
-
-// assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_2(                                                       \
-    CONST_ALIGN_MAX1,                                                         \
-    CONST_ALIGN_NAME1,                                                        \
-    LENGTH1,                                                                  \
-    CONST_ALIGN_MAX2,                                                         \
-    CONST_ALIGN_NAME2,                                                        \
-    LENGTH2,                                                                  \
-    ...)                                                                      \
-  [&] {                                                                       \
-    if constexpr (CONST_ALIGN_MAX1 > 0) {                                     \
-      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                  \
-        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;           \
-        ALIGN_SWITCH_1(                                                       \
-            CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__);     \
-      } else {                                                                \
-        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                             \
-          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                        \
-            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2;   \
-            ALIGN_SWITCH_1(                                                   \
-                CONST_ALIGN_MAX2, CONST_ALIGN_NAME2, LENGTH2, ##__VA_ARGS__); \
-          } else {                                                            \
-            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                         \
-              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                    \
-                constexpr ck::index_t CONST_ALIGN_NAME1 =                     \
-                    CONST_ALIGN_MAX1 / 4;                                     \
-                ALIGN_SWITCH_1(                                               \
-                    CONST_ALIGN_MAX2,                                         \
-                    CONST_ALIGN_NAME2,                                        \
-                    LENGTH2,                                                  \
-                    ##__VA_ARGS__);                                           \
-              } else {                                                        \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                  \
-                ALIGN_SWITCH_1(                                               \
-                    CONST_ALIGN_MAX2,                                         \
-                    CONST_ALIGN_NAME2,                                        \
-                    LENGTH2,                                                  \
-                    ##__VA_ARGS__);                                           \
-              };                                                              \
-            }                                                                 \
-          };                                                                  \
-        }                                                                     \
-      };                                                                      \
-    }                                                                         \
-  }()
-
-// assume the maximum alignment is 8 elements
-#define ALIGN_SWITCH_3(                                                     \
-    CONST_ALIGN_MAX1,                                                       \
-    CONST_ALIGN_NAME1,                                                      \
-    LENGTH1,                                                                \
-    CONST_ALIGN_MAX2,                                                       \
-    CONST_ALIGN_NAME2,                                                      \
-    LENGTH2,                                                                \
-    CONST_ALIGN_MAX3,                                                       \
-    CONST_ALIGN_NAME3,                                                      \
-    LENGTH3,                                                                \
-    ...)                                                                    \
-  [&] {                                                                     \
-    if constexpr (CONST_ALIGN_MAX1 > 0) {                                   \
-      if (LENGTH1 % CONST_ALIGN_MAX1 == 0) {                                \
-        constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1;         \
-        ALIGN_SWITCH_2(                                                     \
-            CONST_ALIGN_MAX2,                                               \
-            CONST_ALIGN_NAME2,                                              \
-            LENGTH2,                                                        \
-            CONST_ALIGN_MAX3,                                               \
-            CONST_ALIGN_NAME3,                                              \
-            LENGTH3,                                                        \
-            ##__VA_ARGS__);                                                 \
-      } else {                                                              \
-        if constexpr (CONST_ALIGN_MAX1 / 2 > 0) {                           \
-          if (LENGTH1 % (CONST_ALIGN_MAX1 / 2) == 0) {                      \
-            constexpr ck::index_t CONST_ALIGN_NAME1 = CONST_ALIGN_MAX1 / 2; \
-            ALIGN_SWITCH_2(                                                 \
-                CONST_ALIGN_MAX2,                                           \
-                CONST_ALIGN_NAME2,                                          \
-                LENGTH2,                                                    \
-                CONST_ALIGN_MAX3,                                           \
-                CONST_ALIGN_NAME3,                                          \
-                LENGTH3,                                                    \
-                ##__VA_ARGS__);                                             \
-          } else {                                                          \
-            if constexpr (CONST_ALIGN_MAX1 / 4 > 0) {                       \
-              if (LENGTH1 % (CONST_ALIGN_MAX1 / 4) == 0) {                  \
-                constexpr ck::index_t CONST_ALIGN_NAME1 =                   \
-                    CONST_ALIGN_MAX1 / 4;                                   \
-                ALIGN_SWITCH_2(                                             \
-                    CONST_ALIGN_MAX2,                                       \
-                    CONST_ALIGN_NAME2,                                      \
-                    LENGTH2,                                                \
-                    CONST_ALIGN_MAX3,                                       \
-                    CONST_ALIGN_NAME3,                                      \
-                    LENGTH3,                                                \
-                    ##__VA_ARGS__);                                         \
-              } else {                                                      \
-                constexpr ck::index_t CONST_ALIGN_NAME1 = 1;                \
-                ALIGN_SWITCH_2(                                             \
-                    CONST_ALIGN_MAX2,                                       \
-                    CONST_ALIGN_NAME2,                                      \
-                    LENGTH2,                                                \
-                    CONST_ALIGN_MAX3,                                       \
-                    CONST_ALIGN_NAME3,                                      \
-                    LENGTH3,                                                \
-                    ##__VA_ARGS__);                                         \
-              };                                                            \
-            }                                                               \
-          };                                                                \
-        }                                                                   \
-      };                                                                    \
-    }                                                                       \
-  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_bool_switch.h b/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
deleted file mode 100644
index 1a062d3e3e..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_bool_switch.h
+++ /dev/null
@@ -1,29 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#define BOOL_SWITCH_1(COND1, CONST_NAME1, ...) \
-  [&] {                                        \
-    if (COND1) {                               \
-      constexpr bool CONST_NAME1 = true;       \
-      __VA_ARGS__();                           \
-    } else {                                   \
-      constexpr bool CONST_NAME1 = false;      \
-      __VA_ARGS__();                           \
-    }                                          \
-  }()
-
-#define BOOL_SWITCH_2(COND1, CONST_NAME1, COND2, CONST_NAME2, ...) \
-  [&] {                                                            \
-    if (COND1) {                                                   \
-      constexpr bool CONST_NAME1 = true;                           \
-      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);            \
-    } else {                                                       \
-      constexpr bool CONST_NAME1 = false;                          \
-      BOOL_SWITCH_1(COND2, CONST_NAME2, ##__VA_ARGS__);            \
-    }                                                              \
-  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
deleted file mode 100644
index 49122fd740..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_backward_gemm_constants.h
+++ /dev/null
@@ -1,196 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/ck.hpp>
-#include "ck_fmha_op_helper.h"
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedBackward_V1 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  // static constexpr ck::index_t KPerBlock;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 4;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-struct GemmOpConstantsBatchedBackward_V2 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 64;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 128;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 64;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 2;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedBackward_V1 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  // static constexpr ck::index_t KPerBlock;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 4;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-struct GemmOpConstantsGroupedBackward_V2 {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 64;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 128;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t Gemm2KPerBlock = 64;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 2;
-  static constexpr ck::index_t NXdlPerWave = 1;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t Gemm2NXdlPerWave = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 8;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 8;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<8, 32, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  // using
-  // CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock;
-  // static constexpr ck::index_t
-  // CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
deleted file mode 100644
index d0cccf2b35..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward.h
+++ /dev/null
@@ -1,525 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v1.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_bwd_xdl_cshuffle_qloop_v2.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-
-#include "ck_align_switch.h"
-#include "ck_fmha_backward_gemm_constants.h"
-#include "ck_fmha_common_gemm_constants.h"
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_params.h"
-
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-struct batched_backward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-  using Scale = ck::tensor_operation::element_wise::Scale;
-
-  using QKVElementOp = PassThrough;
-  using YElementOp = PassThrough;
-
-  using InputDataType = scalar_t;
-  using OutputDataType =
-      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
-  using GemmDataType = scalar_t;
-  using AccDataType = F32;
-  using ShuffleDataType = F32;
-  using LSEDataType = F32;
-  using ZDataType = unsigned short;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr bool Deterministic = true;
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-#ifndef BATCHED_BACKWARD_V1_HEADDIM_SWITCH
-#define BATCHED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                               \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
-      __VA_ARGS__();                                                  \
-    } else {                                                          \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
-      __VA_ARGS__();                                                  \
-    };                                                                \
-  }()
-#endif
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      typename kCShuffleBlockTransferClusterLengths,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp_V1 = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          InputDataType,
-          OutputDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          ShuffleDataType,
-          QKVElementOp,
-          QKVElementOp,
-          Scale,
-          QKVElementOp,
-          YElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsBatchedBackward_V1::NumGemmKPrefetchStage,
-          GemmOpConstantsBatchedBackward_V1::BlockSize,
-          GemmOpConstantsBatchedBackward_V1::MPerBlock,
-          GemmOpConstantsBatchedBackward_V1::NPerBlock,
-          kGemm1NPerBlock, // KPerBlock == kGemm1NPerBlock required
-          kGemm1NPerBlock,
-          GemmOpConstantsBatchedBackward_V1::Gemm1KPerBlock,
-          GemmOpConstantsBatchedBackward_V1::Gemm2KPerBlock,
-          GemmOpConstantsBatchedBackward_V1::AK1,
-          GemmOpConstantsBatchedBackward_V1::BK1,
-          GemmOpConstantsBatchedBackward_V1::B1K1,
-          GemmOpConstantsBatchedBackward_V1::MPerXDL,
-          GemmOpConstantsBatchedBackward_V1::NPerXDL,
-          GemmOpConstantsBatchedBackward_V1::MXdlPerWave,
-          GemmOpConstantsBatchedBackward_V1::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsBatchedBackward_V1::Gemm2NXdlPerWave,
-          GemmOpConstantsBatchedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsBatchedBackward_V1::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedBackward_V1::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedBackward_V1::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V1::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsBatchedBackward_V1::ABlockLdsExtraM,
-          GemmOpConstantsBatchedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedBackward_V1::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedBackward_V1::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedBackward_V1::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V1::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedBackward_V1::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V1::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths,
-          kCShuffleBlockTransferScalarPerVector,
-          MaskingSpec,
-          Deterministic>;
-  // clang-format on
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      typename kCShuffleBlockTransferClusterLengths,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kB1BlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp_V2 = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          InputDataType,
-          OutputDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          ShuffleDataType,
-          QKVElementOp,
-          QKVElementOp,
-          Scale,
-          QKVElementOp,
-          YElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsBatchedBackward_V2::NumGemmKPrefetchStage,
-          GemmOpConstantsBatchedBackward_V2::BlockSize,
-          GemmOpConstantsBatchedBackward_V2::MPerBlock,
-          GemmOpConstantsBatchedBackward_V2::NPerBlock,
-          GemmOpConstantsBatchedBackward_V2::KPerBlock,
-          kGemm1NPerBlock,
-          GemmOpConstantsBatchedBackward_V2::Gemm1KPerBlock,
-          GemmOpConstantsBatchedBackward_V2::Gemm2KPerBlock,
-          GemmOpConstantsBatchedBackward_V2::AK1,
-          GemmOpConstantsBatchedBackward_V2::BK1,
-          GemmOpConstantsBatchedBackward_V2::B1K1,
-          GemmOpConstantsBatchedBackward_V2::MPerXDL,
-          GemmOpConstantsBatchedBackward_V2::NPerXDL,
-          GemmOpConstantsBatchedBackward_V2::MXdlPerWave,
-          GemmOpConstantsBatchedBackward_V2::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsBatchedBackward_V2::Gemm2NXdlPerWave,
-          GemmOpConstantsBatchedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsBatchedBackward_V2::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedBackward_V2::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedBackward_V2::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V2::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsBatchedBackward_V2::ABlockLdsExtraM,
-          GemmOpConstantsBatchedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedBackward_V2::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedBackward_V2::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedBackward_V2::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V2::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedBackward_V2::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V2::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedBackward_V2::B1BlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedBackward_V2::B1BlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedBackward_V2::B1BlockTransferSrcVectorDim,
-          kB1BlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedBackward_V2::B1BlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedBackward_V2::B1BlockLdsExtraN,
-          GemmOpConstantsBatchedBackward_V2::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths,
-          kCShuffleBlockTransferScalarPerVector,
-          MaskingSpec,
-          Deterministic>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    if (param.K <= 64 && param.Kv <= 64) {
-      // compile-time constants which don't depend on head-dim switching
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedBackward_V1::AK1 /
-          GemmOpConstantsBatchedBackward_V1::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedBackward_V1::BK1 /
-          GemmOpConstantsBatchedBackward_V1::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-          "and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      BATCHED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-        constexpr ck::index_t thread_slice_length_cshuflle_n =
-            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-             kGemm1NXdlPerWave) /
-            kCShuffleBlockTransferClusterLengths::At(I3);
-
-        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-            min(2, thread_slice_length_cshuflle_n);
-
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      });
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsBatchedBackward_V2::AK1 /
-          GemmOpConstantsBatchedBackward_V2::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsBatchedBackward_V2::BK1 /
-          GemmOpConstantsBatchedBackward_V2::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-          "and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedBackward_V2::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          kCShuffleBlockTransferClusterLengths::At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-
-              static_assert(
-                  kB1BlockTransferSrcScalarPerVector > 0,
-                  "kB1BlockTransferSrcScalarPerVector must be positive");
-
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-
-              static_assert(
-                  kB1BlockTransferSrcScalarPerVector > 0,
-                  "kB1BlockTransferSrcScalarPerVector must be positive");
-
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    };
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(
-      BatchedBackwardParams& param,
-      hipStream_t stream) {
-    std::vector<ck::index_t> q_gs_ms_ks_lengths{
-        param.B, param.Hq, param.M, param.K};
-    std::vector<ck::index_t> q_gs_ms_ks_strides{
-        param.q_strides[0],
-        param.q_strides[2],
-        param.q_strides[1],
-        param.q_strides[3]};
-
-    std::vector<ck::index_t> k_gs_ns_ks_lengths{
-        param.B, param.Hkv, param.N, param.K};
-    std::vector<ck::index_t> k_gs_ns_ks_strides{
-        param.k_strides[0],
-        param.k_strides[2],
-        param.k_strides[1],
-        param.k_strides[3]};
-
-    std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {
-        param.B, param.Hq, param.N, param.K};
-    std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
-        param.tmp_grad_k_strides[0],
-        param.tmp_grad_k_strides[2],
-        param.tmp_grad_k_strides[1],
-        param.tmp_grad_k_strides[3]};
-
-    std::vector<ck::index_t> v_gs_os_ns_lengths{
-        param.B, param.Hkv, param.Kv, param.N};
-    std::vector<ck::index_t> v_gs_os_ns_strides{
-        param.v_strides[0],
-        param.v_strides[2],
-        param.v_strides[3],
-        param.v_strides[1]};
-
-    std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {
-        param.B, param.Hq, param.Kv, param.N};
-    std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
-        param.tmp_grad_v_strides[0],
-        param.tmp_grad_v_strides[2],
-        param.tmp_grad_v_strides[3],
-        param.tmp_grad_v_strides[1]};
-
-    std::vector<ck::index_t> y_gs_ms_os_lengths{
-        param.B, param.Hq, param.M, param.Kv};
-    std::vector<ck::index_t> y_gs_ms_os_strides{
-        param.out_strides[0],
-        param.out_strides[2],
-        param.out_strides[1],
-        param.out_strides[3]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-      d_gs_ms_ns_strides = {
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
-    };
-
-    float alpha = param.scale;
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptr,
-        param.k_ptr,
-        nullptr, // p_z_grid
-        param.v_ptr,
-        param.out_ptr,
-        param.logsumexp_ptr,
-        param.grad_out_ptr,
-        param.grad_q_ptr,
-        param.grad_k_ptr,
-        param.grad_v_ptr,
-        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-        nullptr, // p_acc1_bias
-        param.bias_has_grad ? param.grad_bias_ptr : nullptr,
-        nullptr,
-        q_gs_ms_ks_lengths, // q, dQ should have same shape
-        q_gs_ms_ks_strides,
-        k_gs_ns_ks_lengths, // k, dK should have same shape
-        k_gs_ns_ks_strides,
-        {1, 1, 1, 1}, // z_gs_ms_ns_lengths
-        {0, 0, 0, 0}, // z_gs_ms_ns_strides
-        v_gs_os_ns_lengths, // v, dV should have same shape
-        v_gs_os_ns_strides,
-        y_gs_ms_os_lengths, // y, dY should have same shape
-        y_gs_ms_os_strides,
-        lse_gs_ms_lengths,
-        param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
-        param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
-        param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
-        param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
-        d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides
-        QKVElementOp{},
-        QKVElementOp{},
-        Scale{alpha},
-        QKVElementOp{},
-        YElementOp{},
-        param.dropout_prob,
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
-};
-
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-void run_batched_backward_masktype_attnbias_dispatched(
-    BatchedBackwardParams& param,
-    hipStream_t stream) {
-  batched_backward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias,
-      use_fp32_qkv_grad>::Run(param, stream);
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
deleted file mode 100644
index 4a589ae02f..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_bp16.cpp
+++ /dev/null
@@ -1,113 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_batched_backward.h"
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 1)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 2)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
deleted file mode 100644
index b218809be2..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_backward_fp16.cpp
+++ /dev/null
@@ -1,113 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_batched_backward.h"
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
-
-void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 1)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else if (param.custom_mask_type == 2)
-          run_batched_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
deleted file mode 100644
index f96a52d56b..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward.h
+++ /dev/null
@@ -1,379 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_fwd_xdl_cshuffle_v2.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/math.hpp>
-#include <ck/utility/number.hpp>
-
-#include "ck_align_switch.h"
-#include "ck_fmha_common_gemm_constants.h"
-#include "ck_fmha_forward_gemm_constants.h"
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_params.h"
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_forward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-#ifndef BATCHED_FORWARD_HEADDIM_SWITCH
-#define BATCHED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                           \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-      __VA_ARGS__();                                              \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-      __VA_ARGS__();                                              \
-    } else {                                                      \
-      constexpr ck::index_t kGemm1NPerBlock = 128;                \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-      __VA_ARGS__();                                              \
-    }                                                             \
-  }()
-#endif
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kB1BlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionForward_Xdl_CShuffle_V2<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsBatchedForward::NumGemmKPrefetchStage,
-          GemmOpConstantsBatchedForward::BlockSize,
-          GemmOpConstantsBatchedForward::MPerBlock,
-          GemmOpConstantsBatchedForward::NPerBlock,
-          GemmOpConstantsBatchedForward::KPerBlock,
-          kGemm1NPerBlock,
-          GemmOpConstantsBatchedForward::Gemm1KPerBlock,
-          GemmOpConstantsBatchedForward::AK1,
-          GemmOpConstantsBatchedForward::BK1,
-          GemmOpConstantsBatchedForward::B1K1,
-          GemmOpConstantsBatchedForward::MPerXDL,
-          GemmOpConstantsBatchedForward::NPerXDL,
-          GemmOpConstantsBatchedForward::MXdlPerWave,
-          GemmOpConstantsBatchedForward::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsBatchedForward::DropoutStep,
-          GemmOpConstantsBatchedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsBatchedForward::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedForward::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedForward::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedForward::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsBatchedForward::ABlockLdsExtraM,
-          GemmOpConstantsBatchedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedForward::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedForward::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedForward::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedForward::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedForward::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedForward::B1BlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedForward::B1BlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedForward::B1BlockTransferSrcVectorDim,
-          kB1BlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedForward::B1BlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedForward::B1BlockLdsExtraN,
-          GemmOpConstantsBatchedForward::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsBatchedForward::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
-          kCShuffleBlockTransferScalarPerVector,
-          GemmOpConstantsBatchedForward::Acc1BiasTransferSrcScalarPerVector,
-          MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsBatchedForward::AK1 /
-        GemmOpConstantsBatchedForward::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsBatchedForward::BK1 /
-        GemmOpConstantsBatchedForward::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-        "ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    BATCHED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedForward::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedForward::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
-    std::vector<ck::index_t> a_gs_ms_ks_lengths{
-        param.B, param.Hq, param.M, param.K};
-    std::vector<ck::index_t> a_gs_ms_ks_strides{
-        param.q_strides[0],
-        param.q_strides[2],
-        param.q_strides[1],
-        param.q_strides[3]};
-
-    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-        param.B, param.Hkv, param.N, param.K};
-    std::vector<ck::index_t> b0_gs_ns_ks_strides{
-        param.k_strides[0],
-        param.k_strides[2],
-        param.k_strides[1],
-        param.k_strides[3]};
-
-    // to be changed to b1_gs_ns_os_lengths
-    std::vector<ck::index_t> b1_gs_os_ns_lengths{
-        param.B, param.Hkv, param.Kv, param.N};
-    std::vector<ck::index_t> b1_gs_os_ns_strides{
-        param.v_strides[0],
-        param.v_strides[2],
-        param.v_strides[3],
-        param.v_strides[1]};
-
-    std::vector<ck::index_t> c_gs_ms_os_lengths{
-        param.B, param.Hq, param.M, param.Kv};
-    std::vector<ck::index_t> c_gs_ms_os_strides{
-        param.out_strides[0],
-        param.out_strides[2],
-        param.out_strides[1],
-        param.out_strides[3]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-      d_gs_ms_ns_strides = {
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
-    };
-
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptr,
-        param.k_ptr,
-        param.v_ptr,
-        param.out_ptr,
-        nullptr,
-        param.logsumexp_ptr,
-        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-        {}, // p_acc1_biases;
-        a_gs_ms_ks_lengths,
-        a_gs_ms_ks_strides,
-        b0_gs_ns_ks_lengths,
-        b0_gs_ns_ks_strides,
-        b1_gs_os_ns_lengths,
-        b1_gs_os_ns_strides,
-        c_gs_ms_os_lengths,
-        c_gs_ms_os_strides,
-        {1, 1, 1, 1},
-        {0, 0, 0, 0},
-        lse_gs_ms_lengths,
-        d_gs_ms_ns_lengths,
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op,
-        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-        std::tuple<int64_t, int64_t>(
-            param.philox_seed,
-            param.philox_offset)); // dropout random seed and offset
-
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
-};
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_forward_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream) {
-  batched_forward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
deleted file mode 100644
index 6cc45e3a20..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_bp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_batched_forward.h"
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
deleted file mode 100644
index e153cfa3c7..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_forward_fp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_batched_forward.h"
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
deleted file mode 100644
index c72fce2d5a..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer.h
+++ /dev/null
@@ -1,359 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_batched_mha_infer_xdl_cshuffle.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/math.hpp>
-#include <ck/utility/number.hpp>
-
-#include "ck_align_switch.h"
-#include "ck_fmha_common_gemm_constants.h"
-#include "ck_fmha_infer_gemm_constants.h"
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_params.h"
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct batched_infer_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-#ifndef BATCHED_INFER_HEADDIM_SWITCH
-#define BATCHED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                         \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
-      constexpr ck::index_t kGemm1NPerBlock = 32;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
-      __VA_ARGS__();                                            \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
-      constexpr ck::index_t kGemm1NPerBlock = 64;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
-      __VA_ARGS__();                                            \
-    } else {                                                    \
-      constexpr ck::index_t kGemm1NPerBlock = 128;              \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
-      __VA_ARGS__();                                            \
-    }                                                           \
-  }()
-#endif
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kB1BlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceBatchedMultiheadAttentionInfer_Xdl_CShuffle<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsBatchedInfer::NumGemmKPrefetchStage,
-          GemmOpConstantsBatchedInfer::BlockSize,
-          GemmOpConstantsBatchedInfer::MPerBlock,
-          GemmOpConstantsBatchedInfer::NPerBlock,
-          GemmOpConstantsBatchedInfer::KPerBlock,
-          kGemm1NPerBlock,
-          GemmOpConstantsBatchedInfer::Gemm1KPerBlock,
-          GemmOpConstantsBatchedInfer::AK1,
-          GemmOpConstantsBatchedInfer::BK1,
-          GemmOpConstantsBatchedInfer::B1K1,
-          GemmOpConstantsBatchedInfer::MPerXDL,
-          GemmOpConstantsBatchedInfer::NPerXDL,
-          GemmOpConstantsBatchedInfer::MXdlPerWave,
-          GemmOpConstantsBatchedInfer::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsBatchedInfer::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedInfer::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedInfer::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedInfer::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsBatchedInfer::ABlockLdsExtraM,
-          GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedInfer::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedInfer::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedInfer::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedInfer::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedInfer::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsBatchedInfer::B1BlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsBatchedInfer::B1BlockTransferSrcAccessOrder,
-          GemmOpConstantsBatchedInfer::B1BlockTransferSrcVectorDim,
-          kB1BlockTransferSrcScalarPerVector,
-          GemmOpConstantsBatchedInfer::B1BlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsBatchedInfer::B1BlockLdsExtraN,
-          GemmOpConstantsBatchedInfer::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsBatchedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
-          kCShuffleBlockTransferScalarPerVector,
-          MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsBatchedInfer::AK1 /
-        GemmOpConstantsBatchedInfer::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsBatchedInfer::BK1 /
-        GemmOpConstantsBatchedInfer::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-        "ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    BATCHED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsBatchedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsBatchedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(BatchedForwardParams& param, hipStream_t stream) {
-    std::vector<ck::index_t> a_gs_ms_ks_lengths{
-        param.B, param.Hq, param.M, param.K};
-    std::vector<ck::index_t> a_gs_ms_ks_strides{
-        param.q_strides[0],
-        param.q_strides[2],
-        param.q_strides[1],
-        param.q_strides[3]};
-
-    std::vector<ck::index_t> b0_gs_ns_ks_lengths{
-        param.B, param.Hkv, param.N, param.K};
-    std::vector<ck::index_t> b0_gs_ns_ks_strides{
-        param.k_strides[0],
-        param.k_strides[2],
-        param.k_strides[1],
-        param.k_strides[3]};
-
-    // to be changed to b1_gs_ns_os_lengths
-    std::vector<ck::index_t> b1_gs_os_ns_lengths{
-        param.B, param.Hkv, param.Kv, param.N};
-    std::vector<ck::index_t> b1_gs_os_ns_strides{
-        param.v_strides[0],
-        param.v_strides[2],
-        param.v_strides[3],
-        param.v_strides[1]};
-
-    std::vector<ck::index_t> c_gs_ms_os_lengths{
-        param.B, param.Hq, param.M, param.Kv};
-    std::vector<ck::index_t> c_gs_ms_os_strides{
-        param.out_strides[0],
-        param.out_strides[2],
-        param.out_strides[1],
-        param.out_strides[3]};
-
-    std::vector<ck::index_t> lse_gs_ms_lengths{param.B, param.Hq, param.M};
-
-    std::vector<ck::index_t> d_gs_ms_ns_lengths;
-    std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-    if constexpr (has_attn_bias) {
-      d_gs_ms_ns_lengths = {param.B, param.Hq, param.M, param.N};
-      d_gs_ms_ns_strides = {
-          param.attn_bias_strides[0],
-          param.attn_bias_strides[1],
-          param.attn_bias_strides[2],
-          param.attn_bias_strides[3]};
-    } else {
-      d_gs_ms_ns_lengths = {1, 1, 1, 1};
-      d_gs_ms_ns_strides = {0, 0, 0, 0};
-    };
-
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptr,
-        param.k_ptr,
-        param.v_ptr,
-        param.out_ptr,
-        param.has_attn_bias ? param.attn_bias_ptr : nullptr,
-        {}, // p_acc1_biases;
-        a_gs_ms_ks_lengths,
-        a_gs_ms_ks_strides,
-        b0_gs_ns_ks_lengths,
-        b0_gs_ns_ks_strides,
-        b1_gs_os_ns_lengths,
-        b1_gs_os_ns_strides,
-        c_gs_ms_os_lengths,
-        c_gs_ms_os_strides,
-        d_gs_ms_ns_lengths,
-        d_gs_ms_ns_strides,
-        {}, // acc1_biases_gs_ms_os_lengths
-        {}, // acc1_biases_gs_ms_os_strides,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op);
-
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
-};
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_batched_infer_masktype_attnbias_dispatched(
-    BatchedForwardParams& param,
-    hipStream_t stream) {
-  batched_infer_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
deleted file mode 100644
index 03a2e36ca5..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_bp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_batched_infer.h"
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
deleted file mode 100644
index 4d0625a469..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_batched_infer_fp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_batched_infer.h"
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
-
-void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_batched_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
deleted file mode 100644
index 1fdabf29f2..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_common_gemm_constants.h
+++ /dev/null
@@ -1,28 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/ck.hpp>
-#include "ck_fmha_op_helper.h"
-
-// list the template parameters that is commonly used
-struct GemmOpConstantsCommon {
-  static constexpr ck::index_t NumDimG = 2;
-  static constexpr ck::index_t NumDimM = 1;
-  static constexpr ck::index_t NumDimN = 1;
-  static constexpr ck::index_t NumDimK = 1;
-  static constexpr ck::index_t NumDimO = 1;
-
-  static constexpr auto TensorSpecA =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB0 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecB1 =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-  static constexpr auto TensorSpecC =
-      ck::tensor_operation::device::TensorSpecialization::Default;
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
deleted file mode 100644
index ab3c159b7b..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_forward_gemm_constants.h
+++ /dev/null
@@ -1,110 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/ck.hpp>
-#include "ck_fmha_op_helper.h"
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-// clang-format off
-struct GemmOpConstantsBatchedForward {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 32;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 1;
-  static constexpr ck::index_t NXdlPerWave = 4;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t DropoutStep = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
-  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
-  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector = 1; // not actually used by the kernel
-};
-// clang-format on
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-// clang-format off
-struct GemmOpConstantsGroupedForward {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 32;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 1;
-  static constexpr ck::index_t NXdlPerWave = 4;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  static constexpr ck::index_t DropoutStep = 1;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
-  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
-  static constexpr ck::index_t Acc1BiasTransferSrcScalarPerVector = 1; // not actually used by the kernel
-};
-// clang-format on
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
deleted file mode 100644
index b2866cc4fc..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward.h
+++ /dev/null
@@ -1,525 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v1.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_bwd_xdl_cshuffle_qloop_v2.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/math.hpp>
-#include <ck/utility/number.hpp>
-
-#include "ck_align_switch.h"
-#include "ck_fmha_backward_gemm_constants.h"
-#include "ck_fmha_common_gemm_constants.h"
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_params.h"
-
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-struct grouped_backward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-  using Scale = ck::tensor_operation::element_wise::Scale;
-
-  using QKVElementOp = PassThrough;
-  using YElementOp = PassThrough;
-
-  using InputDataType = scalar_t;
-  using OutputDataType =
-      typename std::conditional<use_fp32_qkv_grad, F32, scalar_t>::type;
-  using GemmDataType = scalar_t;
-  using AccDataType = F32;
-  using ShuffleDataType = F32;
-  using LSEDataType = F32;
-  using ZDataType = unsigned short;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr bool Deterministic = true;
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-#ifndef GROUPED_BACKWARD_V1_HEADDIM_SWITCH
-#define GROUPED_BACKWARD_V1_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                               \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                         \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 64, 1, 4>;    \
-      __VA_ARGS__();                                                  \
-    } else {                                                          \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                     \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                    \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;       \
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;    \
-      __VA_ARGS__();                                                  \
-    };                                                                \
-  }()
-#endif
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      typename kCShuffleBlockTransferClusterLengths,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp_V1 = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V1<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          InputDataType,
-          OutputDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          ShuffleDataType,
-          QKVElementOp,
-          QKVElementOp,
-          Scale,
-          QKVElementOp,
-          YElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsGroupedBackward_V1::NumGemmKPrefetchStage,
-          GemmOpConstantsGroupedBackward_V1::BlockSize,
-          GemmOpConstantsGroupedBackward_V1::MPerBlock,
-          GemmOpConstantsGroupedBackward_V1::NPerBlock,
-          kGemm1NPerBlock, // KPerBlock = kGemm1NerBlock
-          kGemm1NPerBlock,
-          GemmOpConstantsGroupedBackward_V1::Gemm1KPerBlock,
-          GemmOpConstantsGroupedBackward_V1::Gemm2KPerBlock,
-          GemmOpConstantsGroupedBackward_V1::AK1,
-          GemmOpConstantsGroupedBackward_V1::BK1,
-          GemmOpConstantsGroupedBackward_V1::B1K1,
-          GemmOpConstantsGroupedBackward_V1::MPerXDL,
-          GemmOpConstantsGroupedBackward_V1::NPerXDL,
-          GemmOpConstantsGroupedBackward_V1::MXdlPerWave,
-          GemmOpConstantsGroupedBackward_V1::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsGroupedBackward_V1::Gemm2NXdlPerWave,
-          GemmOpConstantsGroupedBackward_V1::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsGroupedBackward_V1::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedBackward_V1::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedBackward_V1::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V1::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsGroupedBackward_V1::ABlockLdsExtraM,
-          GemmOpConstantsGroupedBackward_V1::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedBackward_V1::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedBackward_V1::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedBackward_V1::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V1::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedBackward_V1::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V2::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths,
-          kCShuffleBlockTransferScalarPerVector,
-          MaskingSpec,
-          Deterministic>;
-  // clang-format on
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      typename kCShuffleBlockTransferClusterLengths,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kB1BlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp_V2 = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionBackward_Qloop_Xdl_CShuffle_V2<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          InputDataType,
-          OutputDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          ShuffleDataType,
-          QKVElementOp,
-          QKVElementOp,
-          Scale,
-          QKVElementOp,
-          YElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsGroupedBackward_V2::NumGemmKPrefetchStage,
-          GemmOpConstantsGroupedBackward_V2::BlockSize,
-          GemmOpConstantsGroupedBackward_V2::MPerBlock,
-          GemmOpConstantsGroupedBackward_V2::NPerBlock,
-          GemmOpConstantsGroupedBackward_V2::KPerBlock,
-          kGemm1NPerBlock,
-          GemmOpConstantsGroupedBackward_V2::Gemm1KPerBlock,
-          GemmOpConstantsGroupedBackward_V2::Gemm2KPerBlock,
-          GemmOpConstantsGroupedBackward_V2::AK1,
-          GemmOpConstantsGroupedBackward_V2::BK1,
-          GemmOpConstantsGroupedBackward_V2::B1K1,
-          GemmOpConstantsGroupedBackward_V2::MPerXDL,
-          GemmOpConstantsGroupedBackward_V2::NPerXDL,
-          GemmOpConstantsGroupedBackward_V2::MXdlPerWave,
-          GemmOpConstantsGroupedBackward_V2::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsBatchedBackward_V2::Gemm2NXdlPerWave,
-          GemmOpConstantsGroupedBackward_V2::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsGroupedBackward_V2::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedBackward_V2::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedBackward_V2::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V2::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsGroupedBackward_V2::ABlockLdsExtraM,
-          GemmOpConstantsGroupedBackward_V2::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedBackward_V2::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedBackward_V2::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedBackward_V2::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V2::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedBackward_V2::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V2::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedBackward_V2::B1BlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedBackward_V2::B1BlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedBackward_V2::B1BlockTransferSrcVectorDim,
-          kB1BlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedBackward_V2::B1BlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedBackward_V2::B1BlockLdsExtraN,
-          GemmOpConstantsGroupedBackward_V2::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          kCShuffleBlockTransferClusterLengths,
-          kCShuffleBlockTransferScalarPerVector,
-          MaskingSpec,
-          Deterministic>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    if (param.K <= 64 && param.Kv <= 64) {
-      // compile-time constants which don't depend on head-dim switching
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedBackward_V1::AK1 /
-          GemmOpConstantsGroupedBackward_V1::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedBackward_V1::BK1 /
-          GemmOpConstantsGroupedBackward_V1::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-          "and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      GROUPED_BACKWARD_V1_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-        constexpr ck::index_t thread_slice_length_cshuflle_n =
-            (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-             kGemm1NXdlPerWave) /
-            kCShuffleBlockTransferClusterLengths::At(I3);
-
-        constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-            min(2, thread_slice_length_cshuflle_n);
-
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              using DeviceOpInstance = DeviceOpInstanceTemp_V1<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      });
-    } else {
-      constexpr ck::index_t kGemm1NPerBlock = 128;
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;
-      using kCShuffleBlockTransferClusterLengths = S<1, 32, 1, 8>;
-
-      constexpr ck::index_t thread_slice_length_ak1 =
-          GemmOpConstantsGroupedBackward_V2::AK1 /
-          GemmOpConstantsGroupedBackward_V2::
-              ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-      constexpr ck::index_t thread_slice_length_bk1 =
-          GemmOpConstantsGroupedBackward_V2::BK1 /
-          GemmOpConstantsGroupedBackward_V2::
-              BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-      static_assert(
-          thread_slice_length_ak1 == thread_slice_length_bk1,
-          "ABlockTransfer and BBlockTransfer should use completely same K1 sizes "
-          "and ThreadClusterLengths!");
-
-      constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_ak1);
-
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedBackward_V2::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          kCShuffleBlockTransferClusterLengths::At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(2, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp_V2<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kCShuffleBlockTransferClusterLengths,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    };
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(
-      GroupedBackwardParams& param,
-      hipStream_t stream) {
-    // Tunables
-    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-    for (std::size_t i = 0; i < param.num_batches; i++) {
-      int M =
-          param.host_seqstart_q[i + 1] - param.host_seqstart_q[i]; // seqlen Q
-      int N = param.host_seqlen_k.empty()
-          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-          : param.host_seqlen_k[i];
-      int K = param.K;
-      int Kv = param.Kv;
-      int G1q = param.Hq;
-      int G1kv = param.Hkv;
-
-      std::vector<ck::index_t> q_gs_ms_ks_lengths{1, G1q, M, K};
-      std::vector<ck::index_t> q_gs_ms_ks_strides{
-          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-      std::vector<ck::index_t> k_gs_ns_ks_lengths{1, G1kv, N, K};
-      std::vector<ck::index_t> k_gs_ns_ks_strides{
-          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-      std::vector<ck::index_t> kgrad_gs_ns_ks_lengths = {1, G1q, N, K};
-      std::vector<ck::index_t> kgrad_gs_ns_ks_strides = {
-          0,
-          param.tmp_grad_k_strides[1],
-          param.tmp_grad_k_strides[0],
-          param.tmp_grad_k_strides[2]};
-
-      // to be changed to v_gs_ns_os_lengths
-      std::vector<ck::index_t> v_gs_os_ns_lengths{1, G1kv, Kv, N};
-      std::vector<ck::index_t> v_gs_os_ns_strides{
-          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-      std::vector<ck::index_t> vgrad_gs_os_ns_lengths = {1, G1q, Kv, N};
-      std::vector<ck::index_t> vgrad_gs_os_ns_strides = {
-          0,
-          param.tmp_grad_v_strides[1],
-          param.tmp_grad_v_strides[2],
-          param.tmp_grad_v_strides[0]};
-
-      std::vector<ck::index_t> y_gs_ms_os_lengths{1, G1q, M, Kv};
-      std::vector<ck::index_t> y_gs_ms_os_strides{
-          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
-      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-      std::vector<ck::index_t> d_gs_ms_ns_lengths;
-      std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-      if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1q, M, N};
-        d_gs_ms_ns_strides = {
-            0,
-            param.attn_bias_strides[0],
-            param.attn_bias_strides[1],
-            param.attn_bias_strides[2]};
-      } else {
-        d_gs_ms_ns_lengths = {1, 1, 1, 1};
-        d_gs_ms_ns_strides = {0, 0, 0, 0};
-      };
-
-      problem_descs.push_back({
-          q_gs_ms_ks_lengths, // q, dQ should have same shape
-          q_gs_ms_ks_strides,
-          k_gs_ns_ks_lengths, // k, dK should have same shape
-          k_gs_ns_ks_strides,
-          {1, 1, 1, 1},
-          {0, 0, 0, 0},
-          v_gs_os_ns_lengths, // v, dV should have same shape
-          v_gs_os_ns_strides,
-          y_gs_ms_os_lengths, // y, dY should have same shape
-          y_gs_ms_os_strides,
-          lse_gs_ms_lengths,
-          lse_gs_ms_strides,
-          param.is_mqa_gqa ? kgrad_gs_ns_ks_lengths : k_gs_ns_ks_lengths,
-          param.is_mqa_gqa ? kgrad_gs_ns_ks_strides : k_gs_ns_ks_strides,
-          param.is_mqa_gqa ? vgrad_gs_os_ns_lengths : v_gs_os_ns_lengths,
-          param.is_mqa_gqa ? vgrad_gs_os_ns_strides : v_gs_os_ns_strides,
-          d_gs_ms_ns_lengths, // bias, grad_bias should have same shape
-          d_gs_ms_ns_strides,
-          {}, // acc1_biases_gs_ms_os_lengths
-          {}, // acc1_biases_gs_ms_os_strides
-      });
-    }
-
-    float alpha = param.scale;
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptrs,
-        param.k_ptrs,
-        param.randvals_ptrs,
-        param.v_ptrs,
-        param.out_ptrs,
-        param.logsumexp_ptrs,
-        param.grad_out_ptrs,
-        param.grad_q_ptrs,
-        param.grad_k_ptrs,
-        param.grad_v_ptrs,
-        param.attn_bias_ptrs,
-        {}, // p_acc1_bias_vec;
-        param.grad_bias_ptrs,
-        {},
-        problem_descs,
-        QKVElementOp{},
-        QKVElementOp{},
-        Scale{alpha},
-        QKVElementOp{},
-        YElementOp{},
-        param.dropout_prob,
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-    SimpleDeviceMem workspace(op.GetWorkSpaceSize(arg_ptr.get()));
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
-};
-
-template <
-    typename scalar_t,
-    int32_t custom_mask_type,
-    bool has_attn_bias,
-    bool use_fp32_qkv_grad>
-void run_grouped_backward_masktype_attnbias_dispatched(
-    GroupedBackwardParams& param,
-    hipStream_t stream) {
-  grouped_backward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias,
-      use_fp32_qkv_grad>::Run(param, stream);
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
deleted file mode 100644
index 0e3f4f8fac..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_bp16.cpp
+++ /dev/null
@@ -1,113 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_grouped_backward.h"
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 1) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 2) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::bhalf_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
deleted file mode 100644
index ca8a0a4d30..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_backward_fp16.cpp
+++ /dev/null
@@ -1,113 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_grouped_backward.h"
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
-
-void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.use_fp32_qkv_grad,
-      USE_FP32_QKV_GRAD,
-      [&] {
-        if (param.custom_mask_type == 0) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              0,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 1) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              1,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else if (param.custom_mask_type == 2) {
-          run_grouped_backward_masktype_attnbias_dispatched<
-              ck::half_t,
-              2,
-              HAS_ATTN_BIAS,
-              USE_FP32_QKV_GRAD>(param, stream);
-        } else
-          throw std::runtime_error("Invalid custom_mask_type value");
-      });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
deleted file mode 100644
index 0095ec2a7b..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward.h
+++ /dev/null
@@ -1,375 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_fwd_xdl_cshuffle_v2.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/math.hpp>
-#include <ck/utility/number.hpp>
-
-#include "ck_align_switch.h"
-#include "ck_fmha_common_gemm_constants.h"
-#include "ck_fmha_forward_gemm_constants.h"
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_params.h"
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_forward_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-#ifndef GROUPED_FORWARD_HEADDIM_SWITCH
-#define GROUPED_FORWARD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                           \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                     \
-      constexpr ck::index_t kGemm1NPerBlock = 32;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1;   \
-      __VA_ARGS__();                                              \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {              \
-      constexpr ck::index_t kGemm1NPerBlock = 64;                 \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2;   \
-      __VA_ARGS__();                                              \
-    } else {                                                      \
-      constexpr ck::index_t kGemm1NPerBlock = 128;                \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;                \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4;   \
-      __VA_ARGS__();                                              \
-    }                                                             \
-  }()
-#endif
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kB1BlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionForward_Xdl_CShuffle_V2<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          GemmDataType,
-          ZDataType,
-          LSEDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsGroupedForward::NumGemmKPrefetchStage,
-          GemmOpConstantsGroupedForward::BlockSize,
-          GemmOpConstantsGroupedForward::MPerBlock,
-          GemmOpConstantsGroupedForward::NPerBlock,
-          GemmOpConstantsGroupedForward::KPerBlock,
-          kGemm1NPerBlock,
-          GemmOpConstantsGroupedForward::Gemm1KPerBlock,
-          GemmOpConstantsGroupedForward::AK1,
-          GemmOpConstantsGroupedForward::BK1,
-          GemmOpConstantsGroupedForward::B1K1,
-          GemmOpConstantsGroupedForward::MPerXDL,
-          GemmOpConstantsGroupedForward::NPerXDL,
-          GemmOpConstantsGroupedForward::MXdlPerWave,
-          GemmOpConstantsGroupedForward::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsGroupedForward::DropoutStep,
-          GemmOpConstantsGroupedForward::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsGroupedForward::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedForward::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedForward::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedForward::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsGroupedForward::ABlockLdsExtraM,
-          GemmOpConstantsGroupedForward::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedForward::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedForward::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedForward::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedForward::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedForward::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedForward::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedForward::B1BlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedForward::B1BlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedForward::B1BlockTransferSrcVectorDim,
-          kB1BlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedForward::B1BlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedForward::B1BlockLdsExtraN,
-          GemmOpConstantsGroupedForward::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsGroupedForward::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
-          kCShuffleBlockTransferScalarPerVector,
-          GemmOpConstantsGroupedForward::Acc1BiasTransferSrcScalarPerVector,
-          MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsGroupedForward::AK1 /
-        GemmOpConstantsGroupedForward::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsGroupedForward::BK1 /
-        GemmOpConstantsGroupedForward::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-        "ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    GROUPED_FORWARD_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedForward::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(2, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsGroupedForward::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
-    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-    for (std::size_t i = 0; i < param.num_batches; i++) {
-      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-      int N = param.host_seqlen_k.empty()
-          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-          : param.host_seqlen_k[i];
-      int K = param.K;
-      int Kv = param.Kv;
-      int G1q = param.Hq;
-      int G1kv = param.Hkv;
-
-      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
-      std::vector<ck::index_t> a_gs_ms_ks_strides{
-          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
-      std::vector<ck::index_t> b0_gs_ns_ks_strides{
-          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-      // to be changed to b1_gs_ns_os_lengths
-      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
-      std::vector<ck::index_t> b1_gs_os_ns_strides{
-          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
-      std::vector<ck::index_t> c_gs_ms_os_strides{
-          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-      std::vector<ck::index_t> lse_gs_ms_lengths{1, G1q, M};
-      std::vector<ck::index_t> lse_gs_ms_strides{0, param.max_seqlen_q, 1};
-
-      std::vector<ck::index_t> d_gs_ms_ns_lengths;
-      std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-      if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1q, M, N};
-        d_gs_ms_ns_strides = {
-            0,
-            param.attn_bias_strides[0],
-            param.attn_bias_strides[1],
-            param.attn_bias_strides[2]};
-      } else {
-        d_gs_ms_ns_lengths = {1, 1, 1, 1};
-        d_gs_ms_ns_strides = {0, 0, 0, 0};
-      };
-
-      problem_descs.push_back(
-          {a_gs_ms_ks_lengths,
-           a_gs_ms_ks_strides,
-           b0_gs_ns_ks_lengths,
-           b0_gs_ns_ks_strides,
-           b1_gs_os_ns_lengths,
-           b1_gs_os_ns_strides,
-           c_gs_ms_os_lengths,
-           c_gs_ms_os_strides,
-           {1, 1, 1, 1},
-           {0, 0, 0, 0},
-           lse_gs_ms_lengths,
-           lse_gs_ms_strides,
-           d_gs_ms_ns_lengths,
-           d_gs_ms_ns_strides,
-           {}, // acc1_bias_gs_ms_os_lengths
-           {}}); // acc1_bias_gs_ms_os_strides
-    }
-
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptrs,
-        param.k_ptrs,
-        param.v_ptrs,
-        param.out_ptrs,
-        param.randvals_ptrs,
-        param.logsumexp_ptrs,
-        param.attn_bias_ptrs,
-        {}, // p_acc1_biases
-        problem_descs,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op,
-        param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
-        std::tuple<int64_t, int64_t>(param.philox_seed, param.philox_offset));
-
-    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-    SimpleDeviceMem workspace(sizeInBytes);
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
-};
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_forward_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream) {
-  grouped_forward_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
deleted file mode 100644
index 72ebd715e9..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_bp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_grouped_forward.h"
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
deleted file mode 100644
index eb53ad4337..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_forward_fp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_grouped_forward.h"
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_forward_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
deleted file mode 100644
index fbc0b2b1a2..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer.h
+++ /dev/null
@@ -1,359 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <sstream>
-#include <stdexcept>
-
-#include <ck/ck.hpp>
-#include <ck/tensor_operation/gpu/device/gemm_specialization.hpp>
-#include <ck/tensor_operation/gpu/device/impl/device_grouped_mha_infer_xdl_cshuffle.hpp>
-#include <ck/tensor_operation/gpu/device/tensor_specialization.hpp>
-#include <ck/tensor_operation/gpu/element/element_wise_operation.hpp>
-#include <ck/utility/math.hpp>
-#include <ck/utility/number.hpp>
-
-#include "ck_align_switch.h"
-#include "ck_fmha_common_gemm_constants.h"
-#include "ck_fmha_infer_gemm_constants.h"
-#include "ck_fmha_op_helper.h"
-#include "ck_fmha_params.h"
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-struct grouped_infer_masktype_attnbias_dispatched {
-  using PassThrough = ck::tensor_operation::element_wise::PassThrough;
-
-  using GemmDataType = scalar_t;
-  using ADataType = scalar_t;
-  using B0DataType = scalar_t;
-  using B1DataType = scalar_t;
-  using AccDataType = F32;
-  using CShuffleDataType = F32;
-  using CDataType = scalar_t;
-  using ZDataType = unsigned short;
-  using LSEDataType = F32;
-  using Acc0BiasDataType =
-      typename std::conditional<has_attn_bias, scalar_t, void>::type;
-  using Acc1BiasDataType = void;
-
-  using AElementOp = PassThrough;
-  using B0ElementOp = PassThrough;
-  using Acc0ElementOp = ck::tensor_operation::element_wise::Scale;
-  using B1ElementOp = PassThrough;
-  using CElementOp = PassThrough;
-
-  static constexpr auto GemmSpec =
-      ck::tensor_operation::device::GemmSpecialization::MNKOPadding;
-  static constexpr auto MaskingSpec =
-      static_cast<ck::tensor_operation::device::MaskingSpecialization>(
-          custom_mask_type);
-
-  static constexpr ck::index_t kAcc0BiasTransferSrcScalarPerVector = 1;
-
-#ifndef GROUPED_INFER_HEADDIM_SWITCH
-#define GROUPED_INFER_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, ...) \
-  [&] {                                                         \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                   \
-      constexpr ck::index_t kGemm1NPerBlock = 32;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 1;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 1; \
-      __VA_ARGS__();                                            \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {            \
-      constexpr ck::index_t kGemm1NPerBlock = 64;               \
-      constexpr ck::index_t kGemm1NXdlPerWave = 2;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 2; \
-      __VA_ARGS__();                                            \
-    } else {                                                    \
-      constexpr ck::index_t kGemm1NPerBlock = 128;              \
-      constexpr ck::index_t kGemm1NXdlPerWave = 4;              \
-      constexpr ck::index_t kCShuffleNXdlPerWavePerShuffle = 4; \
-      __VA_ARGS__();                                            \
-    }                                                           \
-  }()
-#endif
-
-  // clang-format off
-  template <
-      ck::index_t kGemm1NPerBlock,
-      ck::index_t kGemm1NXdlPerWave,
-      ck::index_t kCShuffleNXdlPerWavePerShuffle,
-      ck::index_t kABBlockTransferSrcScalarPerVector,
-      ck::index_t kB1BlockTransferSrcScalarPerVector,
-      ck::index_t kCShuffleBlockTransferScalarPerVector>
-  using DeviceOpInstanceTemp = ck::tensor_operation::device::DeviceGroupedMultiheadAttentionInfer_Xdl_CShuffle<
-          GemmOpConstantsCommon::NumDimG,
-          GemmOpConstantsCommon::NumDimM,
-          GemmOpConstantsCommon::NumDimN,
-          GemmOpConstantsCommon::NumDimK,
-          GemmOpConstantsCommon::NumDimO,
-          ADataType,
-          B0DataType,
-          B1DataType,
-          CDataType,
-          Acc0BiasDataType,
-          Acc1BiasDataType,
-          AccDataType,
-          CShuffleDataType,
-          AElementOp,
-          B0ElementOp,
-          Acc0ElementOp,
-          B1ElementOp,
-          CElementOp,
-          GemmSpec,
-          GemmOpConstantsCommon::TensorSpecA,
-          GemmOpConstantsCommon::TensorSpecB0,
-          GemmOpConstantsCommon::TensorSpecB1,
-          GemmOpConstantsCommon::TensorSpecC,
-          GemmOpConstantsBatchedInfer::NumGemmKPrefetchStage,
-          GemmOpConstantsGroupedInfer::BlockSize,
-          GemmOpConstantsGroupedInfer::MPerBlock,
-          GemmOpConstantsGroupedInfer::NPerBlock,
-          GemmOpConstantsGroupedInfer::KPerBlock,
-          kGemm1NPerBlock,
-          GemmOpConstantsGroupedInfer::Gemm1KPerBlock,
-          GemmOpConstantsGroupedInfer::AK1,
-          GemmOpConstantsGroupedInfer::BK1,
-          GemmOpConstantsGroupedInfer::B1K1,
-          GemmOpConstantsGroupedInfer::MPerXDL,
-          GemmOpConstantsGroupedInfer::NPerXDL,
-          GemmOpConstantsGroupedInfer::MXdlPerWave,
-          GemmOpConstantsGroupedInfer::NXdlPerWave,
-          kGemm1NXdlPerWave,
-          GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterLengths_AK0_M_AK1,
-          GemmOpConstantsGroupedInfer::ABlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedInfer::ABlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedInfer::ABlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector, 
-          GemmOpConstantsGroupedInfer::ABlockTransferDstScalarPerVector_AK1,
-          GemmOpConstantsGroupedInfer::ABlockLdsExtraM,
-          GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedInfer::BBlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedInfer::BBlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedInfer::BBlockTransferSrcVectorDim,
-          kABBlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedInfer::BBlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedInfer::BBlockLdsExtraN,
-          kAcc0BiasTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterLengths_BK0_N_BK1,
-          GemmOpConstantsGroupedInfer::B1BlockTransferThreadClusterArrangeOrder,
-          GemmOpConstantsGroupedInfer::B1BlockTransferSrcAccessOrder,
-          GemmOpConstantsGroupedInfer::B1BlockTransferSrcVectorDim,
-          kB1BlockTransferSrcScalarPerVector,
-          GemmOpConstantsGroupedInfer::B1BlockTransferDstScalarPerVector_BK1,
-          GemmOpConstantsGroupedInfer::B1BlockLdsExtraN,
-          GemmOpConstantsGroupedInfer::CShuffleMXdlPerWavePerShuffle,
-          kCShuffleNXdlPerWavePerShuffle,
-          GemmOpConstantsGroupedInfer::CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock,
-          kCShuffleBlockTransferScalarPerVector,
-          MaskingSpec>;
-  // clang-format on
-
-  static constexpr auto I1 = ck::Number<1>{};
-  static constexpr auto I2 = ck::Number<2>{};
-  static constexpr auto I3 = ck::Number<3>{};
-
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    using ck::math::min;
-
-    // compile-time constants which don't depend on head-dim switching
-    constexpr ck::index_t thread_slice_length_ak1 =
-        GemmOpConstantsGroupedInfer::AK1 /
-        GemmOpConstantsGroupedInfer::
-            ABlockTransferThreadClusterLengths_AK0_M_AK1::At(I2);
-    constexpr ck::index_t thread_slice_length_bk1 =
-        GemmOpConstantsGroupedInfer::BK1 /
-        GemmOpConstantsGroupedInfer::
-            BBlockTransferThreadClusterLengths_BK0_N_BK1::At(I2);
-
-    static_assert(
-        thread_slice_length_ak1 == thread_slice_length_bk1,
-        "ABlockTransfer and BBlockTransfer should use completely same K1 sizes and "
-        "ThreadClusterLengths!");
-
-    constexpr ck::index_t kABBlockTransferSrcScalarPerVector_max =
-        min(8, thread_slice_length_ak1);
-
-    GROUPED_INFER_HEADDIM_SWITCH(param.K, param.Kv, [&] {
-      constexpr ck::index_t thread_slice_length_gemm1n = kGemm1NPerBlock /
-          GemmOpConstantsGroupedInfer::
-              B1BlockTransferThreadClusterLengths_BK0_N_BK1::At(I1);
-      constexpr ck::index_t kB1BlockTransferSrcScalarPerVector_max =
-          min(4, thread_slice_length_gemm1n);
-
-      constexpr ck::index_t thread_slice_length_cshuflle_n =
-          (kCShuffleNXdlPerWavePerShuffle * kGemm1NPerBlock /
-           kGemm1NXdlPerWave) /
-          GemmOpConstantsGroupedInfer::
-              CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock ::
-                  At(I3);
-
-      constexpr ck::index_t kCShuffleBlockTransferScalarPerVector_max =
-          min(4, thread_slice_length_cshuflle_n);
-
-      if constexpr (
-          kB1BlockTransferSrcScalarPerVector_max >=
-          kCShuffleBlockTransferScalarPerVector_max) {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kB1BlockTransferSrcScalarPerVector_max,
-            kB1BlockTransferSrcScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kCShuffleBlockTransferScalarPerVector =
-                  min(kB1BlockTransferSrcScalarPerVector,
-                      kCShuffleBlockTransferScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      } else {
-        ALIGN_SWITCH_2(
-            kABBlockTransferSrcScalarPerVector_max,
-            kABBlockTransferSrcScalarPerVector,
-            param.K,
-            kCShuffleBlockTransferScalarPerVector_max,
-            kCShuffleBlockTransferScalarPerVector,
-            param.Kv,
-            [&] {
-              constexpr ck::index_t kB1BlockTransferSrcScalarPerVector =
-                  min(kCShuffleBlockTransferScalarPerVector,
-                      kB1BlockTransferSrcScalarPerVector_max);
-              using DeviceOpInstance = DeviceOpInstanceTemp<
-                  kGemm1NPerBlock,
-                  kGemm1NXdlPerWave,
-                  kCShuffleNXdlPerWavePerShuffle,
-                  kABBlockTransferSrcScalarPerVector,
-                  kB1BlockTransferSrcScalarPerVector,
-                  kCShuffleBlockTransferScalarPerVector>;
-
-              RunWithDeviceOp<DeviceOpInstance>(param, stream);
-            });
-      };
-    });
-  };
-
-  template <typename DeviceOpInstance>
-  static void RunWithDeviceOp(GroupedForwardParams& param, hipStream_t stream) {
-    std::vector<typename DeviceOpInstance::ProblemDesc> problem_descs;
-
-    for (std::size_t i = 0; i < param.num_batches; i++) {
-      int M = param.host_seqstart_q[i + 1] - param.host_seqstart_q[i];
-      int N = param.host_seqlen_k.empty()
-          ? param.host_seqstart_k[i + 1] - param.host_seqstart_k[i]
-          : param.host_seqlen_k[i];
-      int K = param.K;
-      int Kv = param.Kv;
-      int G1q = param.Hq;
-      int G1kv = param.Hkv;
-
-      std::vector<ck::index_t> a_gs_ms_ks_lengths{1, G1q, M, K};
-      std::vector<ck::index_t> a_gs_ms_ks_strides{
-          0, param.q_strides[1], param.q_strides[0], param.q_strides[2]};
-
-      std::vector<ck::index_t> b0_gs_ns_ks_lengths{1, G1kv, N, K};
-      std::vector<ck::index_t> b0_gs_ns_ks_strides{
-          0, param.k_strides[1], param.k_strides[0], param.k_strides[2]};
-
-      // to be changed to b1_gs_ns_os_lengths
-      std::vector<ck::index_t> b1_gs_os_ns_lengths{1, G1kv, Kv, N};
-      std::vector<ck::index_t> b1_gs_os_ns_strides{
-          0, param.v_strides[1], param.v_strides[2], param.v_strides[0]};
-
-      std::vector<ck::index_t> c_gs_ms_os_lengths{1, G1q, M, Kv};
-      std::vector<ck::index_t> c_gs_ms_os_strides{
-          0, param.out_strides[1], param.out_strides[0], param.out_strides[2]};
-
-      std::vector<ck::index_t> d_gs_ms_ns_lengths;
-      std::vector<ck::index_t> d_gs_ms_ns_strides;
-
-      if constexpr (has_attn_bias) {
-        d_gs_ms_ns_lengths = {1, G1q, M, N};
-        d_gs_ms_ns_strides = {
-            0,
-            param.attn_bias_strides[0],
-            param.attn_bias_strides[1],
-            param.attn_bias_strides[2]};
-      } else {
-        d_gs_ms_ns_lengths = {1, 1, 1, 1};
-        d_gs_ms_ns_strides = {0, 0, 0, 0};
-      };
-
-      problem_descs.push_back(
-          {a_gs_ms_ks_lengths,
-           a_gs_ms_ks_strides,
-           b0_gs_ns_ks_lengths,
-           b0_gs_ns_ks_strides,
-           b1_gs_os_ns_lengths,
-           b1_gs_os_ns_strides,
-           c_gs_ms_os_lengths,
-           c_gs_ms_os_strides,
-           d_gs_ms_ns_lengths,
-           d_gs_ms_ns_strides,
-           {}, // acc1_bias_gs_ms_os_lengths
-           {}}); // acc1_bias_gs_ms_os_strides
-    }
-
-    float alpha = param.scale;
-
-    auto a_element_op = AElementOp{};
-    auto b0_element_op = B0ElementOp{};
-    auto acc0_element_op = Acc0ElementOp{alpha};
-    auto b1_element_op = B1ElementOp{};
-    auto c_element_op = CElementOp{};
-
-    auto op = DeviceOpInstance{};
-    auto invoker = op.MakeInvoker();
-
-    auto arg_ptr = op.MakeArgumentPointer(
-        param.q_ptrs,
-        param.k_ptrs,
-        param.v_ptrs,
-        param.out_ptrs,
-        param.attn_bias_ptrs,
-        {}, // p_acc1_biases
-        problem_descs,
-        a_element_op,
-        b0_element_op,
-        acc0_element_op,
-        b1_element_op,
-        c_element_op);
-
-    auto sizeInBytes = op.GetWorkSpaceSize(arg_ptr.get());
-
-    SimpleDeviceMem workspace(sizeInBytes);
-
-    op.SetWorkSpacePointer(arg_ptr.get(), workspace.GetDeviceBuffer());
-
-    if (!op.IsSupportedArgument(arg_ptr.get())) {
-      std::ostringstream ostr;
-
-      ostr << op.GetTypeString() << " does not support this problem";
-
-      throw std::runtime_error(ostr.str());
-    }
-
-    (void)invoker.Run(arg_ptr.get(), StreamConfig{stream, false});
-  };
-};
-
-template <typename scalar_t, int32_t custom_mask_type, bool has_attn_bias>
-void run_grouped_infer_masktype_attnbias_dispatched(
-    GroupedForwardParams& param,
-    hipStream_t stream) {
-  grouped_infer_masktype_attnbias_dispatched<
-      scalar_t,
-      custom_mask_type,
-      has_attn_bias>::Run(param, stream);
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
deleted file mode 100644
index ef10143987..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_bp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_grouped_infer.h"
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::bhalf_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
deleted file mode 100644
index 7fa075c85f..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_grouped_infer_fp16.cpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_bool_switch.h"
-#include "ck_fmha_grouped_infer.h"
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
-
-void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_1(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    if (param.custom_mask_type == 0)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          0,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 1)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          1,
-          HAS_ATTN_BIAS>(param, stream);
-    else if (param.custom_mask_type == 2)
-      run_grouped_infer_masktype_attnbias_dispatched<
-          ck::half_t,
-          2,
-          HAS_ATTN_BIAS>(param, stream);
-    else
-      throw std::runtime_error("Invalid custom_mask_type value");
-  });
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h b/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
deleted file mode 100644
index 0b7708fe05..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_infer_gemm_constants.h
+++ /dev/null
@@ -1,106 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/ck.hpp>
-#include "ck_fmha_op_helper.h"
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-// clang-format off
-struct GemmOpConstantsBatchedInfer {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 32;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 1;
-  static constexpr ck::index_t NXdlPerWave = 4;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
-  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-//clang-format on
-
-// list the template parameters that will not be tuned,
-// the commented lines gives the tunable template parameters
-// clang-format off
-struct GemmOpConstantsGroupedInfer {
-  static constexpr ck::index_t NumGemmKPrefetchStage = 1;
-  static constexpr ck::index_t BlockSize = 256;
-  static constexpr ck::index_t MPerBlock = 128;
-  static constexpr ck::index_t NPerBlock = 128;
-  static constexpr ck::index_t KPerBlock = 32;
-  // static constexpr ck::index_t Gemm1NPerBlock;
-  static constexpr ck::index_t Gemm1KPerBlock = 32;
-  static constexpr ck::index_t AK1 = 8;
-  static constexpr ck::index_t BK1 = 8;
-  static constexpr ck::index_t B1K1 = 2;
-  static constexpr ck::index_t MPerXDL = 32;
-  static constexpr ck::index_t NPerXDL = 32;
-  static constexpr ck::index_t MXdlPerWave = 1;
-  static constexpr ck::index_t NXdlPerWave = 4;
-  // static constexpr ck::index_t Gemm1NXdlPerWave;
-  using ABlockTransferThreadClusterLengths_AK0_M_AK1 = S<4, 64, 1>;
-  using ABlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using ABlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t ABlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t ABlockTransferSrcScalarPerVector,
-  static constexpr ck::index_t ABlockTransferDstScalarPerVector_AK1 = 4;
-  static constexpr bool ABlockLdsExtraM = true;
-  using BBlockTransferThreadClusterLengths_BK0_N_BK1 = S<4, 64, 1>;
-  using BBlockTransferThreadClusterArrangeOrder = S<1, 0, 2>;
-  using BBlockTransferSrcAccessOrder = S<1, 0, 2>;
-  static constexpr ck::index_t BBlockTransferSrcVectorDim = 2;
-  // static constexpr ck::index_t BBlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t BBlockTransferDstScalarPerVector_BK1 = 4;
-  static constexpr bool BBlockLdsExtraN = true;
-  // static constexpr ck::index_t Acc0BiasTransferSrcScalarPerVector;
-  using B1BlockTransferThreadClusterLengths_BK0_N_BK1 = S<16, 16, 1>;
-  using B1BlockTransferThreadClusterArrangeOrder = S<0, 2, 1>;
-  using B1BlockTransferSrcAccessOrder = S<0, 2, 1>;
-  static constexpr ck::index_t B1BlockTransferSrcVectorDim = 1;
-  // static constexpr ck::index_t B1BlockTransferSrcScalarPerVector;
-  static constexpr ck::index_t B1BlockTransferDstScalarPerVector_BK1 = 2;
-  static constexpr bool B1BlockLdsExtraN = false;
-  static constexpr ck::index_t CShuffleMXdlPerWavePerShuffle = 1;
-  // static constexpr ck::index_t CShuffleNXdlPerWavePerShuffle;
-  using CShuffleBlockTransferClusterLengths_MBlock_MPerBlock_NBlock_NPerBlock = S<1, 8, 1, 32>;
-  // static constexpr ck::index_t CShuffleBlockTransferScalarPerVector_NPerBlock;
-};
-// clang-format on
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h b/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
deleted file mode 100644
index 24ab800e9f..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_op_helper.h
+++ /dev/null
@@ -1,49 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <map>
-#include <mutex>
-
-#include <c10/hip/HIPCachingAllocator.h>
-#include <ck/utility/data_type.hpp>
-
-template <typename scalar_t>
-struct MaxVectorSizeForType {
-  static constexpr int value = 4;
-};
-
-template <>
-struct MaxVectorSizeForType<ck::half_t> {
-  static constexpr int value = 8;
-};
-
-template <>
-struct MaxVectorSizeForType<ck::bhalf_t> {
-  static constexpr int value = 8;
-};
-
-struct SimpleDeviceMem {
-  SimpleDeviceMem() = delete;
-  SimpleDeviceMem(size_t sizeInBytes) {
-    pData_ = c10::hip::HIPCachingAllocator::raw_alloc(sizeInBytes);
-  }
-  void* GetDeviceBuffer() {
-    return pData_;
-  }
-  ~SimpleDeviceMem() {
-    c10::cuda::HIPCachingAllocator::raw_delete(pData_);
-  }
-
-  void* pData_;
-};
-
-// useful aliasing for making the codes easy
-template <ck::index_t... Is>
-using S = ck::Sequence<Is...>;
-
-using F32 = float;
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
deleted file mode 100644
index 918126591e..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_params.h
+++ /dev/null
@@ -1,212 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <array>
-#include <cstdint>
-
-struct BatchedInferParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-
-  // BMHK mode strides
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> out_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* out_ptr;
-};
-
-struct BatchedForwardParams : public BatchedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // completely contiguous
-  void* logsumexp_ptr;
-};
-
-struct GroupedInferParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  int max_seqlen_q;
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<void*> out_ptrs;
-
-  uint8_t custom_mask_type;
-};
-
-struct GroupedForwardParams : public GroupedInferParams {
-  bool use_dropout;
-  bool compute_logsumexp;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // completely contiguous
-  std::vector<void*> logsumexp_ptrs;
-
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
-};
-
-struct BatchedBackwardParams {
-  int B; // batch size
-  int M; // seq_len for Query
-  int N; // seq_len for Key and Value
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  float scale;
-  bool has_attn_bias;
-  bool bias_has_grad;
-
-  bool use_fp32_qkv_grad;
-  bool is_mqa_gqa;
-
-  // BMHK mode strides, last-dim contiguous
-  std::array<int, 4> q_strides;
-  std::array<int, 4> k_strides;
-  std::array<int, 4> v_strides;
-  std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
-  std::array<int, 4> out_strides;
-
-  std::array<int, 4> tmp_grad_k_strides;
-  std::array<int, 4> tmp_grad_v_strides;
-
-  const void* q_ptr;
-  const void* k_ptr;
-  const void* v_ptr;
-  const void* attn_bias_ptr;
-  const void* grad_out_ptr;
-  const void* out_ptr;
-
-  uint8_t custom_mask_type;
-
-  void* grad_q_ptr;
-  void* grad_k_ptr;
-  void* grad_v_ptr;
-  void* grad_bias_ptr;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // BHM mode lengths, completely contiguous
-  const void* logsumexp_ptr;
-};
-
-struct GroupedBackwardParams {
-  int num_batches;
-  int M; // total seq_len for all queries in the batch
-  int N; // total seq_len for all keys/values in the batch
-  int Hq; // number of heads for Query
-  int Hkv; // number of heads for Key and Value
-  int K; // embed_dim for Query and Key
-  int Kv; // embed_dim for Value
-
-  int max_seqlen_q;
-
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
-
-  float scale;
-  bool has_attn_bias;
-  bool bias_has_grad;
-
-  bool use_fp32_qkv_grad;
-  bool is_mqa_gqa;
-
-  // MHK mode strides, last-dim contiguous
-  std::array<int, 3> q_strides;
-  std::array<int, 3> k_strides;
-  std::array<int, 3> v_strides;
-  std::array<int, 3> out_strides;
-  // 4d tensor view [B, H, M, N]
-  std::array<int, 4> attn_bias_strides;
-
-  std::array<int, 3> tmp_grad_k_strides;
-  std::array<int, 3> tmp_grad_v_strides;
-
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<const void*> grad_out_ptrs;
-  std::vector<const void*> out_ptrs;
-
-  // used by the light_v2 kernel
-  // TODO use these as workspace
-  std::vector<void*> ydotdy_ptrs;
-
-  uint8_t custom_mask_type;
-
-  std::vector<void*> grad_q_ptrs;
-  std::vector<void*> grad_k_ptrs;
-  std::vector<void*> grad_v_ptrs;
-  std::vector<void*> grad_bias_ptrs;
-
-  float dropout_prob;
-  int64_t philox_seed;
-  int64_t philox_offset;
-
-  // BHM mode lengths, completely contiguous
-  std::vector<const void*> logsumexp_ptrs;
-
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
index f97c8dd662..08825f1a88 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_test.cpp
@@ -16,15 +16,6 @@ bool is_ck_fmha_available(double val) {
   return (true);
 };
 
-// For checking if ck-tiled kernel is used
-bool is_ck_tiled_used() {
-#if defined(USE_CK_TILED_KERNEL)
-  return (true);
-#else
-  return (false);
-#endif
-};
-
 } // namespace
 
 TORCH_LIBRARY_FRAGMENT(xformers, m) {
@@ -33,9 +24,4 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
   m.impl(
       TORCH_SELECTIVE_NAME("xformers::is_ck_fmha_available"),
       TORCH_FN(is_ck_fmha_available));
-
-  m.def(TORCH_SELECTIVE_SCHEMA("xformers::is_ck_tiled_used() -> bool"));
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::is_ck_tiled_used"),
-      TORCH_FN(is_ck_tiled_used));
 }
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 509f838275..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 239204ad26..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 06c4370ff0..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index c5263f1670..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 706bf41461..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 91aac31d9f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index c882648e51..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index 5ce517a80b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 983538314d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 3202979acf..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 68b4d782ae..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index a7786f5960..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 8205af6fa3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index b69fdda9b8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 786b294ee3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index 8bebad6d12..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 47bfbb6bab..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index b3efcb0f64..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 366a1be0bb..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index a1b19853cf..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,16 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include <stdexcept>
-
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index c764522f3a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 53e93ab406..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 135932bb6a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index b36435a564..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_backward.h"
-
-template void run_batched_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 61a34f3bd7..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 99ef697c7c..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 27d8f33892..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 9b81f64c13..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 014b077e3d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 9a5b10848b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 52a38e71f7..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index b96463d838..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index dd4a8d4e24..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 6fd666459d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index e2c25b131f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index daee907851..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_forward_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_batched_forward.h"
-
-template void run_batched_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index fae4e95db7..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 3ea61a46ac..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index aa01129f87..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 1596dbea97..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index d5a27c62ab..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index b47dcb4850..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 2144a980ea..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 961a5b8f95..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 308adb5972..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index dd24e182b3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 590d032f15..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 1440164c7e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_batched_infer_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_batched_infer.h"
-
-template void run_batched_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index ced06186a1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 9f61adfc98..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 2d4b51888a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index a49a8704c3..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index c2279d835b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 382bf01436..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 1b7549e3e8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index f066949558..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 3a86c12f8f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index c287a283d2..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 6b06378ddf..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index 13d1bc553b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_bp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 71cdf5b355..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 792f55e4d5..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 5776e856da..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index d3f2eec109..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_0_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 27962589e6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index fa837a65ca..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 7a83d46552..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index 807d231565..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_1_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 508d018829..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
deleted file mode 100644
index 5954578f2e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_no_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 78482f931f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    false>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
deleted file mode 100644
index f38ea2ab28..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_backward_fp16_masktype_2_with_attnbias_fp32_grad.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_backward.h"
-
-template void run_grouped_backward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true,
-    true>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 3f6f0025bc..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 22918197f1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index fffe1b188d..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index b6020c0997..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 16f780c9e7..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 28c1f0832b..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 428b1b9ec6..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 442e54a28e..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index a8520501d1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 7a6075ab54..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index c935634915..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index dc1fbc96b4..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_forward_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-#include "ck_fmha_grouped_forward.h"
-
-template void run_grouped_forward_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index 62ff93032a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index e3d2da2cc5..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index 4d1f3c7f0a..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index 170e8a56fc..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index b615233aa5..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index 2f1227b87f..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_bp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::bhalf_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
deleted file mode 100644
index bb20cf7809..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
deleted file mode 100644
index 509986e1c8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_0_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    0,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
deleted file mode 100644
index a53a0f4856..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
deleted file mode 100644
index b35c585261..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_1_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    1,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
deleted file mode 100644
index 53e30115a1..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_no_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    false>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
deleted file mode 100644
index d25650c8e8..0000000000
--- a/xformers/csrc/attention/hip_fmha/instances/ck_fmha_grouped_infer_fp16_masktype_2_with_attnbias.cpp
+++ /dev/null
@@ -1,14 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_fmha_grouped_infer.h"
-
-template void run_grouped_infer_masktype_attnbias_dispatched<
-    ck::half_t,
-    2,
-    true>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index f43cb7905c..aaca59113d 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -149,14 +149,6 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
     return int(_CustomMaskType.NoCustomMask)
 
 
-# checking the availability of ck-tiled is necessary since ck-tiled does not
-# have the same functionalities as old-CK
-def is_ck_tiled() -> bool:
-    # ck_check_op is temporarily used to check ck-tiled availability
-    ck_check_op = get_xformers_operator("is_ck_tiled_used")
-    return ck_check_op()
-
-
 @register_operator
 class FwOp(AttentionFwOpBase):
     """xFormers' MHA kernel based on Composable Kernel."""
@@ -166,34 +158,22 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
     SUPPORTED_MAX_K = 256
 
-    if is_ck_tiled():
-        SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-            type(None),
-            torch.Tensor,
-            LowerTriangularMask,
-            LowerTriangularFromBottomRightMask,
-            LowerTriangularFromBottomRightLocalAttentionMask,
-            LowerTriangularMaskWithTensorBias,
-            BlockDiagonalMask,
-            BlockDiagonalCausalMask,
-            BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            attn_bias.BlockDiagonalCausalLocalAttentionMask,
-            BlockDiagonalCausalLocalAttentionFromBottomRightMask,
-        }
-    else:
-        SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
-            type(None),
-            torch.Tensor,
-            LowerTriangularMask,
-            LowerTriangularMaskWithTensorBias,
-            BlockDiagonalMask,
-            BlockDiagonalCausalMask,
-            BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        }
+    SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
+        type(None),
+        torch.Tensor,
+        LowerTriangularMask,
+        LowerTriangularFromBottomRightMask,
+        LowerTriangularFromBottomRightLocalAttentionMask,
+        LowerTriangularMaskWithTensorBias,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+    }
 
-    SUPPORTS_DROPOUT = False if is_ck_tiled() else True
+    SUPPORTS_DROPOUT = False
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
     SUPPORTS_BMGHK = True
@@ -216,8 +196,6 @@ class FwOp(AttentionFwOpBase):
         256,  # 64x128 with accumulation in gmem
     ]
 
-    IS_CK_TILED = is_ck_tiled()
-
     @classmethod
     def apply(
         cls, inp: Inputs, needs_gradient: bool
@@ -289,12 +267,6 @@ def apply_bmhk(
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
         seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
-        if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
-            seqlen_k = (
-                inp.attn_bias.k_seqinfo.seqlen
-                if is_ck_tiled()
-                else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
-            )
         out, lse, rng_seed, rng_offset = cls.OPERATOR(
             query=inp.query,
             key=inp.key,
@@ -307,19 +279,25 @@ def apply_bmhk(
             compute_logsumexp=needs_gradient,
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
-            seqlen_k=seqlen_k
-            if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
-            else None,
-            window_size=inp.attn_bias._window_size
-            if isinstance(
-                inp.attn_bias,
-                (
-                    BlockDiagonalCausalLocalAttentionMask,
-                    BlockDiagonalCausalLocalAttentionFromBottomRightMask,
-                    LowerTriangularFromBottomRightLocalAttentionMask,
-                ),
-            )
-            else None,
+            seqlen_k=(
+                inp.attn_bias.k_seqinfo.seqlen
+                if isinstance(
+                    inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask
+                )
+                else None
+            ),
+            window_size=(
+                inp.attn_bias._window_size
+                if isinstance(
+                    inp.attn_bias,
+                    (
+                        BlockDiagonalCausalLocalAttentionMask,
+                        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                        LowerTriangularFromBottomRightLocalAttentionMask,
+                    ),
+                )
+                else None
+            ),
         )
 
         ctx: Optional[Context] = None
@@ -349,7 +327,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         requires_grad = (
             d.query.requires_grad or d.key.requires_grad or d.value.requires_grad
         )
-        if is_ck_tiled() and requires_grad:
+        if requires_grad:
             reasons.append("Gradience is currently not supported by ck-tiled!")
         return reasons
 
@@ -413,8 +391,6 @@ class BwOp(AttentionBwOpBase):
         256,  # 64x128 with accumulation in gmem
     ]
 
-    IS_CK_TILED = is_ck_tiled()
-
     @classmethod
     def not_supported_reasons(cls, d: Inputs) -> List[str]:
         reasons = super(BwOp, cls).not_supported_reasons(d)
@@ -446,8 +422,8 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                     f"/ expected: {expected_bias_shape})"
                 )
         _check_large_shapes(reasons, d)
-        if is_ck_tiled():
-            reasons.append("Backward is currently not supported by ck-tiled!")
+
+        reasons.append("Backward is currently not supported by ck-tiled!")
         return reasons
 
     @classmethod
@@ -458,13 +434,6 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
-        if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
-            seqlen_k = (
-                inp.attn_bias.k_seqinfo.seqlen
-                if is_ck_tiled()
-                else inp.attn_bias.k_seqinfo.seqlen.to(torch.device("cpu"))
-            )
-
         rng_seed = rng_offset = 0
         if inp.p != 0.0:
             if (
@@ -485,9 +454,13 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
             max_seqlen_q=max_seqlen_q,
-            seqlen_k=seqlen_k
-            if isinstance(inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
-            else None,
+            seqlen_k=(
+                inp.attn_bias.k_seqinfo.seqlen
+                if isinstance(
+                    inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask
+                )
+                else None
+            ),
             logsumexp=ctx.lse,
             output=ctx.out.to(dtype),
             dropout_p=inp.p,

From 9e4582d653d32cb27125b55cab02915308af322a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 17:38:52 +0000
Subject: [PATCH 440/837] Remove old composable_kernel from submodule list

---
 .gitmodules | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index cbef796c73..6358114101 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -1,10 +1,6 @@
 [submodule "third_party/cutlass"]
 	path = third_party/cutlass
 	url = https://github.com/NVIDIA/cutlass.git
-[submodule "third_party/composable_kernel"]
-	path = third_party/composable_kernel
-	url = https://github.com/ROCm/composable_kernel.git
-	branch = mha-train-develop
 [submodule "third_party/flash-attention"]
 	path = third_party/flash-attention
 	url = https://github.com/Dao-AILab/flash-attention.git

From 356cafd6a330567631e1fe881c3ff36296de619f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Feb 2024 17:45:43 +0000
Subject: [PATCH 441/837] Remove folder third_party/composable_kernel

---
 third_party/composable_kernel | 1 -
 1 file changed, 1 deletion(-)
 delete mode 160000 third_party/composable_kernel

diff --git a/third_party/composable_kernel b/third_party/composable_kernel
deleted file mode 160000
index 719219b9f1..0000000000
--- a/third_party/composable_kernel
+++ /dev/null
@@ -1 +0,0 @@
-Subproject commit 719219b9f1f4143e5fdd657dd16b704a22821766

From 79c554cdc3d1a0950ee98a5c0053b05c5ffa7466 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 8 Feb 2024 13:17:13 +0000
Subject: [PATCH 442/837] Rename the folder

---
 setup.py                                                        | 2 +-
 .../\\" => "xformers/csrc/attention/hip_fmha/instances/\\"      | 0
 ...tched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...tched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ...atched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ...atched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...hed_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...hed_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...hed_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...hed_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...ched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...ched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...d_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...d_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ed_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ed_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...tched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...tched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ...atched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ...atched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...hed_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...hed_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...hed_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...hed_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...ched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...ched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...d_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...d_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ed_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ed_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ..._batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ..._batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...tched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...tched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...atched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...atched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...tched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...tched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...atched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...atched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...hed_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...hed_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ..._batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ..._batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...tched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...tched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...atched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...atched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...tched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...tched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...atched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...atched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...hed_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...hed_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...ouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...ouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ...rouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ...rouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...ped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...ped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...uped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...uped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...ped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...ped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...uped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...uped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...d_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...d_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ed_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ed_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...ouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...ouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ...rouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ...rouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...ped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...ped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...uped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...uped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...ped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...ped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...uped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...uped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...d_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...d_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...ed_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...ed_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ..._grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ..._grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...ouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...ouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...rouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...rouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...ouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...ouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...rouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...rouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...ped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...ped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...uped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...uped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 ...grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp | 0
 ...grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp | 0
 ..._grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp | 0
 ..._grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp | 0
 ...ouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp | 0
 ...ouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp | 0
 ...rouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp | 0
 ...rouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp | 0
 ...ouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp | 0
 ...ouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp | 0
 ...rouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp | 0
 ...rouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp | 0
 ...ped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp | 0
 ...ped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp | 0
 ...uped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp | 0
 ...uped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp | 0
 130 files changed, 1 insertion(+), 1 deletion(-)
 rename "xformers/csrc/attention/hip_fmha/instances_tiled/\\" => "xformers/csrc/attention/hip_fmha/instances/\\" (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp (100%)
 rename xformers/csrc/attention/hip_fmha/{instances_tiled => instances}/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp (100%)

diff --git a/setup.py b/setup.py
index e1875123ad..9978537001 100644
--- a/setup.py
+++ b/setup.py
@@ -334,7 +334,7 @@ def get_extensions():
             extensions_dir,
             "attention",
             "hip_fmha",
-            "instances_tiled",
+            "instances",
             "ck_tiled_fmha_*.cpp",
         ),
         recursive=False,
diff --git "a/xformers/csrc/attention/hip_fmha/instances_tiled/\\" "b/xformers/csrc/attention/hip_fmha/instances/\\"
similarity index 100%
rename from "xformers/csrc/attention/hip_fmha/instances_tiled/\\"
rename to "xformers/csrc/attention/hip_fmha/instances/\\"
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances_tiled/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp

From 2be6c04d80e1d6d9f875d3b27ad5059c9afbcb28 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 8 Feb 2024 21:36:17 +0000
Subject: [PATCH 443/837] Remove unused script file

---
 tests/test_ck_7.py | 875 ---------------------------------------------
 1 file changed, 875 deletions(-)
 delete mode 100644 tests/test_ck_7.py

diff --git a/tests/test_ck_7.py b/tests/test_ck_7.py
deleted file mode 100644
index 7477c3f70e..0000000000
--- a/tests/test_ck_7.py
+++ /dev/null
@@ -1,875 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
-
-import pytest
-import torch
-
-import xformers.ops
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-
-from .utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-_types = [torch.float16, torch.bfloat16]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
-    fmha.ck.BwOp,
-]
-
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    for B in op._TEST_BATCH_SIZES:
-        for Mq in [32, 256]:
-            for Mkv in [32, 64, 256, 1024]:
-                for K in op._TEST_K:
-                    shapes.append((B, Mq, Mkv, 1, K, K))
-        Mq = 256
-        Mkv = 128
-        K = 32
-        H = 1
-        # Weird values of parameters
-        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
-            shapes.append((B, M, Mkv, H, K, K))
-            shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
-            if _K <= op.SUPPORTED_MAX_K:
-                shapes.append((B, Mq, Mkv, H, _K, _K))
-        # Different value for K / Kv
-        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-            for _K in [32, 36, 64, 256 + 8]:
-                shapes.append((B, Mq, Mkv, H, K, _K))
-                shapes.append((B, Mq, Mkv, H, _K, K))
-        # Exotic sizes
-        for K in op._TEST_K:
-            shapes.append((B, 16, 1024, H, K, K))
-            shapes.append((B, 1024, 16, H, K, K))
-        # Some number of heads
-        for H in [3, 5, 12]:
-            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
-    # Filter-out not supported shapes
-    shapes = [
-        shape
-        for shape in shapes
-        if len(
-            op.shape_not_supported_reasons(
-                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
-            )
-        )
-        == 0
-    ]
-    # Add some random shapes
-    if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        found_count = 0
-        while found_count < 20:
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
-                continue
-            found_count += 1
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def make_id(op, device, dtype, bias_type, *shape):
-    return (
-        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-        f"-{'-'.join([str(s) for s in shape])}"
-    )
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-    return {
-        "argvalues": combination,
-        "ids": [make_id(*c) for c in combination],
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
-)
-
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            #
-            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        if fmt == "BMK":
-            attn_bias = attn_bias[:, 0]
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
-def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
-    tensor_with_grad: Optional[torch.Tensor] = None
-    if isinstance(attn_bias, torch.Tensor):
-        tensor_with_grad = attn_bias
-    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-        tensor_with_grad = attn_bias._bias
-    if tensor_with_grad is not None:
-        grad = tensor_with_grad.grad
-        if clear:
-            tensor_with_grad.grad = None
-        return grad
-    return None
-
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("packed", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed,
-    fmt,
-):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
-    )
-
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        else:
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-        assert not query.is_contiguous()
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@pytest.mark.parametrize("k_len", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 4])
-@pytest.mark.parametrize("kv_len", [128, 512])
-@pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("device", [torch.device("cuda")])
-@pytest.mark.parametrize("dtype", _types)
-def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
-    scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
-    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, op=(fmha.ck.FwOp, None)
-    )
-    # this should be equivalent to the average over value
-    ref = value.mean(1, keepdim=True).expand_as(query)
-
-    if dtype is torch.float16:
-        assert_allclose(out, ref, atol=1e-5)
-    else:
-        assert_allclose(out, ref, atol=1e-2)
-
-
-def _block_diag_reshape_lse(
-    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
-) -> torch.Tensor:
-    """LSE can be padded, let's remove the padding"""
-    parts = []
-    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
-        parts.append(slice[:, : end - start])
-    return torch.cat(parts, dim=1).unsqueeze(1)
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
-    )
-
-    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query,
-        key,
-        value,
-        op=op,
-        attn_bias=attn_bias,
-    )
-    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            tensor_bias = attn_bias.materialize(
-                (query.shape[0], 1, query.shape[1], key.shape[1]),
-                device=query.device,
-                dtype=torch.float32,
-            )
-        else:
-            assert isinstance(attn_bias, torch.Tensor)
-            tensor_bias = attn_bias
-        if tensor_bias.ndim == 4:
-            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
-        attn = attn + tensor_bias.float()
-    ref_lse = attn.logsumexp(-1)
-    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
-        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
-    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("grad_out_contiguous", [True])
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_backward(
-    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    grad_out_contiguous,
-    fmt,
-):
-    (
-        op_bw,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if k > 128 or kv > 128:
-        pytest.skip(
-            "head-dim length bigger than 128 is not supported by CK-FlashAttention-1"
-        )
-
-    if k % 8 != 0 or kv % 8 != 0:
-        pytest.skip("head-dim length must be an even value for CK-FlashAttention-1")
-
-    # BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
-    if (
-        bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-        and q_len <= kv_len
-    ):
-        pytest.skip(
-            "BlockDiagonalCausalFromBottomRightMask requires kv_len bigger than q_len"
-        )
-
-    if k != kv:
-        pytest.skip("k same as kv is not well tested by CK-FlashAttention-1")
-
-    # attn_bias_requires_grad = (
-    #    random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
-    # )
-    attn_bias_requires_grad = False
-
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        attn_bias_requires_grad=attn_bias_requires_grad,
-        fmt=fmt,
-    )
-    op_fw = (
-        sample_random_supported_fw(
-            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
-            seed=q_len * kv + kv_len * k,
-        )
-        if op_bw != fmha.ck.BwOp
-        else fmha.ck.FwOp
-    )
-    qkv = None
-
-    if (
-        fmt == "BMHK"
-        and query.shape[3] == value.shape[3]
-        and query.shape[1] == value.shape[1]
-    ):
-        qkv = torch.stack([query, key, value], 2)
-        qkv.requires_grad_(True)
-        # bm3hk -> 3 x bmhk
-        query, key, value = xformers.ops.unbind(qkv, 2)
-        assert not query.is_contiguous()
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
-        pytest.skip("inputs not supported")
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, op=(op_fw, op_bw)
-    )
-
-    grad_out = torch.ones_like(out)
-    # if grad_out_contiguous is False:
-    #    grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
-    #        None, None, :
-    #    ].expand_as(out)
-
-    out.backward(grad_out)
-
-    if qkv is None and op_bw == fmha.ck.BwOp:
-        assert query.stride() == query.grad.stride()
-
-    grads = []
-    if qkv is None:
-        grads = [query.grad, key.grad, value.grad]
-        query.grad = None
-        key.grad = None
-        value.grad = None
-    else:
-        grads = [qkv.grad]
-        qkv.grad = None
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
-        if attn_bias_grad is not None:
-            grads.append(attn_bias_grad)
-
-    ref = ref_attention(query, key, value, attn_bias)
-    ref.backward(grad_out)
-
-    assert_allclose(
-        out.float(),
-        ref.float(),
-        "fw pass",
-        atol=op_fw.ERROR_ATOL[dtype],
-        rtol=op_fw.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-    del out
-    del grad_out
-    del ref
-
-    atol = op_bw.ERROR_ATOL[dtype]
-    rtol = op_bw.ERROR_RTOL[dtype]
-
-    grads_ref = []
-    grads_name = []
-    if qkv is None:
-        assert isinstance(query.grad, torch.Tensor)
-        assert isinstance(key.grad, torch.Tensor)
-        assert isinstance(value.grad, torch.Tensor)
-        grads_ref = [query.grad, key.grad, value.grad]
-        grads_name = ["query", "key", "value"]
-    else:
-        assert isinstance(qkv.grad, torch.Tensor)
-        grads_ref = [qkv.grad]
-        grads_name = ["qkv"]
-
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias)
-        if attn_bias_grad is not None:
-            grads_ref.append(attn_bias.grad)
-            grads_name.append("bias")
-
-    del query
-    del key
-    del value
-    del qkv
-
-    assert len(grads_ref) == len(
-        grads
-    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
-    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
-        assert_allclose(
-            calc_grad,
-            ref_grad,
-            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
-            atol=atol,
-            rtol=rtol,
-        )

From 61d875afbb1224b17a586b63ca6d5631dc875e97 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 9 Feb 2024 00:01:59 +0000
Subject: [PATCH 444/837] apply black

---
 xformers/benchmarks/benchmark_attn_decoding.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 3c30e57026..19c34bb8f6 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -151,9 +151,9 @@ def fw(self) -> None:
                 v = v[:, :, :, 0]
             return flash_attn.flash_attn_func(q, k, v)
 
-    BENCHMARKS[f"flash-attention@{flash_attn.__version__}"] = (
-        AttentionDecodingFlashAttention
-    )
+    BENCHMARKS[
+        f"flash-attention@{flash_attn.__version__}"
+    ] = AttentionDecodingFlashAttention
 except ImportError:
     pass
 

From 4616121bddf77b183c78b3d8b7bbdf17a58285a9 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 9 Feb 2024 00:08:30 +0000
Subject: [PATCH 445/837] pacify mypy

---
 xformers/ops/fmha/ck_decoder.py | 3 ++-
 xformers/ops/fmha/ck_splitk.py  | 3 ++-
 xformers/ops/fmha/triton.py     | 4 ++++
 3 files changed, 8 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 0da84d4412..cd61f18a79 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -93,6 +93,7 @@ def apply(
         attn_bias = inp.attn_bias
         q, k, v = inp.get_qkv_in_bmghk()
         if attn_bias is not None:
+            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             attn_bias.k_seqinfo.to(k.device)
             attn_bias.q_seqinfo.to(q.device)
             padding = attn_bias.k_seqinfo.padding
@@ -124,7 +125,7 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = torch.rsqrt(torch.tensor(key.shape[-1], dtype=torch.float32))
+            qk_scale = torch.rsqrt(torch.tensor(key.shape[-1], dtype=torch.float32)).item()
 
         out = cls.OPERATOR(
             query=query,
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 249edd533c..6d0fce22ed 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -111,6 +111,7 @@ def apply(
         q, k, v = inp.get_qkv_in_bmghk()
 
         if attn_bias is not None:
+            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             attn_bias.k_seqinfo.to(k.device)
             attn_bias.q_seqinfo.to(q.device)
             padding = attn_bias.k_seqinfo.padding
@@ -151,7 +152,7 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32))
+            qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32)).item()
 
         out = cls.OPERATOR(
             query=query,
diff --git a/xformers/ops/fmha/triton.py b/xformers/ops/fmha/triton.py
index 08018f56fe..a8995c94c2 100644
--- a/xformers/ops/fmha/triton.py
+++ b/xformers/ops/fmha/triton.py
@@ -565,6 +565,10 @@ def apply(
             # q ~ [1, B*T, H, K]
             # TODO: do we really need to do this cast? seems fishy but
             # I just copied it from the split-k kernel
+            assert isinstance(
+                attn_bias,
+                (BlockDiagonalCausalWithOffsetPaddedKeysMask, BlockDiagonalCausalMask),
+            )
             attn_bias.k_seqinfo.to(inp.query.device)
             attn_bias.q_seqinfo.to(inp.query.device)
             seqstart_q = attn_bias.q_seqinfo.seqstart

From 832e223d2e85910d2068566f30083e6729bf7cea Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 9 Feb 2024 00:10:05 +0000
Subject: [PATCH 446/837] fix clang-format

---
 .../hip_fmha/attention_forward_decoder.cpp    |  6 +--
 .../hip_fmha/attention_forward_splitk.cpp     | 38 +++++++++----------
 .../hip_fmha/ck_attention_forward_decoder.h   | 10 ++---
 .../ck_attention_forward_decoder_splitk.h     | 32 ++++++++--------
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |  2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  5 ++-
 6 files changed, 46 insertions(+), 47 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 6fe0137b03..786dfec0b5 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -270,9 +270,9 @@ int main(int argc, char** argv) {
     const int32_t n_heads = std::stoi(args[3]);
     const int32_t n_groups = 1;
     const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32")
-        ? torch::kFloat32
-        : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[6]);
 
     const int32_t dim_per_head = 4 * kThreadsPerWavefront;
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index a7ddb148c4..06fbbe0f69 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -543,14 +543,14 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -708,14 +708,14 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : O_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                        scalar_t,
-                        2>
-                  : O_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
@@ -1095,9 +1095,9 @@ int main(int argc, char** argv) {
     const int32_t batch_size = std::stoi(args[1]);
     const int32_t nq_heads = std::stoi(args[2]);
     const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32")
-        ? torch::kFloat32
-        : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[5]);
 
     auto [Q, K, V, seq] =
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 57d54eda2f..20b3b8979c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -458,12 +458,10 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           Q_size_k_alignment_necessary == 4
               ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index acb1a0154b..9eed4f001b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -613,14 +613,14 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -659,14 +659,14 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 78c62cfa31..58abc9efa3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -53,7 +53,7 @@ struct FmhaFwdKernel {
 
   template <ck::index_t I> // to avoid duplicated base class prblem, introduce
                            // an template arg
-                           struct FmhaFwdEmptyKargs {};
+  struct FmhaFwdEmptyKargs {};
 
   // kargs use aggregate initializer, so no constructor will provided
   // use inheritance to minimize karg size
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 33eb580c18..6268571216 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -73,8 +73,9 @@ struct grouped_forward_causalmask_attnbias_dispatched {
 
       using FmhaShape = FmhaFwdShape<HDim>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck::index_t occupancy =
-          (HDim == 64) ? 3 : (HDim == 256) ? 1 : 2;
+      constexpr ck::index_t occupancy = (HDim == 64) ? 3
+          : (HDim == 256)                            ? 1
+                                                     : 2;
 
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;

From 2b2967ed3d0f6acc1dc034d2328a8a2eae31b4c8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 9 Feb 2024 00:14:22 +0000
Subject: [PATCH 447/837] reapply black

---
 xformers/ops/fmha/ck_decoder.py | 4 +++-
 xformers/ops/fmha/ck_splitk.py  | 4 +++-
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index cd61f18a79..dfbbd581f5 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -125,7 +125,9 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = torch.rsqrt(torch.tensor(key.shape[-1], dtype=torch.float32)).item()
+            qk_scale = torch.rsqrt(
+                torch.tensor(key.shape[-1], dtype=torch.float32)
+            ).item()
 
         out = cls.OPERATOR(
             query=query,
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 6d0fce22ed..3d37dcdf14 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -152,7 +152,9 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32)).item()
+            qk_scale = torch.rsqrt(
+                torch.tensor(k.shape[-1], dtype=torch.float32)
+            ).item()
 
         out = cls.OPERATOR(
             query=query,

From 3c9d4e51282d71998ac94c771a3a6cd0c57b4581 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 01:15:20 +0000
Subject: [PATCH 448/837] fix lints

---
 .../hip_fmha/attention_forward_decoder.cpp    |  6 +--
 .../hip_fmha/attention_forward_splitk.cpp     | 38 +++++++++----------
 .../hip_fmha/ck_attention_forward_decoder.h   | 10 ++---
 .../ck_attention_forward_decoder_splitk.h     | 32 ++++++++--------
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   |  2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  5 ++-
 xformers/ops/fmha/ck_decoder.py               |  5 ++-
 xformers/ops/fmha/ck_splitk.py                |  5 ++-
 xformers/ops/fmha/triton.py                   |  5 +--
 9 files changed, 56 insertions(+), 52 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 6fe0137b03..786dfec0b5 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -270,9 +270,9 @@ int main(int argc, char** argv) {
     const int32_t n_heads = std::stoi(args[3]);
     const int32_t n_groups = 1;
     const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32")
-        ? torch::kFloat32
-        : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[6]);
 
     const int32_t dim_per_head = 4 * kThreadsPerWavefront;
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index a7ddb148c4..06fbbe0f69 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -543,14 +543,14 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -708,14 +708,14 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : O_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                        scalar_t,
-                        2>
-                  : O_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
@@ -1095,9 +1095,9 @@ int main(int argc, char** argv) {
     const int32_t batch_size = std::stoi(args[1]);
     const int32_t nq_heads = std::stoi(args[2]);
     const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32")
-        ? torch::kFloat32
-        : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[5]);
 
     auto [Q, K, V, seq] =
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 57d54eda2f..20b3b8979c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -458,12 +458,10 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           Q_size_k_alignment_necessary == 4
               ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index acb1a0154b..9eed4f001b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -613,14 +613,14 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -659,14 +659,14 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
index 78c62cfa31..58abc9efa3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
@@ -53,7 +53,7 @@ struct FmhaFwdKernel {
 
   template <ck::index_t I> // to avoid duplicated base class prblem, introduce
                            // an template arg
-                           struct FmhaFwdEmptyKargs {};
+  struct FmhaFwdEmptyKargs {};
 
   // kargs use aggregate initializer, so no constructor will provided
   // use inheritance to minimize karg size
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 33eb580c18..6268571216 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -73,8 +73,9 @@ struct grouped_forward_causalmask_attnbias_dispatched {
 
       using FmhaShape = FmhaFwdShape<HDim>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck::index_t occupancy =
-          (HDim == 64) ? 3 : (HDim == 256) ? 1 : 2;
+      constexpr ck::index_t occupancy = (HDim == 64) ? 3
+          : (HDim == 256)                            ? 1
+                                                     : 2;
 
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index 0da84d4412..dfbbd581f5 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -93,6 +93,7 @@ def apply(
         attn_bias = inp.attn_bias
         q, k, v = inp.get_qkv_in_bmghk()
         if attn_bias is not None:
+            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             attn_bias.k_seqinfo.to(k.device)
             attn_bias.q_seqinfo.to(q.device)
             padding = attn_bias.k_seqinfo.padding
@@ -124,7 +125,9 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = torch.rsqrt(torch.tensor(key.shape[-1], dtype=torch.float32))
+            qk_scale = torch.rsqrt(
+                torch.tensor(key.shape[-1], dtype=torch.float32)
+            ).item()
 
         out = cls.OPERATOR(
             query=query,
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 249edd533c..3d37dcdf14 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -111,6 +111,7 @@ def apply(
         q, k, v = inp.get_qkv_in_bmghk()
 
         if attn_bias is not None:
+            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
             attn_bias.k_seqinfo.to(k.device)
             attn_bias.q_seqinfo.to(q.device)
             padding = attn_bias.k_seqinfo.padding
@@ -151,7 +152,9 @@ def apply(
         if inp.scale is not None:
             qk_scale = inp.scale
         else:
-            qk_scale = torch.rsqrt(torch.tensor(k.shape[-1], dtype=torch.float32))
+            qk_scale = torch.rsqrt(
+                torch.tensor(k.shape[-1], dtype=torch.float32)
+            ).item()
 
         out = cls.OPERATOR(
             query=query,
diff --git a/xformers/ops/fmha/triton.py b/xformers/ops/fmha/triton.py
index 08018f56fe..f2a538ac4f 100644
--- a/xformers/ops/fmha/triton.py
+++ b/xformers/ops/fmha/triton.py
@@ -557,11 +557,10 @@ def apply(
         k = inp.key
         v = inp.value
 
-        is_bt_h_m = isinstance(
+        if isinstance(
             attn_bias,
             (BlockDiagonalCausalWithOffsetPaddedKeysMask, BlockDiagonalCausalMask),
-        )
-        if is_bt_h_m:
+        ):
             # q ~ [1, B*T, H, K]
             # TODO: do we really need to do this cast? seems fishy but
             # I just copied it from the split-k kernel

From 1d474c527b4ab73bdca645e0524a0efe2a4d15f8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 03:26:00 +0000
Subject: [PATCH 449/837] make test_splitk_reference run on cpu

---
 tests/test_mem_eff_attention.py                | 17 ++++++++++++-----
 xformers/benchmarks/benchmark_attn_decoding.py |  6 +++---
 2 files changed, 15 insertions(+), 8 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index a77cc43aff..13a168795c 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -1868,8 +1868,15 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
 @pytest.mark.parametrize("n_heads", [16])
 @pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
 @pytest.mark.parametrize("split_k", [1, 2, 4])
+@pytest.mark.parametrize("device", ["cpu"])
 def test_splitk_reference(
-    kv_heads: int, n_heads: int, padding: int, bsz: int, dtype: str, split_k: int
+    kv_heads: int,
+    n_heads: int,
+    padding: int,
+    bsz: int,
+    dtype: str,
+    device: str,
+    split_k: int,
 ):
     dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
     torch.manual_seed(1)
@@ -1888,13 +1895,13 @@ def test_splitk_reference(
         k_shape = (1, bsz * padding, n_heads, d)
         q_shape = (1, bsz * num_queries, n_heads, d)
 
-    k = torch.rand(k_shape, dtype=dtype_).cuda()
+    k = torch.rand(k_shape, dtype=dtype_, device=device)
     k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
     v = torch.rand_like(k)
-    q = torch.rand(q_shape, dtype=dtype_).cuda()
+    q = torch.rand(q_shape, dtype=dtype_, device=device)
     causal_diagonal = torch.tensor(  # TODO: make unnecessary
-        [i - 1 for i in k_seqlen], dtype=torch.int32
-    ).cuda()
+        [i - 1 for i in k_seqlen], dtype=torch.int32, device=device
+    )
 
     if kv_heads is not None:
         k = k[..., :1, :].expand(k_shape)
diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 3c30e57026..19c34bb8f6 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -151,9 +151,9 @@ def fw(self) -> None:
                 v = v[:, :, :, 0]
             return flash_attn.flash_attn_func(q, k, v)
 
-    BENCHMARKS[f"flash-attention@{flash_attn.__version__}"] = (
-        AttentionDecodingFlashAttention
-    )
+    BENCHMARKS[
+        f"flash-attention@{flash_attn.__version__}"
+    ] = AttentionDecodingFlashAttention
 except ImportError:
     pass
 

From d38a6843ce3bd5a3d7cdab38cc556747c9804011 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 04:20:17 +0000
Subject: [PATCH 450/837] add ck modules to docs

---
 docs/source/components/ops.rst | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/docs/source/components/ops.rst b/docs/source/components/ops.rst
index 5f98fdcb52..09dc0d25cd 100644
--- a/docs/source/components/ops.rst
+++ b/docs/source/components/ops.rst
@@ -22,13 +22,25 @@ Available implementations
     :member-order: bysource
 
 .. automodule:: xformers.ops.fmha.triton
-    :members: FwOp, BwOp
+    :members: FwOp
     :member-order: bysource
 
 .. automodule:: xformers.ops.fmha.small_k
     :members: FwOp, BwOp
     :member-order: bysource
 
+.. automodule:: xformers.ops.fmha.ck
+    :members: FwOp, BwOp
+    :member-order: bysource
+
+.. automodule:: xformers.ops.fmha.ck_decoder
+    :members: FwOp
+    :member-order: bysource
+
+.. automodule:: xformers.ops.fmha.ck_splitk
+    :members: FwOp
+    :member-order: bysource
+
 Attention biases
 ~~~~~~~~~~~~~~~~~~~~
 

From eccbf5450192a9113816b11a46d5d172cfcf9ded Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 21:09:42 +0000
Subject: [PATCH 451/837] try fixing nvidia build by re-including sparse24 cpp
 folder into extension sources

---
 setup.py | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/setup.py b/setup.py
index 9978537001..6b4ba8b198 100644
--- a/setup.py
+++ b/setup.py
@@ -245,6 +245,9 @@ def get_extensions():
     sources += glob.glob(
         os.path.join(extensions_dir, "swiglu", "**", "*.cpp"), recursive=True
     )
+    sources += glob.glob(
+        os.path.join(extensions_dir, "sparse24", "**", "*.cpp"), recursive=True
+    )
 
     # avoid the temporary .cu file under xformers/csrc/attention/hip_fmha are included
     source_cuda = glob.glob(os.path.join(extensions_dir, "*.cu"), recursive=False)
@@ -257,6 +260,9 @@ def get_extensions():
     source_cuda += glob.glob(
         os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True
     )
+    source_cuda += glob.glob(
+        os.path.join(extensions_dir, "sparse24", "**", "*.cu"), recursive=True
+    )
 
     source_hip = glob.glob(
         os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"),

From 1ef6c20c6219b3d0e3c29930917e04cb0d3663f5 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 21:46:29 +0000
Subject: [PATCH 452/837] update cutlass to upstream commit

---
 third_party/cutlass | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/cutlass b/third_party/cutlass
index 66d9cddc83..e0aaa3c3b3 160000
--- a/third_party/cutlass
+++ b/third_party/cutlass
@@ -1 +1 @@
-Subproject commit 66d9cddc832c1cdc2b30a8755274f7f74640cfe6
+Subproject commit e0aaa3c3b38db9a89c31f04fef91e92123ad5e2e

From 9dfec0de65e93957553793104f17832e6ba47987 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 22:12:39 +0000
Subject: [PATCH 453/837] update flash-attention to upstream commit

---
 third_party/flash-attention | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/flash-attention b/third_party/flash-attention
index 9e5e8bc91e..92dd5703ec 160000
--- a/third_party/flash-attention
+++ b/third_party/flash-attention
@@ -1 +1 @@
-Subproject commit 9e5e8bc91e30af5cdc321362b553f6c0da332e30
+Subproject commit 92dd5703ecdb99aa4a4aee9817f28557907403a2

From 9fcda18d96cc38be34eea0c55ceacb6a06ab9e7a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 22:20:53 +0000
Subject: [PATCH 454/837] simplify setup.py

---
 setup.py | 125 +++++--------------------------------------------------
 1 file changed, 10 insertions(+), 115 deletions(-)

diff --git a/setup.py b/setup.py
index 6b4ba8b198..9a59f5fd1d 100644
--- a/setup.py
+++ b/setup.py
@@ -229,124 +229,19 @@ def rename_cpp_cu(cpp_files):
 def get_extensions():
     extensions_dir = os.path.join("xformers", "csrc")
 
-    sources = glob.glob(
-        os.path.join(extensions_dir, "attention", "*.cpp"), recursive=False
-    )
-    sources += glob.glob(
-        os.path.join(extensions_dir, "attention", "autograd", "**", "*.cpp"),
-        recursive=True,
-    )
-    sources += glob.glob(
-        os.path.join(extensions_dir, "attention", "cpu", "**", "*.cpp"), recursive=True
-    )
-    sources += glob.glob(
-        os.path.join(extensions_dir, "indexing", "**", "*.cpp"), recursive=True
-    )
-    sources += glob.glob(
-        os.path.join(extensions_dir, "swiglu", "**", "*.cpp"), recursive=True
-    )
-    sources += glob.glob(
-        os.path.join(extensions_dir, "sparse24", "**", "*.cpp"), recursive=True
-    )
-
-    # avoid the temporary .cu file under xformers/csrc/attention/hip_fmha are included
-    source_cuda = glob.glob(os.path.join(extensions_dir, "*.cu"), recursive=False)
-    source_cuda += glob.glob(
-        os.path.join(extensions_dir, "attention", "cuda", "**", "*.cu"), recursive=True
-    )
-    source_cuda += glob.glob(
-        os.path.join(extensions_dir, "indexing", "**", "*.cu"), recursive=True
-    )
-    source_cuda += glob.glob(
-        os.path.join(extensions_dir, "swiglu", "**", "*.cu"), recursive=True
-    )
-    source_cuda += glob.glob(
-        os.path.join(extensions_dir, "sparse24", "**", "*.cu"), recursive=True
-    )
-
+    sources = glob.glob(os.path.join(extensions_dir, "**", "*.cpp"), recursive=True)
+    source_cuda = glob.glob(os.path.join(extensions_dir, "**", "*.cu"), recursive=True)
     source_hip = glob.glob(
-        os.path.join(extensions_dir, "attention", "hip_fmha", "ck_fmha_test.cpp"),
-        recursive=False,
-    )
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"
-        ),
-        recursive=False,
-    )
-
-    source_hip_decoder = [
-        *glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "attention_forward_decoder.cpp"
-            ),
-            recursive=False,
-        ),
-        *glob.glob(
-            os.path.join(
-                extensions_dir, "attention", "hip_fmha", "attention_forward_splitk.cpp"
-            ),
-            recursive=False,
-        ),
-    ]
-
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir,
-            "attention",
-            "hip_fmha",
-            "attention_forward_generic_ck_tiled.cpp",
-        ),
-        recursive=False,
-    )
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir,
-            "attention",
-            "hip_fmha",
-            "ck_tiled_fmha_batched_infer_*.cpp",
-        ),
-        recursive=False,
-    )
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir,
-            "attention",
-            "hip_fmha",
-            "ck_tiled_fmha_grouped_infer_*.cpp",
-        ),
-        recursive=False,
-    )
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir,
-            "attention",
-            "hip_fmha",
-            "ck_tiled_fmha_batched_forward_*.cpp",
-        ),
-        recursive=False,
-    )
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir,
-            "attention",
-            "hip_fmha",
-            "ck_tiled_fmha_grouped_forward_*.cpp",
-        ),
-        recursive=False,
+        os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cpp"),
+        recursive=True,
     )
-    source_hip += glob.glob(
-        os.path.join(
-            extensions_dir,
-            "attention",
-            "hip_fmha",
-            "instances",
-            "ck_tiled_fmha_*.cpp",
-        ),
-        recursive=False,
+    source_hip_generated = glob.glob(
+        os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cu"),
+        recursive=True,
     )
-
-    source_hip += source_hip_decoder
+    # avoid the temporary .cu files generated under xformers/csrc/attention/hip_fmha
+    source_cuda = list(set(source_cuda) - set(source_hip_generated))
+    sources = list(set(sources) - set(source_hip))
 
     sputnik_dir = os.path.join(this_dir, "third_party", "sputnik")
     cutlass_dir = os.path.join(this_dir, "third_party", "cutlass", "include")

From 58d38d411070bd716fb46605c5b44bed33abfcd0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 13 Feb 2024 23:52:27 +0000
Subject: [PATCH 455/837] remove duplicate
 run_batched_infer_causalmask_attnbias_dispatched<f16, true, true, 128>

---
 "xformers/csrc/attention/hip_fmha/instances/\\" | 12 ------------
 1 file changed, 12 deletions(-)
 delete mode 100644 "xformers/csrc/attention/hip_fmha/instances/\\"

diff --git "a/xformers/csrc/attention/hip_fmha/instances/\\" "b/xformers/csrc/attention/hip_fmha/instances/\\"
deleted file mode 100644
index e7f76cd582..0000000000
--- "a/xformers/csrc/attention/hip_fmha/instances/\\"
+++ /dev/null
@@ -1,12 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#include <ck/ck.hpp>
-
-#include "ck_tiled_fmha_batched_infer.h"
-
-template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);

From 07183f0c7516e9a80aa51d504c5ff59287f0f6ab Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 14 Feb 2024 00:52:39 +0000
Subject: [PATCH 456/837] add hip version and pytorch hip arch list to xformers
 build info

---
 setup.py             | 16 ++++++++++++++++
 xformers/_cpp_lib.py |  4 ++++
 xformers/info.py     |  1 +
 3 files changed, 21 insertions(+)

diff --git a/setup.py b/setup.py
index 9a59f5fd1d..0fad35ad1b 100644
--- a/setup.py
+++ b/setup.py
@@ -125,6 +125,17 @@ def get_cuda_version(cuda_dir) -> int:
     return bare_metal_major * 100 + bare_metal_minor
 
 
+def get_hip_version(rocm_dir) -> str:
+    hipcc_bin = "hipcc" if rocm_dir is None else os.path.join(rocm_dir, "bin", "hipcc")
+    raw_output = subprocess.check_output(
+        [hipcc_bin, "--version"], universal_newlines=True
+    )
+    for line in raw_output.split("\n"):
+        if "HIP version" in line:
+            return line.split()[-1]
+    return None
+
+
 def get_flash_attention_extensions(cuda_version: int, extra_compile_args):
     # XXX: Not supported on windows for cuda<12
     # https://github.com/Dao-AILab/flash-attention/issues/345
@@ -323,6 +334,9 @@ def get_extensions():
         ]
     elif torch.cuda.is_available() and torch.version.hip:
         rename_cpp_cu(source_hip)
+        rocm_home = os.getenv("ROCM_PATH")
+        hip_version = get_hip_version(rocm_home)
+
         source_hip_cu = []
         for ff in source_hip:
             source_hip_cu += [ff.replace(".cpp", ".cu")]
@@ -368,6 +382,7 @@ def get_extensions():
     return ext_modules, {
         "version": {
             "cuda": cuda_version,
+            "hip": hip_version,
             "torch": torch.__version__,
             "python": platform.python_version(),
             "flash": flash_version,
@@ -376,6 +391,7 @@ def get_extensions():
             k: os.environ.get(k)
             for k in [
                 "TORCH_CUDA_ARCH_LIST",
+                "PYTORCH_ROCM_ARCH",
                 "XFORMERS_BUILD_TYPE",
                 "XFORMERS_ENABLE_DEBUG_ASSERTIONS",
                 "NVCC_FLAGS",
diff --git a/xformers/_cpp_lib.py b/xformers/_cpp_lib.py
index 4eb6fd9814..d5d0117005 100644
--- a/xformers/_cpp_lib.py
+++ b/xformers/_cpp_lib.py
@@ -27,6 +27,10 @@ class _BuildInfo:
     def cuda_version(self) -> Optional[int]:
         return self.metadata["version"]["cuda"]
 
+    @property
+    def hip_version(self) -> Optional[int]:
+        return self.metadata["version"]["hip"]
+
     @property
     def torch_version(self) -> str:
         return self.metadata["version"]["torch"]
diff --git a/xformers/info.py b/xformers/info.py
index 1a17586e66..af0fa5b2f4 100644
--- a/xformers/info.py
+++ b/xformers/info.py
@@ -49,6 +49,7 @@ def print_info():
     if build_info is not None:
         features["build.info"] = "available"
         features["build.cuda_version"] = build_info.cuda_version
+        features["build.hip_version"] = build_info.hip_version
         features["build.python_version"] = build_info.python_version
         features["build.torch_version"] = build_info.torch_version
         for k, v in build_info.build_env.items():

From 993a90c5d7ac54446b5cf702673e2056c3a4831c Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 14 Feb 2024 01:05:48 +0000
Subject: [PATCH 457/837] fix build

---
 setup.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/setup.py b/setup.py
index 0fad35ad1b..d5ca4af696 100644
--- a/setup.py
+++ b/setup.py
@@ -278,6 +278,7 @@ def get_extensions():
     include_dirs = [extensions_dir]
     ext_modules = []
     cuda_version = None
+    hip_version = None
     flash_version = "0.0.0"
 
     if (

From d4a374bd6ad4256cf27dd9fe2b979ffc13d75673 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 14 Feb 2024 01:58:37 +0000
Subject: [PATCH 458/837] patch around the unhappy path in get_hip_version

---
 setup.py | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/setup.py b/setup.py
index d5ca4af696..e44d585097 100644
--- a/setup.py
+++ b/setup.py
@@ -127,9 +127,13 @@ def get_cuda_version(cuda_dir) -> int:
 
 def get_hip_version(rocm_dir) -> str:
     hipcc_bin = "hipcc" if rocm_dir is None else os.path.join(rocm_dir, "bin", "hipcc")
-    raw_output = subprocess.check_output(
-        [hipcc_bin, "--version"], universal_newlines=True
-    )
+    try:
+        raw_output = subprocess.check_output(
+            [hipcc_bin, "--version"], universal_newlines=True
+        )
+    except Exception as e:
+        print(f"hip installation not found: {e} ROCM_PATH={os.environ.get('ROCM_PATH')}")
+        return None
     for line in raw_output.split("\n"):
         if "HIP version" in line:
             return line.split()[-1]

From ff59f1933c52327da4e5178b68948beca2159c92 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 19:09:17 +0000
Subject: [PATCH 459/837] skip test_grad_checkpointing for triton_splitk since
 it doesn't have bwop

---
 tests/test_mem_eff_attention.py | 7 ++-----
 1 file changed, 2 insertions(+), 5 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 13a168795c..cf49f58b0a 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -1500,13 +1500,10 @@ def test_grad_checkpointing(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     if op is fmha.triton.FwOp:
         pytest.skip("Triton Flash Attention 2 doesn't support backward pass yet")
+    if op is fmha.triton_splitk.FwOp:
+        pytest.skip("Triton Flash Decoding doesn't support backward pass yet")
     if op is fmha.ck.FwOp:
         pytest.skip("ck-tiled FMHA doesn't supported backward pass yet")
-    if op is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
 
     bias_type = None
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = (

From 81bcfd5357fc799b8dfd67878f2bcfde372a6742 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 19:15:22 +0000
Subject: [PATCH 460/837] re-enable test_mqa_forward since ck tiled is the
 current implementation

---
 tests/test_mem_eff_attention.py | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index cf49f58b0a..8c7c10fba7 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -745,9 +745,6 @@ def test_mqa_forward(
 
     device = torch.device("cuda")
 
-    if op is fmha.ck.FwOp:
-        pytest.skip("mqa/gqa is only supported with ck-tiled fmha")
-
     torch.manual_seed(B * M + N * K + Hq * Hkv + Kv)
 
     scale = 3

From a0f7f2788781b4aeb2d464ca63bd2b560fb14a24 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 19:45:31 +0000
Subject: [PATCH 461/837] make skip test_wrong_alignment more generic

---
 tests/test_mem_eff_attention.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 8c7c10fba7..2faf9f0be4 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2186,8 +2186,8 @@ def test_f32_biasf16(self) -> None:
     @pytest.mark.parametrize("dtype", [torch.float32, torch.float16])
     def test_wrong_alignment(self, dtype) -> None:
         op = fmha.cutlass.FwOp if torch.version.cuda else fmha.ck.FwOp
-        if torch.version.hip and dtype is torch.float32:
-            pytest.skip("float32 is not supported by fmha.ck.FwOp!")
+        if dtype not in op.SUPPORTED_DTYPES:
+            pytest.skip(f"{dtype=} is not supported by {op.__module__}.{op.__qualname__}")
 
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
         try:

From a0d8dccb735ca81f40f3e0f21e7f518be6fcdba8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 19:46:35 +0000
Subject: [PATCH 462/837] reapply black

---
 setup.py                        | 4 +++-
 tests/test_mem_eff_attention.py | 4 +++-
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/setup.py b/setup.py
index e44d585097..ce82422037 100644
--- a/setup.py
+++ b/setup.py
@@ -132,7 +132,9 @@ def get_hip_version(rocm_dir) -> str:
             [hipcc_bin, "--version"], universal_newlines=True
         )
     except Exception as e:
-        print(f"hip installation not found: {e} ROCM_PATH={os.environ.get('ROCM_PATH')}")
+        print(
+            f"hip installation not found: {e} ROCM_PATH={os.environ.get('ROCM_PATH')}"
+        )
         return None
     for line in raw_output.split("\n"):
         if "HIP version" in line:
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 2faf9f0be4..c89435f80a 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2187,7 +2187,9 @@ def test_f32_biasf16(self) -> None:
     def test_wrong_alignment(self, dtype) -> None:
         op = fmha.cutlass.FwOp if torch.version.cuda else fmha.ck.FwOp
         if dtype not in op.SUPPORTED_DTYPES:
-            pytest.skip(f"{dtype=} is not supported by {op.__module__}.{op.__qualname__}")
+            pytest.skip(
+                f"{dtype=} is not supported by {op.__module__}.{op.__qualname__}"
+            )
 
         q, k, v, bias = self.create_tensors(dtype, Mq=7, Mkv=5)
         try:

From bc7035cb256b99fbc8bbbd1dc9ce51f62369d795 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 19:52:52 +0000
Subject: [PATCH 463/837] simplify test_decoder

---
 tests/test_mem_eff_attention.py | 26 +++++++-------------------
 1 file changed, 7 insertions(+), 19 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index c89435f80a..d7fb1e4ed2 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2002,26 +2002,14 @@ def dequant_cache(x):
         k = dequant_cache(k)
         v = dequant_cache(v)
 
-    if torch.version.cuda:
-        cutlass_output = fmha.memory_efficient_attention_forward(
-            q, k, v, attn_bias, op=fmha.cutlass.FwOp
-        )
-
-        assert_allclose(
-            decoder_output,
-            cutlass_output,
-            atol=fmha.cutlass.FwOp.ERROR_ATOL[dtype_] * 4,
-            rtol=fmha.cutlass.FwOp.ERROR_RTOL[dtype_],
-        )
-    else:
-        ref_output = ref_attention(q, k, v, attn_bias)
+    ref_output = ref_attention(q, k, v, attn_bias)
 
-        assert_allclose(
-            decoder_output.float(),
-            ref_output,
-            atol=fmha.cutlass.FwOp.ERROR_ATOL[dtype_] * 4,
-            rtol=fmha.cutlass.FwOp.ERROR_RTOL[dtype_],
-        )
+    assert_allclose(
+        decoder_output.to(ref_output.dtype),
+        ref_output,
+        atol=op.ERROR_ATOL[dtype_] * 4,
+        rtol=op.ERROR_RTOL[dtype_],
+    )
 
 
 @sm80_or_better_only

From f02d0d44a235f5a92b893e9eb0482e30c7a12486 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 20:26:54 +0000
Subject: [PATCH 464/837] put python version check inside triton_splitk op

---
 tests/test_mem_eff_attention.py    |  7 ++-----
 xformers/ops/fmha/triton_splitk.py | 15 +++++++++++++--
 2 files changed, 15 insertions(+), 7 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index d7fb1e4ed2..1676eb4408 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2540,11 +2540,8 @@ def test_mqa_decoding(op: Type[fmha.AttentionFwOpBase], dtype, B_Mkv_H_K):
     k = k.expand(-1, -1, H, -1)
     v = v.expand(-1, -1, H, -1)
 
-    if (sys.version_info.major, sys.version_info.minor) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
-    if not op.supports(fmha.Inputs(q, k, v)):
-        pytest.skip("not supported")
+    if skip_reasons := op.not_supported_reasons(fmha.Inputs(q, k, v)):
+        pytest.skip("; ".join(skip_reasons))
     out = fmha.memory_efficient_attention_forward(q, k, v, op=op)
     ref = ref_attention(q, k, v)
     assert_allclose(
diff --git a/xformers/ops/fmha/triton_splitk.py b/xformers/ops/fmha/triton_splitk.py
index 1c4f6d9421..59c2cdac14 100644
--- a/xformers/ops/fmha/triton_splitk.py
+++ b/xformers/ops/fmha/triton_splitk.py
@@ -4,6 +4,7 @@
 # LICENSE file in the root directory of this source tree.
 
 
+import sys
 from typing import TYPE_CHECKING, Any, List, Optional, Set, Tuple
 
 import torch
@@ -454,6 +455,13 @@ def _splitK_reduce(
     _splitK_reduce = None
 
 
+def _is_cuda_at_least_sm80(device: torch.device) -> bool:
+    return torch.version.cuda and torch.cuda.get_device_capability(device) >= (
+        8,
+        0,
+    )
+
+
 @register_operator
 class FwOp(AttentionFwOpBase):
     """Flash-Attention with Split-K. Supports fused int-4 K/V quantization.
@@ -512,6 +520,8 @@ def shape_not_supported_reasons(
     @classmethod
     def not_supported_reasons(cls, d: Inputs) -> List[str]:
         reasons = super(FwOp, cls).not_supported_reasons(d)
+        if (sys.version_info.major, sys.version_info.minor) < (3, 9):
+            reasons.append("triton_splitk requires python 3.9 or above!")
         check_lastdim_alignment_stride1(reasons, "query", d.query, 8)
         if d.key.dtype != torch.int32:
             check_lastdim_alignment_stride1(reasons, "key", d.key, 8)
@@ -520,10 +530,11 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             reasons.append("triton is not available")
         if d.device.type == "cuda":
             # Has only been tested on 8.0 / 9.0.
-            if torch.cuda.get_device_capability(d.device) < (8, 0):
+            if not _is_cuda_at_least_sm80(d.device):
                 reasons.append(
-                    "requires GPU with sm80 minimum compute capacity, e.g., A100/H100/L4"
+                    "requires NVidia GPU with sm80 minimum compute capacity, e.g., A100/H100/L4"
                 )
+            # TODO: AMD GPU support matrix needs to be figured out. MI300X is tested to work.
 
         q_len = d.query.shape[1]
         if isinstance(d.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):

From 77a6c13be895a4e95fa06c1977baa85ba91387ad Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 20:40:05 +0000
Subject: [PATCH 465/837] fix logic

---
 xformers/ops/fmha/triton_splitk.py | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/triton_splitk.py b/xformers/ops/fmha/triton_splitk.py
index 59c2cdac14..f4f1c7bab8 100644
--- a/xformers/ops/fmha/triton_splitk.py
+++ b/xformers/ops/fmha/triton_splitk.py
@@ -455,8 +455,12 @@ def _splitK_reduce(
     _splitK_reduce = None
 
 
+def _is_cuda() -> bool:
+    return torch.version.cuda
+
+
 def _is_cuda_at_least_sm80(device: torch.device) -> bool:
-    return torch.version.cuda and torch.cuda.get_device_capability(device) >= (
+    return _is_cuda() and torch.cuda.get_device_capability(device) >= (
         8,
         0,
     )
@@ -530,7 +534,7 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
             reasons.append("triton is not available")
         if d.device.type == "cuda":
             # Has only been tested on 8.0 / 9.0.
-            if not _is_cuda_at_least_sm80(d.device):
+            if _is_cuda() and not _is_cuda_at_least_sm80(d.device):
                 reasons.append(
                     "requires NVidia GPU with sm80 minimum compute capacity, e.g., A100/H100/L4"
                 )

From a7cd6788a677992a8dee80add83d0403e7986414 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 21:01:22 +0000
Subject: [PATCH 466/837] cleanup python3.9 checks in tests

---
 tests/test_mem_eff_attention.py | 61 ++++-----------------------------
 1 file changed, 7 insertions(+), 54 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 1676eb4408..00c33f0485 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -644,12 +644,6 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         kv,
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
-    if op is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     if packed and not (k == kv and q_len == kv_len):
         pytest.skip(
             f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
@@ -845,12 +839,6 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
     if op is fmha.ck.FwOp:
         pytest.skip("logsumexp is not yet supported by ck-tiled fmha!")
 
-    if op is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
     )
@@ -1350,11 +1338,6 @@ def test_cuda_streams(
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
     if device != "cuda":
         pytest.skip("Not CUDA")
-    if op is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
 
     bias_type = None
     opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = [
@@ -1574,11 +1557,8 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
         0, 3, 1, 2
     )
 
-    if op is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
+    if skip_reasons := op.not_supported_reasons(fmha.Inputs(q, q, q)):
+        pytest.skip("; ".join(skip_reasons))
 
     try:
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
@@ -1596,11 +1576,8 @@ def test_unsupported_stride_lastdim(op: Type[fmha.AttentionFwOpBase]):
 def test_unsupported_stride_alignment(op: Type[fmha.AttentionFwOpBase]):
     q = torch.empty([1, 2, 1, 33], device="cuda", dtype=torch.float16)[:, :, :, :32]
 
-    if op is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
+    if skip_reasons := op.not_supported_reasons(fmha.Inputs(q, q, q)):
+        pytest.skip("; ".join(skip_reasons))
 
     try:
         fmha.memory_efficient_attention(q, q, q, op=(op, None))
@@ -1978,6 +1955,9 @@ def test_decoder(
         k = k[..., :1, :].expand(k_shape)
         v = v[..., :1, :].expand(k_shape)
 
+    if skip_reasons := op.not_supported_reasons(fmha.Inputs(q, k, v)):
+        pytest.skip("; ".join(skip_reasons))
+
     attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
         q_seqlen=[num_queries] * bsz,
         kv_seqlen=k_seqlen,
@@ -2046,9 +2026,6 @@ def test_triton_splitk_decoder(
     if dequant:
         pytest.skip("dequant is not supported")
 
-    if (sys.version_info.major, sys.version_info.minor) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     # We omit dequant with f16: it needs a very high tol
     test_decoder(
         op,
@@ -2370,12 +2347,6 @@ def test_forward_gqa_one_group(opFW):
     k = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
     v = torch.randn([B, Mkv, 1, H, K], dtype=dtype, device="cuda") * 3
 
-    if opFW is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     supported = opFW.supports(fmha.Inputs(q, k, v))
     if not supported:
         supported_bmhk = opFW.supports(fmha.Inputs(q[:, :, 0], k[:, :, 0], v[:, :, 0]))
@@ -2565,12 +2536,6 @@ def test_empty_tensors_empty_query(
     if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
-    if opFW is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     query = query[:, :0]
     query.requires_grad_(True)
     key.requires_grad_(True)
@@ -2596,12 +2561,6 @@ def test_empty_tensors_empty_kv(
     if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
-    if opFW is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     key = key[:, :0]
     value = value[:, :0]
     query.requires_grad_(True)
@@ -2627,12 +2586,6 @@ def test_empty_tensors_empty_b(
     if torch.version.hip:
         pytest.skip("backward pass/gradience is not yet supported by ck-tiled fmha!")
 
-    if opFW is fmha.triton_splitk.FwOp and (
-        sys.version_info.major,
-        sys.version_info.minor,
-    ) <= (3, 8):
-        pytest.skip("triton_splitk requires python 3.9 or above!")
-
     query, key, value = query[:0], key[:0], value[:0]
     query.requires_grad_(True)
     key.requires_grad_(True)

From dea783d30f80563adf4ba4cdd33b7abe79e556dc Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 15 Feb 2024 21:52:53 +0000
Subject: [PATCH 467/837] cleanup test_attentions

---
 tests/test_attentions.py | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/tests/test_attentions.py b/tests/test_attentions.py
index 31f7721fb0..2bdbb2d1ff 100644
--- a/tests/test_attentions.py
+++ b/tests/test_attentions.py
@@ -22,10 +22,6 @@
     build_attention,
 )
 
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
-
 DEVICES = (
     [torch.device("cpu")] if not torch.cuda.is_available() else [torch.device("cuda")]
 )
@@ -95,7 +91,6 @@ def noop(x):
     return multi_head
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("attn_dropout", [0.0, 0.3])
 @pytest.mark.parametrize("residual_dropout", [0.0, 0.1])
 @pytest.mark.parametrize("causal", [True, False])
@@ -112,6 +107,13 @@ def test_order_invariance(
     causal: bool,
     device: torch.device,
 ):
+    if (
+        torch.version.hip
+        and device == torch.device("cuda")
+        and attention_name == "local"
+    ):
+        # Backend calls into Sputnik library which isn't built on ROCm
+        device = torch.device("cpu")
 
     torch.manual_seed(42)
     torch.cuda.manual_seed_all(42)
@@ -166,7 +168,6 @@ def test_order_invariance(
                 _ = multi_head(inputs, inputs_shuffled, inputs)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("heads", [1, 4])
 @pytest.mark.parametrize("attention_name", ["scaled_dot_product"])
 @pytest.mark.parametrize("device", DEVICES)
@@ -210,7 +211,6 @@ def test_kqv_ordering(
     assert torch.allclose(res_false[0, :, :], res_false[1, :, :])
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("heads", [1, 4])
 @pytest.mark.parametrize("attention_name", ["scaled_dot_product"])
 @pytest.mark.parametrize("device", DEVICES)

From acd6b7aaf676bb63b6816035b5bd5eeae7012053 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Feb 2024 01:11:06 +0000
Subject: [PATCH 468/837] cleanup test_checkpoint as test running on cpu does
 not depend on gpu platform

---
 tests/test_checkpoint.py | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/tests/test_checkpoint.py b/tests/test_checkpoint.py
index 81ba73013f..d3a831ce48 100644
--- a/tests/test_checkpoint.py
+++ b/tests/test_checkpoint.py
@@ -20,9 +20,6 @@
 )
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
 _devices = ["cpu"]
 cuda_cap = (0, 0)
 
@@ -39,7 +36,6 @@ def _all_policy(func, *args, **kwargs):
     return True
 
 
-@disable_on_rocm
 @pytest.mark.skipif(torch.__version__ < "2.2", reason="Only new PyTorch supported")
 @pytest.mark.parametrize("policy_fn", [None, [], _relu_policy, _all_policy])
 @pytest.mark.parametrize("input_requires_grad", [True, False])

From f467a1dd5e614c6b2e37828f310c83d5242f37da Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Feb 2024 18:26:52 +0000
Subject: [PATCH 469/837] fix lints

---
 tests/test_mem_eff_attention.py    | 1 -
 xformers/ops/fmha/triton_splitk.py | 2 +-
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 00c33f0485..e76b7a0c94 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -5,7 +5,6 @@
 
 import math
 import random
-import sys
 from functools import partial
 from typing import List, Optional, Sequence, Tuple, Type, TypeVar
 
diff --git a/xformers/ops/fmha/triton_splitk.py b/xformers/ops/fmha/triton_splitk.py
index f4f1c7bab8..1b6039db04 100644
--- a/xformers/ops/fmha/triton_splitk.py
+++ b/xformers/ops/fmha/triton_splitk.py
@@ -456,7 +456,7 @@ def _splitK_reduce(
 
 
 def _is_cuda() -> bool:
-    return torch.version.cuda
+    return torch.version.cuda is not None
 
 
 def _is_cuda_at_least_sm80(device: torch.device) -> bool:

From d758eac0223e8cf24f80f9557202186ac0fc2838 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Feb 2024 19:27:09 +0000
Subject: [PATCH 470/837] try fixing win build by conditional import of triton
 in triton op

---
 xformers/ops/fmha/triton.py | 741 ++++++++++++++++++------------------
 1 file changed, 376 insertions(+), 365 deletions(-)

diff --git a/xformers/ops/fmha/triton.py b/xformers/ops/fmha/triton.py
index f2a538ac4f..46ae836dca 100644
--- a/xformers/ops/fmha/triton.py
+++ b/xformers/ops/fmha/triton.py
@@ -16,8 +16,8 @@
 from typing import Any, List, Mapping, Optional, Set, Tuple
 
 import torch
-import triton
-import triton.language as tl
+
+from xformers import _is_triton_available
 
 from ..common import register_operator
 from .attn_bias import (
@@ -27,251 +27,12 @@
 )
 from .common import AttentionFwOpBase, Context, Inputs, check_lastdim_alignment_stride1
 
+if _is_triton_available():
+    import triton
+    import triton.language as tl
 
-@triton.jit
-def _fwd_kernel_triton_flash_inner(
-    acc,
-    l_i,
-    m_i,
-    q,
-    K_block_ptr,
-    V_block_ptr,
-    q_seq_start,
-    lo,
-    hi,
-    start_m,
-    qk_scale,
-    kv_len,
-    offs_m,
-    offs_n,
-    BLOCK_M: tl.constexpr,
-    BLOCK_N: tl.constexpr,
-    IS_CAUSAL: tl.constexpr,
-    BOUNDS_CHECKS_N: tl.constexpr,
-    CAST_BEFORE_MATMUL: tl.constexpr,
-    ALLOW_TF32: tl.constexpr,
-    STAGE: tl.constexpr,
-    pre_load_v: tl.constexpr,
-):
-    BOUNDS_CHECKS_STAGE: tl.constexpr = BOUNDS_CHECKS_N and STAGE == 2
-    # Doesn't seem to make a difference
-    if STAGE == 1:
-        lo = 0
-    else:
-        lo = tl.multiple_of(lo, BLOCK_N)
-        K_block_ptr = tl.advance(K_block_ptr, (0, lo))
-        V_block_ptr = tl.advance(V_block_ptr, (lo, 0))
-
-    # loop over k, v and update accumulator
-    for start_n in range(lo, hi, BLOCK_N):
-        start_n = tl.multiple_of(start_n, BLOCK_N)  # doesn't seem to make a difference
-        # -- load k, v --
-        k = tl.load(K_block_ptr, boundary_check=(1,) if BOUNDS_CHECKS_STAGE else ())
-        # Moving masking here seems to introduce num errors,
-        # e.g. in test_forward[tritonflashattF-cuda-torch.bfloat16-NoneType-1-256-15-1-32-32-False-BMHK]
-        # if BOUNDS_CHECKS_N or USE_SEQ_LEN:
-        #     k = tl.where(hi - tl.arange(0, BLOCK_N) > start_n, k, float("-inf"))
-        if pre_load_v:
-            v = tl.load(V_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_STAGE else ())
-        # -- compute qk ---
-        qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
-        qk += tl.dot(q.to(k.dtype), k, allow_tf32=ALLOW_TF32) * qk_scale
-        if CAST_BEFORE_MATMUL:
-            k = k.to(tl.float32)
-        if STAGE == 2:
-            if IS_CAUSAL:
-                # For some reason this is faster than start_n <= q_seq_start + offs_m[:, None] - offs_n[None, :]
-                qk = tl.where(
-                    q_seq_start + offs_m[:, None] >= (start_n + offs_n[None, :]),
-                    qk,
-                    float("-inf"),
-                )
-            if BOUNDS_CHECKS_N:
-                qk = tl.where(tl.arange(0, BLOCK_N) < hi - start_n, qk, float("-inf"))
-
-        # -- compute scaling constant ---
-        m_i_new = tl.maximum(m_i, tl.max(qk, 1))
-        qk = qk - m_i_new[:, None]
-        alpha = tl.math.exp2(m_i - m_i_new)
-        p = tl.math.exp2(qk)
-
-        # -- scale and update acc --
-        acc *= alpha[:, None]
-        if not pre_load_v:
-            v = tl.load(V_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_STAGE else ())
-        if CAST_BEFORE_MATMUL:
-            v = v.to(tl.float32)
-        acc += tl.dot(p.to(v.dtype), v, allow_tf32=ALLOW_TF32)
-        # -- update m_i and l_i --
-        l_i = l_i * alpha + tl.sum(p, 1)
-        m_i = m_i_new
-        # update pointers
-        K_block_ptr = tl.advance(K_block_ptr, (0, BLOCK_N))
-        V_block_ptr = tl.advance(V_block_ptr, (BLOCK_N, 0))
-    return acc, l_i, m_i
-
-
-@triton.jit
-def _fwd_kernel_triton_flash(
-    Q,
-    K,
-    V,
-    sm_scale,
-    L,
-    Out,
-    Seq_len,
-    Seq_pos_q,
-    stride_qz,
-    stride_qh,
-    stride_qm,
-    stride_qk,
-    stride_kz,
-    stride_kh,
-    stride_kn,
-    stride_kk,
-    stride_vz,
-    stride_vh,
-    stride_vk,
-    stride_vn,
-    stride_oz,
-    stride_oh,
-    stride_om,
-    stride_on,
-    Z,
-    H,
-    N_CTX,
-    Mkv,
-    BLOCK_M: tl.constexpr,
-    BLOCK_DMODEL: tl.constexpr,
-    BLOCK_N: tl.constexpr,
-    IS_CAUSAL: tl.constexpr,
-    BOUNDS_CHECKS_N: tl.constexpr,
-    BOUNDS_CHECKS_M: tl.constexpr,
-    ALLOW_TF32: tl.constexpr,
-    CAST_BEFORE_MATMUL: tl.constexpr,
-    USE_SEQ_LEN_KV: tl.constexpr,
-    USE_SEQ_POS_Q: tl.constexpr,
-    IS_KV_PADDED: tl.constexpr,  # Switch between padded and non-padded block-diagonal causal masks
-    pre_load_v: tl.constexpr,  # TODO: understand if that matters
-):
-    start_m = tl.program_id(0).to(tl.int64)
-    off_hz = tl.program_id(1).to(tl.int64)
-
-    tl.static_assert((IS_KV_PADDED and USE_SEQ_POS_Q) or not IS_KV_PADDED)
-
-    off_z = off_hz // H
-    off_h = off_hz % H
-    if USE_SEQ_POS_Q:
-        seqpos = tl.load(Seq_pos_q + off_z)
-        seqpos_next = tl.load(Seq_pos_q + off_z + 1)
-        q_len = seqpos_next - seqpos
-        q_offset = seqpos * stride_qm + off_h * stride_qh
-        out_offset = seqpos * stride_om + off_h * stride_oh
-        if not IS_KV_PADDED:
-            # BlockDiagonalCausalMask, no padding, use same sequence positions as for Q
-            kv_offset = seqpos * stride_kn + off_h * stride_kh
-            kv_len = q_len
-            q_seq_start = 0
-        else:
-            # BlockDiagonalCausalWithOffsetPaddedKeysMask
-            kv_offset = off_z * stride_kz + off_h * stride_kh
-            if USE_SEQ_LEN_KV:
-                kv_len = tl.load(Seq_len + off_z)
-                q_seq_start = kv_len - q_len
-            else:
-                # if no variable K/V seqlens are provided, assume full length
-                kv_len = Mkv
-                q_seq_start = 0
-    else:
-        # No mask or simple causal mask
-        q_len = N_CTX
-        q_offset = off_z * stride_qz + off_h * stride_qh
-        out_offset = off_z * stride_oz + off_h * stride_oh
-
-        kv_len = Mkv
-        q_seq_start = 0
-        kv_offset = off_z * stride_kz + off_h * stride_kh
-
-    Q_block_ptr = tl.make_block_ptr(
-        base=Q + q_offset,
-        shape=(q_len, BLOCK_DMODEL),
-        strides=(stride_qm, stride_qk),
-        offsets=(start_m * BLOCK_M, 0),
-        block_shape=(BLOCK_M, BLOCK_DMODEL),
-        order=(1, 0),
-    )
-    K_block_ptr = tl.make_block_ptr(
-        base=K + kv_offset,
-        shape=(BLOCK_DMODEL, kv_len),
-        strides=(stride_kk, stride_kn),
-        offsets=(0, 0),
-        block_shape=(BLOCK_DMODEL, BLOCK_N),
-        order=(0, 1),
-    )
-    V_block_ptr = tl.make_block_ptr(
-        base=V + kv_offset,
-        shape=(kv_len, BLOCK_DMODEL),
-        strides=(stride_vk, stride_vn),
-        offsets=(0, 0),
-        block_shape=(BLOCK_N, BLOCK_DMODEL),
-        order=(0, 1),
-    )
-    # initialize offsets
-    offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)  # For Q
-    offs_n = tl.arange(0, BLOCK_N)  # For K/V
-    # initialize pointer to m and l
-    m_i = tl.zeros([BLOCK_M], dtype=tl.float32) - float("inf")
-    l_i = tl.zeros([BLOCK_M], dtype=tl.float32) + 1.0
-    acc = tl.zeros([BLOCK_M, BLOCK_DMODEL], dtype=tl.float32)
-    # scale sm_scale by log_2(e) and use
-    # 2^x instead of exp in the loop because CSE and LICM
-    # don't work as expected with `exp` in the loop
-    qk_scale = sm_scale * 1.44269504
-    # load q: it will stay in SRAM throughout on NV GPUs but in VGPRs on AMD GPUs
-    q = tl.load(
-        Q_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_M or USE_SEQ_POS_Q else ()
-    )
-
-    # The loop over K/V sequence blocks is divided into two stages:
-    # Stage 1: (many) blocks which don't need boundary conditions checks - not touching sequence end or diagonal
-    # Stage 2: (few) blocks which need boundary conditions checks
-    # Following https://github.com/openai/triton/blob/293b7fd592a1602f2305c1bd0bc978bbd97337d6/python/tutorials/06-fused-attention.py  # noqa: E501
-
-    """
-    Iteration doesn't need masking if
-        - 1) block doesn't cross the diagonal: max(kv_pos) <= min(q_pos)
-        - 2) block doesn't cross the end of the sequence: max(kv_pos) < kv_len
-    Find maximum start_n for which condition 1 is satisifed.
-    Remember that
-        q_pos = q_seq_start + offs_m[:, None]
-        kv_pos = start_n + offs_n[None, :]
-        offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
-        offs_n = tl.arange(0, BLOCK_N)
-    min(q_pos) = q_seq_start + start_m * BLOCK_M
-    max(kv_pos) = start_n + BLOCK_N - 1
-    So the condition becomes
-        q_seq_start + start_m * BLOCK_M >= start_n + BLOCK_N - 1
-    So:
-    1) start_n <= q_seq_start + start_m * BLOCK_M - BLOCK_N + 1
-    2) start_n <= kv_len - BLOCK_N
-
-    So the last allowed start_n without masking is min(q_seq_start + start_m * BLOCK_M + 1, kv_len) - BLOCK_N
-    """
-    # Second stage can only be skipped if no mask is used and K/V length is divisible by the tile size
-    TWO_STAGES: tl.constexpr = BOUNDS_CHECKS_N or (
-        IS_CAUSAL or (USE_SEQ_LEN_KV or (USE_SEQ_POS_Q and not IS_KV_PADDED))
-    )
-    if TWO_STAGES:
-        # Border between two stages
-        hi_stage_1 = min(q_seq_start + start_m * BLOCK_M + 1, kv_len) - BLOCK_N
-        hi_stage_1 = (
-            hi_stage_1 // BLOCK_N
-        ) * BLOCK_N  # Don't understand why it doesn't work without this
-    else:
-        hi_stage_1 = kv_len
-
-    # Stage 1 - no boundary conditions
-    acc, l_i, m_i = _fwd_kernel_triton_flash_inner(
+    @triton.jit
+    def _fwd_kernel_triton_flash_inner(
         acc,
         l_i,
         m_i,
@@ -279,31 +40,247 @@ def _fwd_kernel_triton_flash(
         K_block_ptr,
         V_block_ptr,
         q_seq_start,
-        0,
-        hi_stage_1,
+        lo,
+        hi,
         start_m,
         qk_scale,
         kv_len,
         offs_m,
         offs_n,
-        BLOCK_M,
-        BLOCK_N,
-        IS_CAUSAL,
-        BOUNDS_CHECKS_N,
-        CAST_BEFORE_MATMUL,
-        ALLOW_TF32,
-        STAGE=1,
-        pre_load_v=pre_load_v,
-    )
-    if TWO_STAGES:
-        hi = (
-            tl.minimum(kv_len, q_seq_start + (start_m + 1) * BLOCK_M)
-            if IS_CAUSAL
-            else kv_len
+        BLOCK_M: tl.constexpr,
+        BLOCK_N: tl.constexpr,
+        IS_CAUSAL: tl.constexpr,
+        BOUNDS_CHECKS_N: tl.constexpr,
+        CAST_BEFORE_MATMUL: tl.constexpr,
+        ALLOW_TF32: tl.constexpr,
+        STAGE: tl.constexpr,
+        pre_load_v: tl.constexpr,
+    ):
+        BOUNDS_CHECKS_STAGE: tl.constexpr = BOUNDS_CHECKS_N and STAGE == 2
+        # Doesn't seem to make a difference
+        if STAGE == 1:
+            lo = 0
+        else:
+            lo = tl.multiple_of(lo, BLOCK_N)
+            K_block_ptr = tl.advance(K_block_ptr, (0, lo))
+            V_block_ptr = tl.advance(V_block_ptr, (lo, 0))
+
+        # loop over k, v and update accumulator
+        for start_n in range(lo, hi, BLOCK_N):
+            start_n = tl.multiple_of(
+                start_n, BLOCK_N
+            )  # doesn't seem to make a difference
+            # -- load k, v --
+            k = tl.load(K_block_ptr, boundary_check=(1,) if BOUNDS_CHECKS_STAGE else ())
+            # Moving masking here seems to introduce num errors,
+            # e.g. in test_forward[tritonflashattF-cuda-torch.bfloat16-NoneType-1-256-15-1-32-32-False-BMHK]
+            # if BOUNDS_CHECKS_N or USE_SEQ_LEN:
+            #     k = tl.where(hi - tl.arange(0, BLOCK_N) > start_n, k, float("-inf"))
+            if pre_load_v:
+                v = tl.load(
+                    V_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_STAGE else ()
+                )
+            # -- compute qk ---
+            qk = tl.zeros([BLOCK_M, BLOCK_N], dtype=tl.float32)
+            qk += tl.dot(q.to(k.dtype), k, allow_tf32=ALLOW_TF32) * qk_scale
+            if CAST_BEFORE_MATMUL:
+                k = k.to(tl.float32)
+            if STAGE == 2:
+                if IS_CAUSAL:
+                    # For some reason this is faster than start_n <= q_seq_start + offs_m[:, None] - offs_n[None, :]
+                    qk = tl.where(
+                        q_seq_start + offs_m[:, None] >= (start_n + offs_n[None, :]),
+                        qk,
+                        float("-inf"),
+                    )
+                if BOUNDS_CHECKS_N:
+                    qk = tl.where(
+                        tl.arange(0, BLOCK_N) < hi - start_n, qk, float("-inf")
+                    )
+
+            # -- compute scaling constant ---
+            m_i_new = tl.maximum(m_i, tl.max(qk, 1))
+            qk = qk - m_i_new[:, None]
+            alpha = tl.math.exp2(m_i - m_i_new)
+            p = tl.math.exp2(qk)
+
+            # -- scale and update acc --
+            acc *= alpha[:, None]
+            if not pre_load_v:
+                v = tl.load(
+                    V_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_STAGE else ()
+                )
+            if CAST_BEFORE_MATMUL:
+                v = v.to(tl.float32)
+            acc += tl.dot(p.to(v.dtype), v, allow_tf32=ALLOW_TF32)
+            # -- update m_i and l_i --
+            l_i = l_i * alpha + tl.sum(p, 1)
+            m_i = m_i_new
+            # update pointers
+            K_block_ptr = tl.advance(K_block_ptr, (0, BLOCK_N))
+            V_block_ptr = tl.advance(V_block_ptr, (BLOCK_N, 0))
+        return acc, l_i, m_i
+
+    @triton.jit
+    def _fwd_kernel_triton_flash(
+        Q,
+        K,
+        V,
+        sm_scale,
+        L,
+        Out,
+        Seq_len,
+        Seq_pos_q,
+        stride_qz,
+        stride_qh,
+        stride_qm,
+        stride_qk,
+        stride_kz,
+        stride_kh,
+        stride_kn,
+        stride_kk,
+        stride_vz,
+        stride_vh,
+        stride_vk,
+        stride_vn,
+        stride_oz,
+        stride_oh,
+        stride_om,
+        stride_on,
+        Z,
+        H,
+        N_CTX,
+        Mkv,
+        BLOCK_M: tl.constexpr,
+        BLOCK_DMODEL: tl.constexpr,
+        BLOCK_N: tl.constexpr,
+        IS_CAUSAL: tl.constexpr,
+        BOUNDS_CHECKS_N: tl.constexpr,
+        BOUNDS_CHECKS_M: tl.constexpr,
+        ALLOW_TF32: tl.constexpr,
+        CAST_BEFORE_MATMUL: tl.constexpr,
+        USE_SEQ_LEN_KV: tl.constexpr,
+        USE_SEQ_POS_Q: tl.constexpr,
+        IS_KV_PADDED: tl.constexpr,  # Switch between padded and non-padded block-diagonal causal masks
+        pre_load_v: tl.constexpr,  # TODO: understand if that matters
+    ):
+        start_m = tl.program_id(0).to(tl.int64)
+        off_hz = tl.program_id(1).to(tl.int64)
+
+        tl.static_assert((IS_KV_PADDED and USE_SEQ_POS_Q) or not IS_KV_PADDED)
+
+        off_z = off_hz // H
+        off_h = off_hz % H
+        if USE_SEQ_POS_Q:
+            seqpos = tl.load(Seq_pos_q + off_z)
+            seqpos_next = tl.load(Seq_pos_q + off_z + 1)
+            q_len = seqpos_next - seqpos
+            q_offset = seqpos * stride_qm + off_h * stride_qh
+            out_offset = seqpos * stride_om + off_h * stride_oh
+            if not IS_KV_PADDED:
+                # BlockDiagonalCausalMask, no padding, use same sequence positions as for Q
+                kv_offset = seqpos * stride_kn + off_h * stride_kh
+                kv_len = q_len
+                q_seq_start = 0
+            else:
+                # BlockDiagonalCausalWithOffsetPaddedKeysMask
+                kv_offset = off_z * stride_kz + off_h * stride_kh
+                if USE_SEQ_LEN_KV:
+                    kv_len = tl.load(Seq_len + off_z)
+                    q_seq_start = kv_len - q_len
+                else:
+                    # if no variable K/V seqlens are provided, assume full length
+                    kv_len = Mkv
+                    q_seq_start = 0
+        else:
+            # No mask or simple causal mask
+            q_len = N_CTX
+            q_offset = off_z * stride_qz + off_h * stride_qh
+            out_offset = off_z * stride_oz + off_h * stride_oh
+
+            kv_len = Mkv
+            q_seq_start = 0
+            kv_offset = off_z * stride_kz + off_h * stride_kh
+
+        Q_block_ptr = tl.make_block_ptr(
+            base=Q + q_offset,
+            shape=(q_len, BLOCK_DMODEL),
+            strides=(stride_qm, stride_qk),
+            offsets=(start_m * BLOCK_M, 0),
+            block_shape=(BLOCK_M, BLOCK_DMODEL),
+            order=(1, 0),
         )
-        # Do we need this barrier?
-        # tl.debug_barrier()
-        # Stage 2 - with boundary conditions
+        K_block_ptr = tl.make_block_ptr(
+            base=K + kv_offset,
+            shape=(BLOCK_DMODEL, kv_len),
+            strides=(stride_kk, stride_kn),
+            offsets=(0, 0),
+            block_shape=(BLOCK_DMODEL, BLOCK_N),
+            order=(0, 1),
+        )
+        V_block_ptr = tl.make_block_ptr(
+            base=V + kv_offset,
+            shape=(kv_len, BLOCK_DMODEL),
+            strides=(stride_vk, stride_vn),
+            offsets=(0, 0),
+            block_shape=(BLOCK_N, BLOCK_DMODEL),
+            order=(0, 1),
+        )
+        # initialize offsets
+        offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)  # For Q
+        offs_n = tl.arange(0, BLOCK_N)  # For K/V
+        # initialize pointer to m and l
+        m_i = tl.zeros([BLOCK_M], dtype=tl.float32) - float("inf")
+        l_i = tl.zeros([BLOCK_M], dtype=tl.float32) + 1.0
+        acc = tl.zeros([BLOCK_M, BLOCK_DMODEL], dtype=tl.float32)
+        # scale sm_scale by log_2(e) and use
+        # 2^x instead of exp in the loop because CSE and LICM
+        # don't work as expected with `exp` in the loop
+        qk_scale = sm_scale * 1.44269504
+        # load q: it will stay in SRAM throughout on NV GPUs but in VGPRs on AMD GPUs
+        q = tl.load(
+            Q_block_ptr, boundary_check=(0,) if BOUNDS_CHECKS_M or USE_SEQ_POS_Q else ()
+        )
+
+        # The loop over K/V sequence blocks is divided into two stages:
+        # Stage 1: (many) blocks which don't need boundary conditions checks - not touching sequence end or diagonal
+        # Stage 2: (few) blocks which need boundary conditions checks
+        # Following https://github.com/openai/triton/blob/293b7fd592a1602f2305c1bd0bc978bbd97337d6/python/tutorials/06-fused-attention.py  # noqa: E501
+
+        """
+        Iteration doesn't need masking if
+            - 1) block doesn't cross the diagonal: max(kv_pos) <= min(q_pos)
+            - 2) block doesn't cross the end of the sequence: max(kv_pos) < kv_len
+        Find maximum start_n for which condition 1 is satisifed.
+        Remember that
+            q_pos = q_seq_start + offs_m[:, None]
+            kv_pos = start_n + offs_n[None, :]
+            offs_m = start_m * BLOCK_M + tl.arange(0, BLOCK_M)
+            offs_n = tl.arange(0, BLOCK_N)
+        min(q_pos) = q_seq_start + start_m * BLOCK_M
+        max(kv_pos) = start_n + BLOCK_N - 1
+        So the condition becomes
+            q_seq_start + start_m * BLOCK_M >= start_n + BLOCK_N - 1
+        So:
+        1) start_n <= q_seq_start + start_m * BLOCK_M - BLOCK_N + 1
+        2) start_n <= kv_len - BLOCK_N
+
+        So the last allowed start_n without masking is min(q_seq_start + start_m * BLOCK_M + 1, kv_len) - BLOCK_N
+        """
+        # Second stage can only be skipped if no mask is used and K/V length is divisible by the tile size
+        TWO_STAGES: tl.constexpr = BOUNDS_CHECKS_N or (
+            IS_CAUSAL or (USE_SEQ_LEN_KV or (USE_SEQ_POS_Q and not IS_KV_PADDED))
+        )
+        if TWO_STAGES:
+            # Border between two stages
+            hi_stage_1 = min(q_seq_start + start_m * BLOCK_M + 1, kv_len) - BLOCK_N
+            hi_stage_1 = (
+                hi_stage_1 // BLOCK_N
+            ) * BLOCK_N  # Don't understand why it doesn't work without this
+        else:
+            hi_stage_1 = kv_len
+
+        # Stage 1 - no boundary conditions
         acc, l_i, m_i = _fwd_kernel_triton_flash_inner(
             acc,
             l_i,
@@ -312,8 +289,8 @@ def _fwd_kernel_triton_flash(
             K_block_ptr,
             V_block_ptr,
             q_seq_start,
+            0,
             hi_stage_1,
-            hi,
             start_m,
             qk_scale,
             kv_len,
@@ -325,108 +302,142 @@ def _fwd_kernel_triton_flash(
             BOUNDS_CHECKS_N,
             CAST_BEFORE_MATMUL,
             ALLOW_TF32,
-            STAGE=2,
+            STAGE=1,
             pre_load_v=pre_load_v,
         )
+        if TWO_STAGES:
+            hi = (
+                tl.minimum(kv_len, q_seq_start + (start_m + 1) * BLOCK_M)
+                if IS_CAUSAL
+                else kv_len
+            )
+            # Do we need this barrier?
+            # tl.debug_barrier()
+            # Stage 2 - with boundary conditions
+            acc, l_i, m_i = _fwd_kernel_triton_flash_inner(
+                acc,
+                l_i,
+                m_i,
+                q,
+                K_block_ptr,
+                V_block_ptr,
+                q_seq_start,
+                hi_stage_1,
+                hi,
+                start_m,
+                qk_scale,
+                kv_len,
+                offs_m,
+                offs_n,
+                BLOCK_M,
+                BLOCK_N,
+                IS_CAUSAL,
+                BOUNDS_CHECKS_N,
+                CAST_BEFORE_MATMUL,
+                ALLOW_TF32,
+                STAGE=2,
+                pre_load_v=pre_load_v,
+            )
+
+        # write back l and m
+        acc1 = acc / l_i[:, None]
+        l_ptrs = L + off_hz * N_CTX + offs_m
+        # Save LSE, converting from log2 to natural logarithm
+        l_mask = (
+            start_m * BLOCK_M + tl.arange(0, BLOCK_M) < q_len
+            if BOUNDS_CHECKS_M
+            else None
+        )
+        tl.store(l_ptrs, (m_i + tl.math.log2(l_i)) / 1.44269504, mask=l_mask)
+        # write back O
+        O_block_ptr = tl.make_block_ptr(
+            base=Out + out_offset,
+            shape=(q_len, BLOCK_DMODEL),
+            strides=(stride_om, stride_on),
+            offsets=(start_m * BLOCK_M, 0),
+            block_shape=(BLOCK_M, BLOCK_DMODEL),
+            order=(1, 0),
+        )
+        tl.store(
+            O_block_ptr,
+            acc1.to(Out.dtype.element_ty),
+            boundary_check=(0,) if BOUNDS_CHECKS_M or USE_SEQ_POS_Q else (),
+        )
+
+    _autotuner_config_amd_full = [
+        triton.Config(
+            {"BLOCK_M": 256, "BLOCK_N": 64, "waves_per_eu": 2, "pre_load_v": False},
+            num_stages=1,
+            num_warps=8,
+        ),
+        triton.Config(
+            {"BLOCK_M": 128, "BLOCK_N": 128, "waves_per_eu": 2, "pre_load_v": False},
+            num_stages=1,
+            num_warps=4,
+        ),
+        triton.Config(
+            {"BLOCK_M": 256, "BLOCK_N": 128, "waves_per_eu": 2, "pre_load_v": False},
+            num_stages=1,
+            num_warps=8,
+        ),
+        triton.Config(
+            {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "pre_load_v": True},
+            num_stages=1,
+            num_warps=4,
+        ),  # d64-False
+        triton.Config(
+            {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "pre_load_v": False},
+            num_stages=1,
+            num_warps=4,
+        ),  # d64-True
+    ]
+
+    _autotuner_config_amd_dummy = [
+        triton.Config(
+            {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 2, "pre_load_v": False},
+            num_stages=1,
+            num_warps=8,
+        ),
+    ]
+
+    _autotuner_config_nvidia_dummy = [
+        triton.Config(
+            {"BLOCK_M": 128, "BLOCK_N": 64, "pre_load_v": False},
+            num_stages=1,
+            num_warps=8,
+        ),
+    ]
+
+    def autotune_kernel(kernel, autotune):
 
-    # write back l and m
-    acc1 = acc / l_i[:, None]
-    l_ptrs = L + off_hz * N_CTX + offs_m
-    # Save LSE, converting from log2 to natural logarithm
-    l_mask = (
-        start_m * BLOCK_M + tl.arange(0, BLOCK_M) < q_len if BOUNDS_CHECKS_M else None
-    )
-    tl.store(l_ptrs, (m_i + tl.math.log2(l_i)) / 1.44269504, mask=l_mask)
-    # write back O
-    O_block_ptr = tl.make_block_ptr(
-        base=Out + out_offset,
-        shape=(q_len, BLOCK_DMODEL),
-        strides=(stride_om, stride_on),
-        offsets=(start_m * BLOCK_M, 0),
-        block_shape=(BLOCK_M, BLOCK_DMODEL),
-        order=(1, 0),
-    )
-    tl.store(
-        O_block_ptr,
-        acc1.to(Out.dtype.element_ty),
-        boundary_check=(0,) if BOUNDS_CHECKS_M or USE_SEQ_POS_Q else (),
-    )
-
-
-_autotuner_config_amd_full = [
-    triton.Config(
-        {"BLOCK_M": 256, "BLOCK_N": 64, "waves_per_eu": 2, "pre_load_v": False},
-        num_stages=1,
-        num_warps=8,
-    ),
-    triton.Config(
-        {"BLOCK_M": 128, "BLOCK_N": 128, "waves_per_eu": 2, "pre_load_v": False},
-        num_stages=1,
-        num_warps=4,
-    ),
-    triton.Config(
-        {"BLOCK_M": 256, "BLOCK_N": 128, "waves_per_eu": 2, "pre_load_v": False},
-        num_stages=1,
-        num_warps=8,
-    ),
-    triton.Config(
-        {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "pre_load_v": True},
-        num_stages=1,
-        num_warps=4,
-    ),  # d64-False
-    triton.Config(
-        {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 3, "pre_load_v": False},
-        num_stages=1,
-        num_warps=4,
-    ),  # d64-True
-]
-
-
-_autotuner_config_amd_dummy = [
-    triton.Config(
-        {"BLOCK_M": 128, "BLOCK_N": 64, "waves_per_eu": 2, "pre_load_v": False},
-        num_stages=1,
-        num_warps=8,
-    ),
-]
-
-_autotuner_config_nvidia_dummy = [
-    triton.Config(
-        {"BLOCK_M": 128, "BLOCK_N": 64, "pre_load_v": False},
-        num_stages=1,
-        num_warps=8,
-    ),
-]
-
-
-def autotune_kernel(kernel, autotune):
-
-    kernel = triton.heuristics(
-        values={
-            "BOUNDS_CHECKS_N": lambda args: ((args["Mkv"] % args["BLOCK_N"]) != 0)
-            or (args["USE_SEQ_POS_Q"] and not args["IS_KV_PADDED"]),
-            "BOUNDS_CHECKS_M": lambda args: (args["N_CTX"] % args["BLOCK_M"]) != 0,
-        }
-    )(kernel)
-
-    if torch.version.cuda:
-        configs = _autotuner_config_nvidia_dummy
-    elif autotune:
-        configs = _autotuner_config_amd_full
-    else:
-        configs = _autotuner_config_amd_dummy
-
-    kernel = triton.autotune(
-        configs=configs,
-        key=["Z", "H", "N_CTX", "IS_CAUSAL", "BLOCK_DMODEL"],
-    )(kernel)
-    return kernel
-
-
-_fwd_kernel_triton_flash_maybe_autotuned = {
-    True: autotune_kernel(_fwd_kernel_triton_flash, True),
-    False: autotune_kernel(_fwd_kernel_triton_flash, False),
-}
+        kernel = triton.heuristics(
+            values={
+                "BOUNDS_CHECKS_N": lambda args: ((args["Mkv"] % args["BLOCK_N"]) != 0)
+                or (args["USE_SEQ_POS_Q"] and not args["IS_KV_PADDED"]),
+                "BOUNDS_CHECKS_M": lambda args: (args["N_CTX"] % args["BLOCK_M"]) != 0,
+            }
+        )(kernel)
+
+        if torch.version.cuda:
+            configs = _autotuner_config_nvidia_dummy
+        elif autotune:
+            configs = _autotuner_config_amd_full
+        else:
+            configs = _autotuner_config_amd_dummy
+
+        kernel = triton.autotune(
+            configs=configs,
+            key=["Z", "H", "N_CTX", "IS_CAUSAL", "BLOCK_DMODEL"],
+        )(kernel)
+        return kernel
+
+    _fwd_kernel_triton_flash_maybe_autotuned = {
+        True: autotune_kernel(_fwd_kernel_triton_flash, True),
+        False: autotune_kernel(_fwd_kernel_triton_flash, False),
+    }
+else:
+    _fwd_kernel_triton_flash = None
+    _fwd_kernel_triton_flash_maybe_autotuned = dict()
 
 
 def _prepare_inputs(inp: Inputs) -> Inputs:

From 21f190455a2f17d8d28fe6880f32cfce1ced97ca Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 00:50:12 +0000
Subject: [PATCH 471/837] re-enable test_triton_layernorm as it passes

---
 tests/test_triton_layernorm.py | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/tests/test_triton_layernorm.py b/tests/test_triton_layernorm.py
index 50dde39bbf..954dca4f10 100644
--- a/tests/test_triton_layernorm.py
+++ b/tests/test_triton_layernorm.py
@@ -12,10 +12,6 @@
 
 import xformers
 
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
-
 try:
     from xformers.triton import FusedLayerNorm
 
@@ -38,7 +34,6 @@
 ]
 
 
-@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton is not available")
 @pytest.mark.parametrize("shape", SHAPES)
 @pytest.mark.parametrize("amp", [True, False])
@@ -103,7 +98,6 @@ def test_layernorm_parity(shape, amp):
         )
 
 
-@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton is not available")
 @pytest.mark.parametrize("dtype", [torch.float16, torch.float32, torch.bfloat16])
 def test_no_contiguous(dtype):

From d880c365aef3d5a953ca06b2d0bbf33cf59f6682 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 00:53:33 +0000
Subject: [PATCH 472/837] re-enable test_triton_blocksparse as it passes

---
 tests/test_triton_blocksparse.py | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/tests/test_triton_blocksparse.py b/tests/test_triton_blocksparse.py
index 8c458f4571..a56386bd49 100644
--- a/tests/test_triton_blocksparse.py
+++ b/tests/test_triton_blocksparse.py
@@ -13,10 +13,6 @@
 from xformers.components.attention import build_attention
 from xformers.components.attention.attention_patterns import block_sparsify_tensor
 
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
-
 
 def catch_oor(fn):
     @functools.wraps(fn)
@@ -64,7 +60,6 @@ def mask_tensor(x, mask, block, value=0):
     return ret
 
 
-@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("MODE", _matmul_types)
 @pytest.mark.parametrize("TRANS_A", [False, True])
@@ -116,7 +111,6 @@ def test_matmul(MODE, TRANS_A, TRANS_B, BLOCK, DTYPE, Z=32, H=2, M=512, N=384, K
     torch.testing.assert_close(rc, tc)
 
 
-@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("BLOCK", [32, 128])
 @pytest.mark.parametrize("WIDTH", [256, 576, 1024, 1792])
@@ -147,7 +141,6 @@ def test_softmax(BLOCK, WIDTH, DTYPE):
     torch.testing.assert_close(ry, ty)
 
 
-@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("block", [32, 43, 128])  # 16, 32,
 @pytest.mark.parametrize("dtype", [torch.float16])
@@ -221,7 +214,6 @@ def loss_fn(x):
             )
 
 
-@disable_on_rocm
 @pytest.mark.skipif(not _triton_available, reason="Triton requires a recent CUDA gpu")
 @pytest.mark.parametrize("dtype", [torch.float16])
 def test_blocksparse_attention_parity(dtype):

From 059c84fa7594a2d6f49c7c914e2975aee877c548 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 01:05:27 +0000
Subject: [PATCH 473/837] cleanup test_sparse_tensors

---
 tests/test_sparse_tensors.py | 9 +--------
 1 file changed, 1 insertion(+), 8 deletions(-)

diff --git a/tests/test_sparse_tensors.py b/tests/test_sparse_tensors.py
index 21246c175d..d4ab760027 100644
--- a/tests/test_sparse_tensors.py
+++ b/tests/test_sparse_tensors.py
@@ -12,13 +12,9 @@
 from xformers.sparse import BlockSparseTensor, SparseCSRTensor
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cpu", "cuda:0"] if torch.cuda.is_available() else ["cpu"]
+_devices = ["cpu", "cuda:0"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
 _tensor_types = [BlockSparseTensor, SparseCSRTensor]
 
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
-
 
 def _create_blocksparse_tensor(
     device, block_size=32, Z=8, C=2, H=64, W=64, dtype=torch.float32
@@ -105,7 +101,6 @@ def test_sparse_binary_ops(func, device):
     assert torch.allclose(res, res_gt)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
 def test_masked_matmul(tensor_type, device):
@@ -158,7 +153,6 @@ def test_masked_matmul(tensor_type, device):
     assert torch.allclose(b.grad, bb.grad, atol=atol)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
 def test_bmm(tensor_type, device):
@@ -208,7 +202,6 @@ def test_bmm(tensor_type, device):
     ), f"{torch.max(torch.abs(a_grad-a_sparse.grad.to_dense()))}"
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("tensor_type", _tensor_types)
 @pytest.mark.parametrize("device", _devices)
 def test_sparse_softmax(tensor_type, device):

From 8aa0bdc52312dbcd1bbe49a0dd52dbe417e6ad26 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 01:10:38 +0000
Subject: [PATCH 474/837] cleanup test_custom_ops

---
 tests/test_custom_ops.py | 18 ++----------------
 1 file changed, 2 insertions(+), 16 deletions(-)

diff --git a/tests/test_custom_ops.py b/tests/test_custom_ops.py
index 676952df77..4d9e618907 100644
--- a/tests/test_custom_ops.py
+++ b/tests/test_custom_ops.py
@@ -16,12 +16,9 @@
     _sparse_bmm,
 )
 
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
+cuda_only = pytest.mark.skipif(not torch.cuda.is_available() or not torch.version.cuda, reason="requires CUDA")
 
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
 
 
 def _baseline_matmul_with_sparse_mask(
@@ -62,7 +59,6 @@ def _baseline_sparse_bmm(a: torch.Tensor, b: torch.Tensor) -> torch.Tensor:
     return torch.stack(out, dim=0)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("is_sparse", [True, False])
 @pytest.mark.parametrize("contiguous", [True, False])
 @pytest.mark.parametrize("device", _devices)
@@ -94,7 +90,6 @@ def test_matmul_with_mask(device, contiguous, is_sparse):
     assert torch.allclose(res, res_gt)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("is_sparse", [True, False])
 @pytest.mark.parametrize("contiguous", [True, False])
 @pytest.mark.parametrize("device", _devices)
@@ -137,7 +132,6 @@ def compute_grads(f):
     assert torch.allclose(grad_b, b.grad)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sddmm_sputnik(device):
     B, L, M, K = 8, 30, 16, 32
@@ -165,7 +159,6 @@ def test_sddmm_sputnik(device):
 
 
 @cuda_only
-@disable_on_rocm
 @pytest.mark.parametrize("prob", [0.5, 1])
 @pytest.mark.parametrize("K", [32, 17])
 @pytest.mark.parametrize("M", [30, 17])
@@ -196,7 +189,6 @@ def test_sddmm_csr(L, M, K, prob):
 
 
 @cuda_only
-@disable_on_rocm
 @pytest.mark.parametrize("nnz", [0, 4, 16, 20, 36])
 def test_sddmm_csr_per_nnz(nnz):
     device = torch.device("cuda")
@@ -224,7 +216,6 @@ def test_sddmm_csr_per_nnz(nnz):
 
 
 @cuda_only
-@disable_on_rocm
 @pytest.mark.parametrize("prob", [0.5, 1])
 @pytest.mark.parametrize("K", [32, 17])
 @pytest.mark.parametrize("M", [30, 17])
@@ -257,7 +248,6 @@ def test_sddmm_coo(L, M, K, prob):
     assert torch.allclose(res, res_gt, atol=1e-6)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sddmm_sputnik_backward(device):
     contiguous = True
@@ -291,7 +281,6 @@ def test_sddmm_sputnik_backward(device):
     assert torch.allclose(grad_b, b.grad, atol=1e-7)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sparse_softmax_sputnik(device):
     B, L = 8, 30
@@ -314,7 +303,6 @@ def test_sparse_softmax_sputnik(device):
     assert torch.allclose(res, res_gt)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_sparse_softmax_sputnik_backward(device):
     B, L = 8, 30
@@ -337,7 +325,6 @@ def test_sparse_softmax_sputnik_backward(device):
     )
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_spmm_sputnik(device):
     B, L, K = 8, 30, 32
@@ -363,7 +350,6 @@ def test_spmm_sputnik(device):
     assert torch.allclose(res, res_gt)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_spmm_sputnik_backward(device):
     B, M, L, K = 8, 16, 30, 32

From 5bc7bbef9cb831f3189bc6aaf7ad04237ddf2ff7 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 01:11:17 +0000
Subject: [PATCH 475/837] reapply black

---
 tests/test_custom_ops.py     | 8 ++++++--
 tests/test_sparse_tensors.py | 4 +++-
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/tests/test_custom_ops.py b/tests/test_custom_ops.py
index 4d9e618907..7e8a78593e 100644
--- a/tests/test_custom_ops.py
+++ b/tests/test_custom_ops.py
@@ -16,9 +16,13 @@
     _sparse_bmm,
 )
 
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available() or not torch.version.cuda, reason="requires CUDA")
+cuda_only = pytest.mark.skipif(
+    not torch.cuda.is_available() or not torch.version.cuda, reason="requires CUDA"
+)
 
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
+_devices = (
+    ["cpu", "cuda"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
+)
 
 
 def _baseline_matmul_with_sparse_mask(
diff --git a/tests/test_sparse_tensors.py b/tests/test_sparse_tensors.py
index d4ab760027..641f2ffc70 100644
--- a/tests/test_sparse_tensors.py
+++ b/tests/test_sparse_tensors.py
@@ -12,7 +12,9 @@
 from xformers.sparse import BlockSparseTensor, SparseCSRTensor
 
 cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-_devices = ["cpu", "cuda:0"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
+_devices = (
+    ["cpu", "cuda:0"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
+)
 _tensor_types = [BlockSparseTensor, SparseCSRTensor]
 
 
From 5b4ebe4d4c12017d10c3a29f8dfdfd1c6e2a1c86 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 01:22:04 +0000
Subject: [PATCH 476/837] cleanup test_core_attention

---
 tests/test_core_attention.py | 12 ++----------
 1 file changed, 2 insertions(+), 10 deletions(-)

diff --git a/tests/test_core_attention.py b/tests/test_core_attention.py
index e80b0d5fe3..87ad8dd5be 100644
--- a/tests/test_core_attention.py
+++ b/tests/test_core_attention.py
@@ -16,10 +16,6 @@
 
 _is_blocksparse_available = _is_triton_available()
 
-disable_on_rocm = pytest.mark.skipif(
-    not not torch.version.hip, reason="could not be done on ROCM"
-)
-
 
 def catch_oor(fn):
     @functools.wraps(fn)
@@ -35,7 +31,7 @@ def fn_and_catch_oor(*args, **kwargs):
     return fn_and_catch_oor
 
 
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
+_devices = ["cpu", "cuda"] if torch.cuda.is_available() and torch.version.cuda else ["cpu"]
 
 
 def test_core_attention():
@@ -85,7 +81,6 @@ def test_core_attention_mask_types():
     r_dense_add = scaled_dot_product_attention(a, a, a, float_mask_add)
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_dense_no_mask(device):
     b, s, d = 8, 64, 32
@@ -99,7 +94,6 @@ def test_amp_attention_dense_no_mask(device):
     assert r.dtype == expected_device
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_dense(device):
     b, s, d = 8, 64, 32
@@ -115,7 +109,6 @@ def test_amp_attention_dense(device):
     assert r.dtype == expected_device
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_sparse(device):
     b, s, d = 8, 64, 32
@@ -132,7 +125,6 @@ def test_amp_attention_sparse(device):
     assert r.dtype == expected_device
 
 
-@disable_on_rocm
 @pytest.mark.parametrize("device", _devices)
 def test_amp_attention_sparsecs(device):
     b, s, d = 8, 64, 32
@@ -149,10 +141,10 @@ def test_amp_attention_sparsecs(device):
     assert r.dtype == expected_device
 
 
-@disable_on_rocm
 @pytest.mark.skipif(
     not _is_blocksparse_available, reason="Blocksparse is not available"
 )
+@pytest.mark.skipif(not torch.version.cuda, reason="Sparse ops not supported on ROCm")
 @pytest.mark.parametrize("device", ["cuda"])
 @pytest.mark.parametrize("data_type", [torch.float16, torch.float32])
 @catch_oor

From 473ebc7fb8bcee879e60f64cb4c6ad8355a1aec2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Sat, 17 Feb 2024 01:27:06 +0000
Subject: [PATCH 477/837] benchmark ck ops on rocm only

---
 xformers/benchmarks/benchmark_attn_decoding.py | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 19c34bb8f6..7ca1a99f3f 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -126,14 +126,21 @@ def fw(self) -> None:
 
 BENCHMARKS = {
     "pytorch": AttentionDecodingPyTorchRepeat,
-    "ck": AttentionDecodingCK,
-    "ck-decoder": AttentionDecodingCKDecoder,
-    "ck_splitK": AttentionDecodingCKSplitKV,
 }
 
 if torch.version.cuda:
     BENCHMARKS["flash-decoding"] = AttentionDecodingFlashDecoding
 
+if torch.version.hip:
+    BENCHMARKS.update(
+        {
+            "ck": AttentionDecodingCK,
+            "ck-decoder": AttentionDecodingCKDecoder,
+            "ck_splitK": AttentionDecodingCKSplitKV,
+        }
+    )
+
+
 if (sys.version_info.major, sys.version_info.minor) >= (3, 9):
     BENCHMARKS["triton_splitK"] = AttentionDecodingSplitKV
 

From 5d3247fb63187ac325931036f0b4ca0da4384434 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 19 Feb 2024 20:02:56 +0000
Subject: [PATCH 478/837] fix mypy

---
 xformers/benchmarks/benchmark_attn_decoding.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index 5025d40ce5..f7f4ddf9f2 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -4,7 +4,7 @@
 # LICENSE file in the root directory of this source tree.
 
 import sys
-from typing import Any
+from typing import Any, Type
 
 import torch
 from torch.utils import benchmark
@@ -127,7 +127,7 @@ def fw(self) -> None:
         return attn @ v
 
 
-BENCHMARKS = {
+BENCHMARKS : dict[str, Type[AttentionDecodingFlashDecoding]] = {
     "pytorch": AttentionDecodingPyTorchRepeat,
 }
 

From 58b0f755468054e3141b2cc0f06176648a934b1b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 21 Feb 2024 22:26:37 +0000
Subject: [PATCH 479/837] fix lint: black

---
 xformers/benchmarks/benchmark_attn_decoding.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index f7f4ddf9f2..e313d36cc6 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -127,7 +127,7 @@ def fw(self) -> None:
         return attn @ v
 
 
-BENCHMARKS : dict[str, Type[AttentionDecodingFlashDecoding]] = {
+BENCHMARKS: dict[str, Type[AttentionDecodingFlashDecoding]] = {
     "pytorch": AttentionDecodingPyTorchRepeat,
 }
 

From 03b72945b2e78ed856827f01902513c217e0930d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 21 Feb 2024 22:29:44 +0000
Subject: [PATCH 480/837] fix lints: mypy

---
 xformers/benchmarks/benchmark_attn_decoding.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index e313d36cc6..ed457757fd 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -4,7 +4,7 @@
 # LICENSE file in the root directory of this source tree.
 
 import sys
-from typing import Any, Type
+from typing import Any, Dict, Type
 
 import torch
 from torch.utils import benchmark
@@ -127,7 +127,7 @@ def fw(self) -> None:
         return attn @ v
 
 
-BENCHMARKS: dict[str, Type[AttentionDecodingFlashDecoding]] = {
+BENCHMARKS: Dict[str, Type[AttentionDecodingFlashDecoding]] = {
     "pytorch": AttentionDecodingPyTorchRepeat,
 }
 

From 0666088ce16745c02ad9cded907495343b3df695 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 8 Feb 2024 19:20:58 +0000
Subject: [PATCH 481/837] split-k decoder: move all tunable parameters to the
 top of cpp file

---
 .../csrc/attention/hip_fmha/CMakeLists.txt    |  2 +-
 .../hip_fmha/attention_forward_splitk.cpp     | 79 +++++++++++--------
 .../ck_attention_forward_decoder_splitk.h     | 47 +++++++----
 3 files changed, 78 insertions(+), 50 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
index 2bf65f305b..97e2ab0b22 100644
--- a/xformers/csrc/attention/hip_fmha/CMakeLists.txt
+++ b/xformers/csrc/attention/hip_fmha/CMakeLists.txt
@@ -19,7 +19,7 @@ set(project_root_dir /xformers)
 set(xformers_csrc ${project_root_dir}/xformers/csrc)
 set(sources ${xformers_csrc}/attention/hip_fmha/attention_forward_decoder.hip)
 set(splitk_sources ${xformers_csrc}/attention/hip_fmha/attention_forward_splitk.hip)
-set(ck_include ${project_root_dir}/third_party/composable_kernel/include/)
+set(ck_include ${project_root_dir}/third_party/composable_kernel_tiled/include/)
 set(torch_include /opt/conda/envs/py_${py_version}/lib/python${py_version}/site-packages/torch/include)
 
 set_source_files_properties(${sources} ${splitk_sources} PROPERTIES LANGUAGE HIP)
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 06fbbe0f69..0e9648453a 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -8,8 +8,12 @@
 
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+constexpr int32_t kWavefrontsPerBlock = 4;
+constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
+constexpr int32_t kMaxKVSequenceLength = 4096;
+constexpr int32_t kLoopUnroll = 16;
+constexpr int32_t kLoopUnrollTail = 2;
+using compute_t = float;
 } // namespace
 
 namespace {
@@ -48,13 +52,11 @@ namespace {
 
 template <
     int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock,
-    int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = 256>
+    int32_t WavefrontsPerBlock>
 at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
     const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int64_t split_k,
@@ -62,7 +64,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
     at::Tensor& split_sumexp,
     at::Tensor& split_O,
     at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
   static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
 
   at::OptionalDeviceGuard guard(XQ.device());
@@ -72,8 +74,8 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
 
   TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
 
-  TORCH_CHECK(cache_K.size(1) / split_k <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
+  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
 
   constexpr auto rank = 5;
 
@@ -89,8 +91,8 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
   dim3 blocks(B * H * M * G, split_k);
   dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) + WavefrontsPerBlock * sizeof(compute_t);
+  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
       threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
   const size_t lds_bytes = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
@@ -104,7 +106,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
       [&] {
         using ck_data_t = c10_to_data_t<scalar_t>::type;
         using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t>;
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t, kMaxKVSequenceLength, kLoopUnroll, kLoopUnrollTail, compute_t>;
         auto op = device_op_t{};
 
         auto XQ_acc =
@@ -168,8 +170,8 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
 template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
 at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int64_t split_k) {
@@ -210,8 +212,8 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
 
 at::Tensor efficient_attention_forward_decoder_splitk_ck(
     const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int64_t split_k) {
@@ -365,8 +367,8 @@ static at::Tensor split_reduce_torch(
 
 static at::Tensor efficient_attention_forward_decoder_splitk_torch(
     const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
     double qk_scale,
     int32_t split_k,
@@ -541,16 +543,28 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
           Q_size_k_alignment_necessary == 4
               ? efficient_attention_forward_decoder_splitk_ck_kernel<
                     scalar_t,
-                    4>
+                    4,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
               : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                        scalar_t,
+                        2,
+                        kLoopUnroll,
+                        kLoopUnrollTail,
+                        kMaxKVSequenceLength,
+                        compute_t>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                            scalar_t,
+                            1,
+                            kLoopUnroll,
+                            kLoopUnrollTail,
+                            kMaxKVSequenceLength,
+                            compute_t>
+                      : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -769,12 +783,9 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
   dim3 blocks(B * H * M * G, split_k);
   dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
 
-  constexpr int32_t KV_M_MAX = 8192;
-  constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
+      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
   const size_t lds_bytes = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 9eed4f001b..182876e607 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -152,11 +152,11 @@ __global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
 
 template <
     typename scalar_t,
-    int32_t vec_size = 4,
-    int32_t n_loop_unroll = 16,
-    int32_t n_loop_unroll_tail = 2,
-    int32_t KV_M_MAX = 8192,
-    typename compute_t = float>
+    int32_t vec_size,
+    int32_t n_loop_unroll,
+    int32_t n_loop_unroll_tail,
+    int32_t KV_M_MAX,
+    typename compute_t>
 __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
     const scalar_t* __restrict__ XQ,
     const scalar_t* __restrict__ cache_K,
@@ -451,7 +451,12 @@ __global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
 namespace ck {
 namespace tensor_operation {
 namespace device {
-template <typename scalar_t, typename compute_t = float>
+template <
+    typename scalar_t,
+    int32_t KV_M_MAX,
+    int32_t n_loop_unroll,
+    int32_t n_loop_unroll_tail,
+    typename compute_t>
 struct FMHADecoderSplitKDeviceOp : public BaseOperator {
   using DeviceOp = FMHADecoderSplitKDeviceOp;
   struct Argument : public BaseArgument {
@@ -611,16 +616,28 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
           Q_size_k_alignment_necessary == 4
               ? efficient_attention_forward_decoder_splitk_ck_kernel<
                     scalar_t,
-                    4>
+                    /* vec_size */ 4,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
               : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                        scalar_t,
+                        /* vec_size */ 2,
+                        n_loop_unroll,
+                        n_loop_unroll_tail,
+                        KV_M_MAX,
+                        compute_t>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                            scalar_t,
+                            /* vec_size */ 1,
+                            n_loop_unroll,
+                            n_loop_unroll_tail,
+                            KV_M_MAX,
+                            compute_t>
+                      : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,

From 04eec8d85be9772b904d78f5e66af96ef8b0bf76 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 21 Feb 2024 22:18:02 +0000
Subject: [PATCH 482/837] apply clang-format

---
 .../hip_fmha/attention_forward_splitk.cpp     | 48 +++++++++++--------
 .../ck_attention_forward_decoder_splitk.h     | 32 ++++++-------
 2 files changed, 44 insertions(+), 36 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 0e9648453a..ea4e3505f8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -91,7 +91,8 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
   dim3 blocks(B * H * M * G, split_k);
   dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
 
-  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) + WavefrontsPerBlock * sizeof(compute_t);
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
+      WavefrontsPerBlock * sizeof(compute_t);
   int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
       threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
   const size_t lds_bytes = max(smem_softmax, smem_output);
@@ -106,7 +107,12 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
       [&] {
         using ck_data_t = c10_to_data_t<scalar_t>::type;
         using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<ck_data_t, kMaxKVSequenceLength, kLoopUnroll, kLoopUnrollTail, compute_t>;
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
+                ck_data_t,
+                kMaxKVSequenceLength,
+                kLoopUnroll,
+                kLoopUnrollTail,
+                compute_t>;
         auto op = device_op_t{};
 
         auto XQ_acc =
@@ -549,22 +555,22 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
                     kMaxKVSequenceLength,
                     compute_t>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        2,
-                        kLoopUnroll,
-                        kLoopUnrollTail,
-                        kMaxKVSequenceLength,
-                        compute_t>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            1,
-                            kLoopUnroll,
-                            kLoopUnrollTail,
-                            kMaxKVSequenceLength,
-                            compute_t>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -783,9 +789,11 @@ static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
   dim3 blocks(B * H * M * G, split_k);
   dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
 
-  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_softmax =
+      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
   int32_t smem_output = kMaxHeadDimension * sizeof(float) *
-      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
+                            // sizeof(O[b][0][h][:])
   const size_t lds_bytes = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 182876e607..65c27603d3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -622,22 +622,22 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     KV_M_MAX,
                     compute_t>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        /* vec_size */ 2,
-                        n_loop_unroll,
-                        n_loop_unroll_tail,
-                        KV_M_MAX,
-                        compute_t>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            /* vec_size */ 1,
-                            n_loop_unroll,
-                            n_loop_unroll_tail,
-                            KV_M_MAX,
-                            compute_t>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 2,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 1,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,

From a02ab9b9e5b81d732dac52f334d142247c7f085e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 22 Feb 2024 14:50:28 +0000
Subject: [PATCH 483/837] Rename HDim/headdim to MaxK/maxk

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h    | 14 +++++++-------
 .../ck_tiled_fmha_batched_forward_bp16.cpp      |  6 +++---
 .../ck_tiled_fmha_batched_forward_fp16.cpp      |  6 +++---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h      | 14 +++++++-------
 .../ck_tiled_fmha_batched_infer_bp16.cpp        |  6 +++---
 .../ck_tiled_fmha_batched_infer_fp16.cpp        |  6 +++---
 .../hip_fmha/ck_tiled_fmha_definitions.h        |  4 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h    | 17 ++++++++---------
 .../ck_tiled_fmha_grouped_forward_bp16.cpp      |  6 +++---
 .../ck_tiled_fmha_grouped_forward_fp16.cpp      |  6 +++---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h      | 14 +++++++-------
 .../ck_tiled_fmha_grouped_infer_bp16.cpp        |  6 +++---
 .../ck_tiled_fmha_grouped_infer_fp16.cpp        |  6 +++---
 ...bp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...bp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._bp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...fp16_no_causalmask_no_attnbias_maxk_256.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_32.cpp} |  0
 ..._fp16_no_causalmask_no_attnbias_maxk_64.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_128.cpp} |  0
 ...16_no_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...p16_no_causalmask_with_attnbias_maxk_64.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_128.cpp} |  0
 ...16_with_causalmask_no_attnbias_maxk_256.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_32.cpp} |  0
 ...p16_with_causalmask_no_attnbias_maxk_64.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_128.cpp} |  0
 ..._with_causalmask_with_attnbias_maxk_256.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_32.cpp} |  0
 ...6_with_causalmask_with_attnbias_maxk_64.cpp} |  0
 141 files changed, 55 insertions(+), 56 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp => ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp} (100%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 8cdba07633..ccbfd2d86c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -38,7 +38,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 struct batched_forward_causalmask_attnbias_dispatched {
   using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
       typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -57,7 +57,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-          FmhaFwdShape<HDim>,
+          FmhaFwdShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
           FmhaTraits>;
@@ -71,17 +71,17 @@ struct batched_forward_causalmask_attnbias_dispatched {
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
       constexpr ck::index_t occupancy =
-          (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
+          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
       bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
       bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-      if constexpr (HDim == 256) {
+      if constexpr (MaxK == 256) {
         BOOL_SWITCH_4(
             pad_seqlen_q,
             kPadSeqLenQ,
@@ -221,7 +221,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 void run_batched_forward_causalmask_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
@@ -229,5 +229,5 @@ void run_batched_forward_causalmask_attnbias_dispatched(
       scalar_t,
       has_causal_mask,
       has_attn_bias,
-      HDim>::Run(param, stream);
+      MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
index 749c80a779..8d90c7cd51 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -51,19 +51,19 @@ extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhal
 
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index c65f7fedc6..3e65849715 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -51,19 +51,19 @@ extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 0d72fde9f9..af3ded107e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -38,7 +38,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 struct batched_infer_causalmask_attnbias_dispatched {
   using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
       typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -57,7 +57,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-          FmhaFwdShape<HDim>,
+          FmhaFwdShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
           FmhaTraits>;
@@ -71,17 +71,17 @@ struct batched_infer_causalmask_attnbias_dispatched {
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
       constexpr ck::index_t occupancy =
-          (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
+          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
       bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
       bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
-      if constexpr (HDim == 256) {
+      if constexpr (MaxK == 256) {
         BOOL_SWITCH_4(
             pad_seqlen_q,
             kPadSeqLenQ,
@@ -221,7 +221,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 void run_batched_infer_causalmask_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
@@ -229,5 +229,5 @@ void run_batched_infer_causalmask_attnbias_dispatched(
       scalar_t,
       has_causal_mask,
       has_attn_bias,
-      HDim>::Run(param, stream);
+      MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index f0a4edd84c..f4a2e064e3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -51,19 +51,19 @@ extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index b25041fdf7..653cfacbd5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -51,19 +51,19 @@ extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
index a20a8b5bd2..4e3767fd2a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
@@ -47,7 +47,7 @@ struct FmhaFwdTypeConfig<ck::bhalf_t> {
   using ODataType = ck::bhalf_t;
 };
 
-template <ck::index_t HDim>
+template <ck::index_t MaxK>
 struct FmhaFwdBlockTile;
 
 template <>
@@ -75,7 +75,7 @@ using FmhaFwdWarpTile = ck::Sequence<32, 32, 16>;
 
 static constexpr bool IsVLayoutRowMajor = true;
 
-template <ck::index_t HDim>
+template <ck::index_t MaxK>
 struct FmhaFwdShape;
 
 template <>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 6268571216..a79b3c1efb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -38,7 +38,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 struct grouped_forward_causalmask_attnbias_dispatched {
   using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
       typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -57,7 +57,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-          FmhaFwdShape<HDim>,
+          FmhaFwdShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
           FmhaTraits>;
@@ -71,11 +71,10 @@ struct grouped_forward_causalmask_attnbias_dispatched {
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck::index_t occupancy = (HDim == 64) ? 3
-          : (HDim == 256)                            ? 1
-                                                     : 2;
+      constexpr ck::index_t occupancy =
+          (MaxK == 64) ? 3 : (MaxK == 256) ? 1 : 2;
 
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
@@ -83,7 +82,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-      if constexpr (HDim == 256) {
+      if constexpr (MaxK == 256) {
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
               using FmhaTraits = ck::tile_program::TileFmhaTraits<
@@ -188,7 +187,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 void run_grouped_forward_causalmask_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
@@ -196,5 +195,5 @@ void run_grouped_forward_causalmask_attnbias_dispatched(
       scalar_t,
       has_causal_mask,
       has_attn_bias,
-      HDim>::Run(param, stream);
+      MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
index db313f3ef0..b417156f53 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -51,19 +51,19 @@ extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhal
 
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index 2e807d3a56..b7c278c53a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -51,19 +51,19 @@ extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 11b2857fd3..37be384c72 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -38,7 +38,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 struct grouped_infer_causalmask_attnbias_dispatched {
   using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
       typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -57,7 +57,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-          FmhaFwdShape<HDim>,
+          FmhaFwdShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
           FmhaTraits>;
@@ -71,10 +71,10 @@ struct grouped_infer_causalmask_attnbias_dispatched {
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-      using FmhaShape = FmhaFwdShape<HDim>;
+      using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
       constexpr ck::index_t occupancy =
-          (HDim == 64) ? 3 : ((HDim == 256) ? 1 : 2);
+          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
@@ -82,7 +82,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-      if constexpr (HDim == 256) {
+      if constexpr (MaxK == 256) {
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
               using FmhaTraits = ck::tile_program::TileFmhaTraits<
@@ -187,7 +187,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
-    ck::index_t HDim>
+    ck::index_t MaxK>
 void run_grouped_infer_causalmask_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
@@ -195,5 +195,5 @@ void run_grouped_infer_causalmask_attnbias_dispatched(
       scalar_t,
       has_causal_mask,
       has_attn_bias,
-      HDim>::Run(param, stream);
+      MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index ce95de00ce..7ee53261d7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -51,19 +51,19 @@ extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 830176e68b..2d03119db8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -51,19 +51,19 @@ extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, HDim, [&] {
+    FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
             HAS_ATTN_BIAS,
-            HDim>(param, stream);
+            MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
     });
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_headdim_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp

From fd3672539b49a9f3ce540edf92d929c241f44749 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 22 Feb 2024 15:38:57 +0000
Subject: [PATCH 484/837] Move some headers files to ck examples for later
 reusing

---
 setup.py                                      |   4 +
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_forward_kernel.h   | 664 ------------------
 .../hip_fmha/ck_tiled_fmha_fwd_epilogue.h     |  40 --
 .../ck_tiled_fmha_fwd_tile_partitioner.h      |  56 --
 5 files changed, 5 insertions(+), 761 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h

diff --git a/setup.py b/setup.py
index a2f15b0204..73582fa860 100644
--- a/setup.py
+++ b/setup.py
@@ -356,6 +356,10 @@ def get_extensions():
             Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha"
         ]
 
+        include_dirs += [
+            Path(this_dir) / "third_party" / "composable_kernel_tiled" / "example" / "91_tile_program" / "xformers_fmha"
+        ]
+
         include_dirs += [
             Path(this_dir) / "third_party" / "composable_kernel_tiled" / "include"
         ]
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 03d1d1ad9e..b344343273 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 03d1d1ad9e0cc3c8e5d800d106bbdebe877e6e88
+Subproject commit b344343273cf6731ba0a47e061629890a8014af5
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
deleted file mode 100644
index 58abc9efa3..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_forward_kernel.h
+++ /dev/null
@@ -1,664 +0,0 @@
-/*
- * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <type_traits>
-
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/tile/tile_window.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include "ck_tiled_fmha_definitions.h"
-
-// S[seqlen_q, seqlen_k] = Q[seqlen_q, hdim_q] * K[seqlen_k, hdim_q]
-// S'[seqlen_q, seqlen_k] = S[seqlen_q, seqlen_k] * Scale[1]
-// S''[seqlen_q, seqlen_k] = S'[seqlen_q, seqlen_k] + Bias[seqlen_q, seqlen_k]
-// P[seqlen_q, seqlen_k] = Softmax(S[seqlen_q, seqlen_k])
-// O[seqlen_q, hdim_v] = P[seqlen_q, seqlen_k] * V[hdim_v, seqlen_k]
-
-template <
-    typename TilePartitioner_,
-    typename FmhaPipeline_,
-    typename EpiloguePipeline_>
-struct FmhaFwdKernel {
-  using TilePartitioner = ck::remove_cvref_t<TilePartitioner_>;
-  using FmhaPipeline = ck::remove_cvref_t<FmhaPipeline_>;
-  using EpiloguePipeline = ck::remove_cvref_t<EpiloguePipeline_>;
-  static constexpr ck::index_t kBlockSize = FmhaPipeline::kBlockSize;
-  static constexpr ck::index_t kBlockPerCu = FmhaPipeline::kBlockPerCu;
-
-  using QDataType = ck::remove_cvref_t<typename FmhaPipeline::QDataType>;
-  using KDataType = ck::remove_cvref_t<typename FmhaPipeline::KDataType>;
-  using VDataType = ck::remove_cvref_t<typename FmhaPipeline::VDataType>;
-  using BiasDataType = ck::remove_cvref_t<typename FmhaPipeline::BiasDataType>;
-  using LSEDataType = ck::remove_cvref_t<typename FmhaPipeline::LSEDataType>;
-  using ODataType = ck::remove_cvref_t<typename FmhaPipeline::ODataType>;
-
-  using VLayout = ck::remove_cvref_t<typename FmhaPipeline::VLayout>;
-
-  static constexpr bool kIsGroupMode = FmhaPipeline::kIsGroupMode;
-  static constexpr bool kPadSeqLenQ = FmhaPipeline::kPadSeqLenQ;
-  static constexpr bool kPadSeqLenK = FmhaPipeline::kPadSeqLenK;
-  static constexpr bool kPadHeadDimQ = FmhaPipeline::kPadHeadDimQ;
-  static constexpr bool kPadHeadDimV = FmhaPipeline::kPadHeadDimV;
-  static constexpr bool kHasBias = FmhaPipeline::kHasBias;
-  static constexpr bool kStoreLSE = FmhaPipeline::kStoreLSE;
-  using FmhaMask = ck::remove_cvref_t<typename FmhaPipeline::FmhaMask>;
-  static constexpr bool kHasMask = FmhaMask::IsMasking;
-
-  template <ck::index_t I> // to avoid duplicated base class prblem, introduce
-                           // an template arg
-  struct FmhaFwdEmptyKargs {};
-
-  // kargs use aggregate initializer, so no constructor will provided
-  // use inheritance to minimize karg size
-  // user need to use MakeKargs() function to create kargs.
-  struct FmhaFwdCommonKargs {
-    const void* q_ptr;
-    const void* k_ptr;
-    const void* v_ptr;
-    void* o_ptr;
-
-    ck::index_t seqlen_q;
-    ck::index_t seqlen_k;
-    ck::index_t hdim_q;
-    ck::index_t hdim_v;
-
-    // for MQA/GQA, nhead could be different. This parameter is nhead_q /
-    // nhead_k if this param is larger than 1, indicate MQA/GQA case
-    ck::index_t nhead_ratio_qk;
-    float scale;
-
-    ck::index_t stride_q;
-    ck::index_t stride_k;
-    ck::index_t stride_v;
-    ck::index_t stride_o;
-
-    ck::index_t nhead_stride_q;
-    ck::index_t nhead_stride_k;
-    ck::index_t nhead_stride_v;
-    ck::index_t nhead_stride_o;
-  };
-
-  struct FmhaFwdCommonBiasKargs {
-    const void* bias_ptr = nullptr;
-    ck::index_t stride_bias = 0;
-    ck::index_t nhead_stride_bias = 0;
-  };
-
-  struct FmhaFwdBatchModeBiasKargs : FmhaFwdCommonBiasKargs {
-    ck::index_t batch_stride_bias = 0;
-  };
-
-  struct FmhaFwdMaskKargs {
-    CausalMaskType mask_type;
-    ck::index_t window_size;
-  };
-
-  struct FmhaFwdCommonLSEKargs {
-    void* lse_ptr = nullptr;
-    ck::index_t nhead_stride_lse = 0;
-  };
-
-  struct FmhaFwdBatchModeLSEKargs : FmhaFwdCommonLSEKargs {
-    ck::index_t batch_stride_lse = 0;
-  };
-
-  struct FmhaFwdBatchModeKargs
-      : FmhaFwdCommonKargs,
-        std::conditional_t<
-            kHasBias,
-            FmhaFwdBatchModeBiasKargs,
-            FmhaFwdEmptyKargs<0>>,
-        std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
-        std::conditional_t<
-            kStoreLSE,
-            FmhaFwdBatchModeLSEKargs,
-            FmhaFwdEmptyKargs<2>> {
-    ck::index_t batch_stride_q;
-    ck::index_t batch_stride_k;
-    ck::index_t batch_stride_v;
-    ck::index_t batch_stride_o;
-  };
-
-  struct FmhaFwdGroupModeKargs
-      : FmhaFwdCommonKargs,
-        std::conditional_t<
-            kHasBias,
-            FmhaFwdCommonBiasKargs,
-            FmhaFwdEmptyKargs<0>>,
-        std::conditional_t<kHasMask, FmhaFwdMaskKargs, FmhaFwdEmptyKargs<1>>,
-        std::conditional_t<
-            kStoreLSE,
-            FmhaFwdCommonLSEKargs,
-            FmhaFwdEmptyKargs<2>> {
-    const int32_t* seqstart_q_ptr;
-    const int32_t* seqstart_k_ptr;
-    const int32_t* seqlen_k_ptr;
-  };
-
-  using Kargs = std::
-      conditional_t<kIsGroupMode, FmhaFwdGroupModeKargs, FmhaFwdBatchModeKargs>;
-
-  template <bool Cond = !kIsGroupMode>
-  __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(
-      const void* q_ptr,
-      const void* k_ptr,
-      const void* v_ptr,
-      const void* bias_ptr,
-      void* lse_ptr,
-      void* o_ptr,
-      ck::index_t seqlen_q,
-      ck::index_t seqlen_k,
-      ck::index_t hdim_q,
-      ck::index_t hdim_v,
-      ck::index_t nhead_ratio_qk,
-      float scale,
-      ck::index_t stride_q,
-      ck::index_t stride_k,
-      ck::index_t stride_v,
-      ck::index_t stride_bias,
-      ck::index_t stride_o,
-      ck::index_t nhead_stride_q,
-      ck::index_t nhead_stride_k,
-      ck::index_t nhead_stride_v,
-      ck::index_t nhead_stride_bias,
-      ck::index_t nhead_stride_lse,
-      ck::index_t nhead_stride_o,
-      ck::index_t batch_stride_q,
-      ck::index_t batch_stride_k,
-      ck::index_t batch_stride_v,
-      ck::index_t batch_stride_bias,
-      ck::index_t batch_stride_lse,
-      ck::index_t batch_stride_o,
-      CausalMaskType mask_type,
-      ck::index_t window_size) {
-    Kargs kargs{
-        {q_ptr,
-         k_ptr,
-         v_ptr,
-         o_ptr,
-         seqlen_q,
-         seqlen_k,
-         hdim_q,
-         hdim_v,
-         nhead_ratio_qk,
-#if CK_FMHA_FWD_FAST_EXP2
-         static_cast<float>(scale * ck::math::log2e_v<>),
-#else
-         scale,
-#endif
-         stride_q,
-         stride_k,
-         stride_v,
-         stride_o,
-         nhead_stride_q,
-         nhead_stride_k,
-         nhead_stride_v,
-         nhead_stride_o}, // args for common karg
-        {}, // placeholder for bias
-        {}, // placeholder for mask
-        {}, // placeholder for lse
-        batch_stride_q,
-        batch_stride_k,
-        batch_stride_v,
-        batch_stride_o};
-
-    if constexpr (kHasBias) {
-      kargs.bias_ptr = bias_ptr;
-      kargs.stride_bias = stride_bias;
-      kargs.nhead_stride_bias = nhead_stride_bias;
-      kargs.batch_stride_bias = batch_stride_bias;
-    }
-
-    if constexpr (kHasMask) {
-      kargs.mask_type = mask_type;
-      kargs.window_size = window_size;
-    }
-    if constexpr (kStoreLSE) {
-      kargs.lse_ptr = lse_ptr;
-      kargs.nhead_stride_lse = nhead_stride_lse;
-      kargs.batch_stride_lse = batch_stride_lse;
-    }
-
-    return kargs;
-  }
-
-  template <bool Cond = kIsGroupMode>
-  __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(
-      const void* q_ptr,
-      const void* k_ptr,
-      const void* v_ptr,
-      const void* bias_ptr,
-      void* lse_ptr,
-      void* o_ptr,
-      const void* seqstart_q_ptr,
-      const void* seqstart_k_ptr,
-      const void* seqlen_k_ptr,
-      ck::index_t hdim_q,
-      ck::index_t hdim_v,
-      ck::index_t nhead_ratio_qk,
-      float scale,
-      ck::index_t stride_q,
-      ck::index_t stride_k,
-      ck::index_t stride_v,
-      ck::index_t stride_bias,
-      ck::index_t stride_o,
-      ck::index_t nhead_stride_q,
-      ck::index_t nhead_stride_k,
-      ck::index_t nhead_stride_v,
-      ck::index_t nhead_stride_bias,
-      ck::index_t nhead_stride_lse,
-      ck::index_t nhead_stride_o,
-      CausalMaskType mask_type,
-      ck::index_t window_size) {
-    Kargs kargs{
-        {q_ptr,
-         k_ptr,
-         v_ptr,
-         o_ptr,
-         -1, // seqlen will be updated by another pointer
-         -1, //
-         hdim_q,
-         hdim_v,
-         nhead_ratio_qk,
-#if CK_FMHA_FWD_FAST_EXP2
-         static_cast<float>(scale * ck::math::log2e_v<>),
-#else
-         scale,
-#endif
-         stride_q,
-         stride_k,
-         stride_v,
-         stride_o,
-         nhead_stride_q,
-         nhead_stride_k,
-         nhead_stride_v,
-         nhead_stride_o}, // args for common karg
-        {}, // placeholder for bias
-        {}, // placeholder for mask
-        {}, // placeholder for lse
-        reinterpret_cast<const int32_t*>(seqstart_q_ptr),
-        reinterpret_cast<const int32_t*>(seqstart_k_ptr),
-        reinterpret_cast<const int32_t*>(seqlen_k_ptr)};
-
-    if constexpr (kHasBias) {
-      kargs.bias_ptr = bias_ptr;
-      kargs.stride_bias = stride_bias;
-      kargs.nhead_stride_bias = nhead_stride_bias;
-    }
-    if constexpr (kHasMask) {
-      kargs.mask_type = mask_type;
-      kargs.window_size = window_size;
-    }
-    if constexpr (kStoreLSE) {
-      kargs.lse_ptr = lse_ptr;
-      kargs.nhead_stride_lse = nhead_stride_lse;
-    }
-
-    return kargs;
-  }
-
-  __host__ static constexpr auto GridSize(
-      ck::index_t batch_size_,
-      ck::index_t nhead_,
-      ck::index_t seqlen_q_,
-      ck::index_t hdim_v_) {
-    return TilePartitioner::GridSize(batch_size_, nhead_, seqlen_q_, hdim_v_);
-  }
-
-  __host__ static constexpr auto BlockSize() {
-    return dim3(kBlockSize);
-  }
-
-  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
-    return ck::math::max(
-        FmhaPipeline::GetSmemSize(), EpiloguePipeline::GetSmemSize());
-  }
-
-  __device__ void operator()(Kargs kargs) const {
-    using namespace ck;
-    using namespace ck::tile_program;
-    using namespace ck::tile_program::block;
-
-    // allocate LDS
-    __shared__ char smem_ptr[GetSmemSize()];
-
-    // divide problem
-    const auto [i_tile_m, i_tile_n, i_nhead, i_batch] =
-        TilePartitioner{}(kargs.seqlen_q, kargs.hdim_v);
-
-    const index_t i_m0 =
-        __builtin_amdgcn_readfirstlane(i_tile_m * FmhaPipeline::kM0);
-    const index_t i_n1 =
-        __builtin_amdgcn_readfirstlane(i_tile_n * FmhaPipeline::kN1);
-
-    long_index_t batch_offset_q = 0;
-    long_index_t batch_offset_k = 0;
-    long_index_t batch_offset_v = 0;
-    long_index_t batch_offset_bias = 0;
-    long_index_t batch_offset_lse = 0;
-    long_index_t batch_offset_o = 0;
-
-    if constexpr (kIsGroupMode) {
-      // get starting offset for each batch
-      const long_index_t query_start = kargs.seqstart_q_ptr[i_batch];
-      const long_index_t key_start = kargs.seqstart_k_ptr[i_batch];
-
-      batch_offset_q = query_start * kargs.stride_q;
-      batch_offset_k = key_start * kargs.stride_k;
-      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
-        batch_offset_v = key_start * kargs.stride_v;
-      } else {
-        batch_offset_v = key_start;
-      }
-      if constexpr (kHasBias) {
-        batch_offset_bias = query_start * kargs.stride_bias + key_start;
-      } else {
-        batch_offset_bias = key_start;
-      }
-      if constexpr (kStoreLSE) {
-        batch_offset_lse = query_start;
-      }
-      batch_offset_o = query_start * kargs.stride_o;
-
-      // get real # queries & # keys under group mode
-      const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
-      kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
-
-      // # of required blocks is different in each groups, terminate unnecessary
-      // blocks earlier
-      if (kargs.seqlen_q <= i_m0) {
-        return;
-      }
-
-      if (kargs.seqlen_k_ptr != nullptr) {
-        kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
-      } else {
-        const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
-        kargs.seqlen_k =
-            adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
-      }
-    } else {
-      batch_offset_q =
-          static_cast<long_index_t>(i_batch) * kargs.batch_stride_q;
-      batch_offset_k =
-          static_cast<long_index_t>(i_batch) * kargs.batch_stride_k;
-      batch_offset_v =
-          static_cast<long_index_t>(i_batch) * kargs.batch_stride_v;
-      if constexpr (kHasBias) {
-        batch_offset_bias =
-            static_cast<long_index_t>(i_batch) * kargs.batch_stride_bias;
-      }
-      if constexpr (kStoreLSE) {
-        batch_offset_lse =
-            static_cast<long_index_t>(i_batch) * kargs.batch_stride_lse;
-      }
-      batch_offset_o =
-          static_cast<long_index_t>(i_batch) * kargs.batch_stride_o;
-    }
-
-    // for simplicity, batch stride we just modify the pointer
-    const QDataType* q_ptr = reinterpret_cast<const QDataType*>(kargs.q_ptr) +
-        static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_q +
-        batch_offset_q;
-    const KDataType* k_ptr = reinterpret_cast<const KDataType*>(kargs.k_ptr) +
-        static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) *
-            kargs.nhead_stride_k +
-        batch_offset_k;
-    const VDataType* v_ptr = reinterpret_cast<const VDataType*>(kargs.v_ptr) +
-        static_cast<long_index_t>(i_nhead / kargs.nhead_ratio_qk) *
-            kargs.nhead_stride_v +
-        batch_offset_v;
-    ODataType* o_ptr = reinterpret_cast<ODataType*>(kargs.o_ptr) +
-        static_cast<long_index_t>(i_nhead) * kargs.nhead_stride_o +
-        batch_offset_o;
-
-    // Q/K/V DRAM and DRAM window
-    const auto q_dram = [&]() {
-      const auto q_dram_naive =
-          make_naive_tensor_view<AddressSpaceEnum::Global>(
-              q_ptr,
-              make_tuple(kargs.seqlen_q, kargs.hdim_q),
-              make_tuple(kargs.stride_q, 1),
-              Number<32>{},
-              Number<1>{});
-      if constexpr (FmhaPipeline::kQLoadOnce) {
-        return pad_tensor_view(
-            q_dram_naive,
-            make_tuple(
-                Number<FmhaPipeline::kM0>{},
-                Number<FmhaPipeline::kK0BlockLength>{}),
-            Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
-      } else {
-        return pad_tensor_view(
-            q_dram_naive,
-            make_tuple(
-                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{}),
-            Sequence<kPadSeqLenQ, kPadHeadDimQ>{});
-      }
-    }();
-    const auto k_dram = [&]() {
-      const auto k_dram_naive =
-          make_naive_tensor_view<AddressSpaceEnum::Global>(
-              k_ptr,
-              make_tuple(kargs.seqlen_k, kargs.hdim_q),
-              make_tuple(kargs.stride_k, 1),
-              Number<32>{},
-              Number<1>{});
-
-      return pad_tensor_view(
-          k_dram_naive,
-          make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
-          Sequence<kPadSeqLenK, kPadHeadDimQ>{});
-    }();
-    const auto v_dram = [&]() {
-      if constexpr (ck::is_same_v<VLayout, ck::tensor_layout::gemm::RowMajor>) {
-        const auto v_dram_naive =
-            make_naive_tensor_view<AddressSpaceEnum::Global>(
-                v_ptr,
-                make_tuple(kargs.seqlen_k, kargs.hdim_v),
-                make_tuple(kargs.stride_v, 1),
-                Number<32>{},
-                Number<1>{});
-
-        const auto v_dram_transposed = transform_tensor_view(
-            v_dram_naive,
-            make_tuple(
-                make_pass_through_transform(kargs.seqlen_k),
-                make_pass_through_transform(kargs.hdim_v)),
-            make_tuple(Sequence<0>{}, Sequence<1>{}),
-            make_tuple(Sequence<1>{}, Sequence<0>{}));
-
-        return pad_tensor_view(
-            v_dram_transposed,
-            make_tuple(
-                Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-            Sequence<kPadHeadDimV, kPadSeqLenK>{});
-      } else {
-        const auto v_dram_naive =
-            make_naive_tensor_view<AddressSpaceEnum::Global>(
-                v_ptr,
-                make_tuple(kargs.hdim_v, kargs.seqlen_k),
-                make_tuple(kargs.stride_v, 1),
-                Number<32>{},
-                Number<1>{});
-
-        return pad_tensor_view(
-            v_dram_naive,
-            make_tuple(
-                Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-            Sequence<kPadHeadDimV, kPadSeqLenK>{});
-      }
-    }();
-
-    auto q_dram_window = make_tile_window(
-        q_dram,
-        [&]() {
-          if constexpr (FmhaPipeline::kQLoadOnce)
-            return make_tuple(
-                Number<FmhaPipeline::kM0>{},
-                Number<FmhaPipeline::kK0BlockLength>{});
-          else
-            return make_tuple(
-                Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kK0>{});
-        }(),
-        {i_m0, 0});
-
-    auto k_dram_window = make_tile_window(
-        k_dram,
-        make_tuple(Number<FmhaPipeline::kN0>{}, Number<FmhaPipeline::kK0>{}),
-        {0, 0});
-
-    auto v_dram_window = make_tile_window(
-        v_dram,
-        make_tuple(Number<FmhaPipeline::kN1>{}, Number<FmhaPipeline::kK1>{}),
-        {i_n1, 0});
-    /// FIXME: Before C++20, capturing structured binding variables is not
-    /// supported. Remove following copy capture of the 'i_nhead'
-    ///        if compiled in C++20
-    const auto bias_dram_window = [&, i_nhead_ = i_nhead]() {
-      constexpr auto bias_dram_window_lengths =
-          make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN0>{});
-      if constexpr (kHasBias) {
-        const BiasDataType* bias_ptr =
-            reinterpret_cast<const BiasDataType*>(kargs.bias_ptr) +
-            static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_bias +
-            batch_offset_bias;
-
-        const auto bias_dram = [&]() {
-          const auto bias_dram_naive =
-              make_naive_tensor_view<AddressSpaceEnum::Global>(
-                  bias_ptr,
-                  make_tuple(kargs.seqlen_q, kargs.seqlen_k),
-                  make_tuple(kargs.stride_bias, 1),
-                  Number<32>{},
-                  Number<1>{});
-
-          return pad_tensor_view(
-              bias_dram_naive,
-              bias_dram_window_lengths,
-              Sequence<kPadSeqLenQ, kPadSeqLenK>{});
-        }();
-
-        return make_tile_window(bias_dram, bias_dram_window_lengths, {i_m0, 0});
-      } else {
-        return make_null_tile_window(bias_dram_window_lengths);
-      }
-    }();
-
-    // lse
-    auto lse_dram_window = [&, i_nhead_ = i_nhead]() {
-      constexpr auto lse_dram_window_lengths =
-          make_tuple(Number<FmhaPipeline::kM0>{});
-      if constexpr (kStoreLSE) {
-        LSEDataType* lse_ptr = reinterpret_cast<LSEDataType*>(kargs.lse_ptr) +
-            static_cast<long_index_t>(i_nhead_) * kargs.nhead_stride_lse +
-            batch_offset_lse;
-
-        const auto lse_dram = [&]() {
-          const auto lse_dram_naive =
-              make_naive_tensor_view<AddressSpaceEnum::Global>(
-                  lse_ptr,
-                  make_tuple(kargs.seqlen_q),
-                  make_tuple(1),
-                  Number<1>{},
-                  Number<1>{});
-
-          return pad_tensor_view(
-              lse_dram_naive, lse_dram_window_lengths, Sequence<kPadSeqLenQ>{});
-        }();
-
-        return make_tile_window(lse_dram, lse_dram_window_lengths, {i_m0});
-      } else {
-        return make_null_tile_window(lse_dram_window_lengths);
-      }
-    }();
-
-    FmhaMask mask = [&]() {
-      if constexpr (kHasMask) {
-        auto res = ck::make_tuple(
-            ck::index_t{0}, ck::index_t{0}, ck::index_t{0}, ck::index_t{0});
-
-        if (kargs.window_size > 0) {
-          if (kargs.mask_type == CausalMaskType::MaskDisabled) {
-            ck::index_t left_size = kargs.window_size / 2;
-            ck::index_t right_size = kargs.window_size - 1 - left_size;
-
-            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                left_size, right_size, kargs.seqlen_q, kargs.seqlen_k);
-          } else {
-            bool is_topleft =
-                (kargs.mask_type ==
-                 CausalMaskType::MaskUpperTriangleFromTopLeft);
-
-            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                kargs.window_size - 1,
-                0,
-                kargs.seqlen_q,
-                kargs.seqlen_k,
-                is_topleft);
-          }
-        } else {
-          if (kargs.mask_type == CausalMaskType::MaskDisabled) {
-            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                -1, -1, kargs.seqlen_q, kargs.seqlen_k);
-          } else {
-            bool is_topleft =
-                (kargs.mask_type ==
-                 CausalMaskType::MaskUpperTriangleFromTopLeft);
-
-            res = ck::make_generic_attention_mask_coordinates_from_lr_window(
-                -1, 0, kargs.seqlen_q, kargs.seqlen_k, is_topleft);
-          }
-        }
-
-        auto y = res.At(ck::Number<0>{});
-        auto x = res.At(ck::Number<1>{});
-
-        return FmhaMask{y, x, kargs.seqlen_q, kargs.seqlen_k};
-      } else
-        return FmhaMask{0, 0, kargs.seqlen_q, kargs.seqlen_k};
-    }();
-
-    auto o_acc_tile = FmhaPipeline{}(
-        q_dram_window,
-        k_dram_window,
-        v_dram_window,
-        bias_dram_window,
-        lse_dram_window,
-        mask,
-        kargs.scale,
-        // ck::math::integer_divide_ceil(kargs.seqlen_k, FmhaPipeline::kN0),
-        // ck::math::integer_divide_ceil(kargs.hdim_q, FmhaPipeline::kK0),
-        smem_ptr);
-
-    // O DRAM and O DRAM window
-    auto o_dram = [&]() {
-      const auto o_dram_naive =
-          make_naive_tensor_view<AddressSpaceEnum::Global>(
-              o_ptr,
-              make_tuple(kargs.seqlen_q, kargs.hdim_v),
-              make_tuple(kargs.stride_o, 1),
-              Number<32>{},
-              Number<1>{});
-
-      return pad_tensor_view(
-          o_dram_naive,
-          make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-          Sequence<kPadSeqLenQ, kPadHeadDimV>{});
-    }();
-
-    auto o_dram_window = make_tile_window(
-        o_dram,
-        make_tuple(Number<FmhaPipeline::kM0>{}, Number<FmhaPipeline::kN1>{}),
-        {i_m0, i_n1});
-
-    EpiloguePipeline{}(o_dram_window, o_acc_tile);
-  }
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
deleted file mode 100644
index 9dde0c97c7..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_epilogue.h
+++ /dev/null
@@ -1,40 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include "ck/tile_program/tile/store_tile.hpp"
-#include "ck/tile_program/tile/tile_elementwise.hpp"
-#include "ck/utility/common_header.hpp"
-
-template <typename OaccDataType_, typename ODataType_>
-struct FmhaFwdEpilogueProblem {
-  using OaccDataType = ck::remove_cvref_t<OaccDataType_>;
-  using ODataType = ck::remove_cvref_t<ODataType_>;
-};
-
-template <typename Problem_, typename Policy_ = void>
-struct FmhaFwdEpilogue {
-  using Problem = ck::remove_cvref_t<Problem_>;
-  using OaccDataType = ck::remove_cvref_t<typename Problem::OaccDataType>;
-  using ODataType = ck::remove_cvref_t<typename Problem::ODataType>;
-
-  __host__ __device__ static constexpr ck::index_t GetSmemSize() {
-    return 0;
-  }
-
-  template <typename ODramWindowTmp, typename OAccTile>
-  __device__ auto operator()(
-      ODramWindowTmp& o_dram_window_tmp,
-      const OAccTile& o_acc_tile) {
-    using namespace ck;
-    using namespace ck::tile_program;
-
-    const auto o =
-        tile_elementwise_in(type_convert<ODataType, OaccDataType>, o_acc_tile);
-    store_tile(o_dram_window_tmp, o);
-  }
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
deleted file mode 100644
index 34537d7074..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_tile_partitioner.h
+++ /dev/null
@@ -1,56 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include "ck/tile_program/tile/store_tile.hpp"
-#include "ck/tile_program/tile/tile_elementwise.hpp"
-#include "ck/utility/common_header.hpp"
-
-template <typename BlockFmhaShape_>
-struct FmhaFwdTilePartitioner {
-  using BlockFmhaShape = ck::remove_cvref_t<BlockFmhaShape_>;
-
-  static constexpr ck::index_t kM0 = BlockFmhaShape::kM0;
-  static constexpr ck::index_t kN0 = BlockFmhaShape::kN0;
-  static constexpr ck::index_t kK0 = BlockFmhaShape::kK0;
-  static constexpr ck::index_t kN1 = BlockFmhaShape::kN1;
-  static constexpr ck::index_t kK1 = BlockFmhaShape::kK1;
-
-  __host__ static constexpr auto GridSize(
-      ck::index_t batch_size_,
-      ck::index_t nhead_,
-      ck::index_t seqlen_q_,
-      ck::index_t hdim_v_) {
-    // TODO: this may need tuning
-    return dim3(
-        ck::math::integer_divide_ceil(seqlen_q_, kM0) *
-            ck::math::integer_divide_ceil(hdim_v_, kN1),
-        nhead_,
-        batch_size_);
-  }
-
-  __device__ auto operator()(ck::index_t /*seqlen_q*/, ck::index_t hdim_v) {
-    using namespace ck;
-
-    // const index_t num_tile_m0 = seqlen_q / kM0;
-    const index_t num_tile_n1 = ck::math::integer_divide_ceil(hdim_v, kN1);
-
-    const index_t i_block = blockIdx.x;
-    const index_t i_nhead = blockIdx.y;
-    const index_t i_batch = blockIdx.z;
-
-    const auto f = [](index_t dividend, index_t divisor) {
-      index_t quotient = dividend / divisor;
-      index_t modulus = dividend - quotient * divisor;
-      return ck::make_tuple(quotient, modulus);
-    };
-
-    const auto [i_tile_m, i_tile_n] = f(i_block, num_tile_n1);
-
-    return ck::make_tuple(i_tile_m, i_tile_n, i_nhead, i_batch);
-  }
-};

From d8384c13270ed2fc0bd06fc55c5a8b10bdf81e57 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 22 Feb 2024 17:38:43 +0000
Subject: [PATCH 485/837] Replace using qs_ks_vs pipeline by qr_ks_vs pipeline
 while HeadDim is 256 for better performance

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h    | 3 +--
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 3 +--
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h    | 3 +--
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h | 3 +--
 4 files changed, 4 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index ccbfd2d86c..3dc0c47177 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -21,7 +21,6 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
@@ -105,7 +104,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
                   FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
               using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
               using FmhaKernel = FmhaFwdKernel<
                   FmhaTilePartitioner,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index af3ded107e..8696e04378 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -21,7 +21,6 @@
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
@@ -105,7 +104,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                   FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
               using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
               using FmhaKernel = FmhaFwdKernel<
                   FmhaTilePartitioner,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index a79b3c1efb..ed0df2ba56 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -21,7 +21,6 @@
 #include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
@@ -98,7 +97,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
                   FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
               using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
               using FmhaKernel = FmhaFwdKernel<
                   FmhaTilePartitioner,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 37be384c72..c371b0aa14 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -21,7 +21,6 @@
 #include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qs_ks_vs.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
@@ -98,7 +97,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                   FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
               using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQSKSVS<
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
               using FmhaKernel = FmhaFwdKernel<
                   FmhaTilePartitioner,

From 10346dfc64aed5661c0b93aeddf5aed5f99c3266 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 22 Feb 2024 18:59:18 +0000
Subject: [PATCH 486/837] rm test_ck_7

---
 tests/test_ck_7.py | 875 ---------------------------------------------
 1 file changed, 875 deletions(-)
 delete mode 100644 tests/test_ck_7.py

diff --git a/tests/test_ck_7.py b/tests/test_ck_7.py
deleted file mode 100644
index 7477c3f70e..0000000000
--- a/tests/test_ck_7.py
+++ /dev/null
@@ -1,875 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-import random
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar
-
-import pytest
-import torch
-
-import xformers.ops
-from xformers.ops import fmha
-from xformers.ops.fmha.common import AttentionOpBase
-
-from .utils import assert_allclose
-
-torch.backends.cuda.matmul.allow_tf32 = False
-cuda_only = pytest.mark.skipif(not torch.cuda.is_available(), reason="requires CUDA")
-
-_devices = ["cpu", "cuda"] if torch.cuda.is_available() else ["cpu"]
-_types = [torch.float16, torch.bfloat16]
-
-T = TypeVar(
-    "T", Type[fmha.common.AttentionFwOpBase], Type[fmha.common.AttentionBwOpBase]
-)
-
-ALL_FW_OPS: Sequence[Type[fmha.common.AttentionFwOpBase]] = [
-    fmha.ck.FwOp,
-]
-
-ALL_BW_OPS: Sequence[Type[fmha.common.AttentionBwOpBase]] = [
-    fmha.ck.BwOp,
-]
-
-
-def sample_random_supported_fw(
-    inp: fmha.Inputs, seed: int
-) -> Type[fmha.common.AttentionFwOpBase]:
-    r = random.Random(seed)
-    fw_ops = list(ALL_FW_OPS)
-    r.shuffle(fw_ops)
-    for op in fw_ops:
-        if op.supports(inp):
-            return op
-    raise NotImplementedError(f"Could not find a FW operator for: {inp}")
-
-
-def generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-    shapes = []
-    for B in op._TEST_BATCH_SIZES:
-        for Mq in [32, 256]:
-            for Mkv in [32, 64, 256, 1024]:
-                for K in op._TEST_K:
-                    shapes.append((B, Mq, Mkv, 1, K, K))
-        Mq = 256
-        Mkv = 128
-        K = 32
-        H = 1
-        # Weird values of parameters
-        for M in [2, 3, 15, 31, 32, 34, 68, 72, 90, 132, 136]:
-            shapes.append((B, M, Mkv, H, K, K))
-            shapes.append((B, Mq, M, H, K, K))
-        for _K in [1, 2, 3, 31, 34, 36, 38, 40, 64, 80, 160, 256 + 2, 256 + 8, 512]:
-            if _K <= op.SUPPORTED_MAX_K:
-                shapes.append((B, Mq, Mkv, H, _K, _K))
-        # Different value for K / Kv
-        if op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-            for _K in [32, 36, 64, 256 + 8]:
-                shapes.append((B, Mq, Mkv, H, K, _K))
-                shapes.append((B, Mq, Mkv, H, _K, K))
-        # Exotic sizes
-        for K in op._TEST_K:
-            shapes.append((B, 16, 1024, H, K, K))
-            shapes.append((B, 1024, 16, H, K, K))
-        # Some number of heads
-        for H in [3, 5, 12]:
-            shapes.append((max(1, B // H), Mq, Mkv, H, K, K))
-    # Filter-out not supported shapes
-    shapes = [
-        shape
-        for shape in shapes
-        if len(
-            op.shape_not_supported_reasons(
-                Mq=shape[1], Mkv=shape[2], K=shape[4], Kv=shape[5]
-            )
-        )
-        == 0
-    ]
-    # Add some random shapes
-    if op in [
-        fmha.ck.FwOp,
-        fmha.ck.BwOp,
-    ]:
-        K_CHOICES = [8 * i for i in range(1, 256 // 8)]
-        r = random.Random(0)
-        found_count = 0
-        while found_count < 20:
-            B = r.randint(1, 400)
-            Mq = r.randint(1, 500)
-            Mkv = r.randint(1, 500)
-            H = r.randint(2, 11)
-            B = max(B // H, 1)
-            K = r.choice(K_CHOICES)
-            Kv = r.choice(K_CHOICES)
-            if not op.SUPPORTS_DIFFERENT_VALUE_EMBED:
-                Kv = K
-            if len(op.shape_not_supported_reasons(Mq, Mkv, K, Kv)):
-                continue
-            found_count += 1
-            shapes.append((B, Mq, Mkv, H, K, Kv))
-    return shapes
-
-
-def make_id(op, device, dtype, bias_type, *shape):
-    return (
-        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-        f"-{'-'.join([str(s) for s in shape])}"
-    )
-
-
-def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
-    ops_list: Sequence[Type[fmha.AttentionOpBase]], max_shapes_per_op: int = 65000
-):
-    r = random.Random(0)
-    combination = []
-    ids = []
-    for op in ops_list:
-        op_count = 0
-        # Sort list of masks, so it's deterministic across runs
-        LIST_MASKS = list(sorted(op.SUPPORTED_ATTN_BIAS_TYPES, key=lambda x: str(x)))
-        for shape in generate_test_shapes_B_Mq_Mkv_H_K_Kv(op):
-            has_one = False
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    bias_type = r.choice(LIST_MASKS)
-                    # Avoid using too much memory
-                    if bias_type not in [
-                        type(None),
-                        fmha.attn_bias.LowerTriangularMask,
-                    ]:
-                        B, Mq, Mkv, H, K, Kv = shape
-                        B = min(B, 12)
-
-                        if (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq) + 2
-                        elif (
-                            bias_type
-                            is fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask
-                        ):
-                            Mq, Mkv = min(Mkv, Mq), max(Mkv, Mq)
-                        shape = (B, Mq, Mkv, H, K, Kv)
-                    combination.append((op, device, dtype, bias_type, *shape))
-                    ids.append(
-                        f"{op.NAME}-{device}-{str(dtype)}-{bias_type.__name__}"
-                        f"-{'-'.join([str(s) for s in shape])}"
-                    )
-                    has_one = True
-            if has_one:
-                op_count += 1
-            if op_count > max_shapes_per_op:
-                break
-        # Some specific shapes for which we want to run without any mask
-        bias_type = type(None)
-        for shape in (
-            # Some strides/dims don't fit on an uint16
-            (1, 128, 128, 300, 128, 128),
-            (13, 1, 67, 200, 8, 8),
-            (1, 1 + 2**16, 4, 1, 8, 8),
-            (1, 4, 1 + 2**16, 1, 8, 8),
-            # TODO: Some strides don't fit on an uint32
-            # Crashes on Flash, Errors on Cutlass
-            # (1, 1, 64000, 300, 128, 128)
-        ):
-            for device in _devices:
-                if device not in op.SUPPORTED_DEVICES:
-                    continue
-                for dtype in op.SUPPORTED_DTYPES:
-                    combination.append((op, device, dtype, bias_type, *shape))
-    return {
-        "argvalues": combination,
-        "ids": [make_id(*c) for c in combination],
-    }
-
-
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS),
-)
-parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_FW_OPS, max_shapes_per_op=1),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS),
-)
-parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv__xs = pytest.mark.parametrize(
-    "opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv",
-    **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
-)
-
-
-def ref_attention(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    if q.ndim == 4:
-        assert p == 0.0
-        return ref_attention_bmhk(q, k, v, attn_bias=attn_bias)
-    q = q.float()
-    k = k.float()
-    v = v.float()
-
-    scale = scale if scale is not None else (1 / q.shape[-1] ** 0.5)
-    q = q * scale
-
-    attn = q @ k.transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-        attn = attn + attn_bias_tensor.float()
-    attn = attn.softmax(-1)
-    if drop_mask is not None:
-        attn = attn * (drop_mask / (1 - p))
-    return attn @ v
-
-
-def ref_attention_bmhk(q, k, v, attn_bias, scale=None) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention(T(q), T(k), T(v), attn_bias, scale=scale)
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def _rand_seqlens(
-    r: random.Random,
-    bs: int,
-    q_len: int,
-    kv_len: int,
-    more_keys_than_queries_per_block: bool,
-) -> Tuple[Sequence[int], Sequence[int]]:
-    """
-    Generates lists of lengths of query blocks and corresponding key blocks.
-    The total number of queries will be bs * q_len and the
-    total number of keys will be bs * kv_len.
-    """
-    if more_keys_than_queries_per_block:
-        assert kv_len >= q_len
-    q_len *= bs
-    kv_len *= bs
-    seqlens_q: List[int] = []
-    seqlens_k: List[int] = []
-
-    step_q = [max(1, q_len // 10), max(2, q_len // 2)]
-    step_k = [max(1, kv_len // 10), max(2, kv_len // 2)]
-    while sum(seqlens_q) < q_len and sum(seqlens_k) < kv_len:
-        num_queries = r.randrange(*step_q)
-        seqlens_q.append(num_queries)
-
-        if more_keys_than_queries_per_block:
-            # Must select at least `num_queries` keys
-            # But also leave enough keys for later
-            keys_left = kv_len - sum(seqlens_k, 0)
-            queries_left = q_len - sum(seqlens_q[:-1], 0)
-            assert keys_left >= queries_left
-            seqlens_k.append(num_queries + r.randrange(0, keys_left - queries_left))
-        else:
-            seqlens_k.append(r.randrange(*step_k))
-    seqlens_q[-1] = q_len - sum(seqlens_q[:-1])
-    seqlens_k[-1] = kv_len - sum(seqlens_k[:-1])
-    return seqlens_q, seqlens_k
-
-
-def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
-    # returns list of n nonnegative integers summing to total
-    idx = {0, total}
-    while len(idx) < n + 1:
-        idx.add(r.randint(1, total - 1))
-    s = sorted(idx)
-    return [e - b for b, e in zip(s[:-1], s[1:])]
-
-
-def _rand_maxed_partition(
-    r: random.Random, total: int, n: int, mx: int, positive: bool = True
-) -> List[int]:
-    # returns list of n nonnegative integers less than mx summing to total
-    # NB: This is unfortunately biased towards evenly-split bins.
-    # If `positive`, outputs are positive
-    if positive:
-        total -= n
-        mx -= 1
-    idxs = r.sample(range(n * mx), total)
-    y = torch.zeros(n, mx, dtype=torch.int32)
-    y.flatten()[idxs] = 1
-    z = y.sum(1)
-    if positive:
-        z += 1
-    return z.tolist()
-
-
-def _rand_seqlens_padded_k(
-    r: random.Random, bs: int, q_len: int, kv_len: int
-) -> Tuple[Sequence[int], Sequence[int]]:
-    # This is for BlockDiagonalCausalWithOffsetPaddedKeysMask.
-    # we need q_seqlens and k_seqlens to be of len bsz.
-    # For each "batch element" there must be more keys than queries
-    # because this bias type is "bottom right" and so any extra queries
-    # will attend to nothing and have undefined result.
-    # In addition every element of k_seqlens must be <= kv_len
-    if q_len > kv_len:
-        raise ValueError("need more keys than values")
-    if q_len == kv_len:
-        # all key slots are needed so we cannot have padding
-        q_seqlens = k_seqlens = [kv_len] * bs
-    else:
-        q_seqlens = _rand_maxed_partition(r, q_len * bs, bs, kv_len)
-        k_seqlens = [r.randint(i, kv_len) for i in q_seqlens]
-    return q_seqlens, k_seqlens
-
-
-def _create_aligned_bias(B: int, H: int, Mq: int, Mkv: int, **kwargs) -> torch.Tensor:
-    align_to = 8
-    return (
-        torch.randn(
-            (
-                B,
-                H,
-                Mq,
-                align_to * ((Mkv + align_to - 1) // align_to),
-            ),
-            **kwargs,
-        )
-        * 3
-    )[:, :, :, :Mkv]
-
-
-def create_attn_bias(
-    bias_type,
-    batch_size: int,
-    num_heads: int,
-    q_len: int,
-    kv_len: int,
-    device,
-    dtype,
-    requires_grad: bool,
-    fmt: str,
-    op: Type[AttentionOpBase],
-):
-    if bias_type is None or isinstance(None, bias_type):
-        return None
-    r = random.Random("-".join(map(str, [batch_size, q_len, kv_len, dtype, fmt])))
-    if bias_type is torch.Tensor:
-        if fmt == "BMK":
-            batch_size *= num_heads
-            num_heads = 1
-        # `small_k` only supports an expanded 1d bias
-        if op in [fmha.small_k.FwOp, fmha.small_k.BwOp]:
-            attn_bias = (
-                torch.randn(
-                    (batch_size, num_heads, 1, kv_len), device=device, dtype=dtype
-                )
-                * 3
-            )
-            attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        else:
-            attn_bias = _create_aligned_bias(
-                batch_size,
-                num_heads,
-                q_len,
-                kv_len,
-                device=device,
-                dtype=dtype,
-            )
-            # ToDo: need a fix in ck-flashAttn to avoid divided-by-zero when all-(-inf) occurred
-            #       with the data read by one-thread
-            # make sure it also works if the first columns are partially masked out
-            #
-            # attn_bias[0, 0, q_len - 1 :, : num_heads - 2] = -math.inf
-
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        if fmt == "BMK":
-            attn_bias = attn_bias[:, 0]
-        return attn_bias
-    if bias_type is fmha.attn_bias.LowerTriangularMask:
-        return fmha.attn_bias.LowerTriangularMask()
-    if bias_type is fmha.attn_bias.LowerTriangularMaskWithTensorBias:
-        attn_bias = _create_aligned_bias(
-            batch_size,
-            num_heads,
-            q_len,
-            kv_len,
-            device=device,
-            dtype=dtype,
-        )
-        if requires_grad:
-            attn_bias.requires_grad_(True)
-        return fmha.attn_bias.LowerTriangularMaskWithTensorBias(attn_bias)
-    if bias_type in [
-        fmha.attn_bias.BlockDiagonalMask,
-        fmha.attn_bias.BlockDiagonalCausalMask,
-        fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-    ]:
-        # This bias is not supported in BMK format
-        assert fmt == "BMHK"
-        block_diag = fmha.attn_bias.BlockDiagonalMask.from_seqlens(
-            *_rand_seqlens(
-                r,
-                batch_size,
-                q_len,
-                kv_len,
-                more_keys_than_queries_per_block=bias_type
-                is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask,
-            )
-        )
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalMask:
-            block_diag = block_diag.make_causal()
-        if bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask:
-            block_diag = block_diag.make_causal_from_bottomright()
-        return block_diag
-    if bias_type == fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask:
-        assert fmt == "BMHK"
-        q, k = _rand_seqlens_padded_k(r, batch_size, q_len, kv_len)
-        g_block_diag = (
-            fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-                q_seqlen=q,
-                kv_padding=kv_len,
-                kv_seqlen=k,
-            )
-        )
-        return g_block_diag
-
-    assert False, f"Unsupported bias type: {bias_type}"
-
-
-def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
-    tensor_with_grad: Optional[torch.Tensor] = None
-    if isinstance(attn_bias, torch.Tensor):
-        tensor_with_grad = attn_bias
-    if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-        tensor_with_grad = attn_bias._bias
-    if tensor_with_grad is not None:
-        grad = tensor_with_grad.grad
-        if clear:
-            tensor_with_grad.grad = None
-        return grad
-    return None
-
-
-def create_tensors(
-    op: Type[AttentionOpBase],
-    device,
-    dtype,
-    attn_bias_type,
-    B,
-    q_len,
-    kv_len,
-    h,
-    k,
-    kv,
-    *,
-    attn_bias_requires_grad: bool = False,
-    fmt: str = "BMK",
-):
-    torch.manual_seed(B * q_len + kv_len * k + kv)
-    scale = 3
-    if fmt == "BMK":
-        query = torch.randn((B * h, q_len, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B * h, kv_len, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B * h, kv_len, kv), device=device, dtype=dtype).mul_(scale)
-    else:
-        assert fmt == "BMHK"
-        query = torch.randn((B, q_len, h, k), device=device, dtype=dtype).mul_(scale)
-        key = torch.randn((B, kv_len, h, k), device=device, dtype=dtype).mul_(scale)
-        value = torch.randn((B, kv_len, h, kv), device=device, dtype=dtype).mul_(scale)
-
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(attn_bias_type):
-        attn_bias_type = None
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=h,
-            q_len=q_len,
-            kv_len=kv_len,
-            dtype=dtype,
-            device=device,
-            requires_grad=attn_bias_requires_grad,
-            fmt=fmt,
-            op=op,
-        )
-        if isinstance(
-            attn_bias,
-            (
-                fmha.attn_bias.BlockDiagonalMask,
-                fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
-            ),
-        ):
-            query, key, value = [
-                x.reshape([1, -1, *x.shape[2:]]) for x in [query, key, value]
-            ]
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
-    return query, key, value, attn_bias
-
-
-def bmhk2bmk(tensor) -> torch.Tensor:
-    return (
-        tensor.permute((0, 2, 1, 3))
-        .contiguous()
-        .view([tensor.shape[0] * tensor.shape[2], tensor.shape[1], tensor.shape[3]])
-    )
-
-
-def bmk2bmhk(tensor, num_heads: int) -> torch.Tensor:
-    return tensor.reshape([-1, num_heads, tensor.shape[1], tensor.shape[2]]).permute(
-        (0, 2, 1, 3)
-    )
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("packed", [False, True])
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(
-    opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    packed,
-    fmt,
-):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if kv > 128:
-        pytest.skip("kv > 128 is not supported by CK-FlashAttention-1")
-
-    if packed and not (k == kv and q_len == kv_len):
-        pytest.skip(
-            f"packed incompatible with `k ({k}) != kv ({kv})` or `q_len ({q_len}) != kv_len ({kv_len})`"
-        )
-    if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
-        pytest.skip("BMK incompatible with this bias")
-
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMHK" if packed else fmt
-    )
-
-    if packed:
-        c = torch.stack([query, key, value], 2)
-        if fmt == "BMK":
-            # bm3hk -> 3bhmk -> 3Bmk
-            c = c.permute(2, 0, 3, 1, 4).view([3, -1, q_len, k])
-            query, key, value = c[0], c[1], c[2]
-            # Re-create bias in the right format
-            attn_bias = create_attn_bias(
-                bias_type=bias_type,
-                batch_size=batch_size,
-                num_heads=h,
-                q_len=q_len,
-                kv_len=kv_len,
-                device=device,
-                dtype=dtype,
-                requires_grad=False,
-                fmt=fmt,
-                op=op,
-            )
-        else:
-            # bm3hk -> 3 x bmhk
-            query, key, value = xformers.ops.unbind(c, 2)
-        assert not query.is_contiguous()
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
-@pytest.mark.parametrize("k_len", [5, 6, 32])
-@pytest.mark.parametrize("batch_size", [1, 4])
-@pytest.mark.parametrize("kv_len", [128, 512])
-@pytest.mark.parametrize("q_len", [128, 512])
-@pytest.mark.parametrize("device", [torch.device("cuda")])
-@pytest.mark.parametrize("dtype", _types)
-def test_key_query_all_ones(dtype, device, q_len, kv_len, batch_size, k_len):
-    scale = 3
-    query = torch.ones((batch_size, q_len, k_len), device=device, dtype=dtype)
-    key = torch.ones((batch_size, kv_len, k_len), device=device, dtype=dtype)
-    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, op=(fmha.ck.FwOp, None)
-    )
-    # this should be equivalent to the average over value
-    ref = value.mean(1, keepdim=True).expand_as(query)
-
-    if dtype is torch.float16:
-        assert_allclose(out, ref, atol=1e-5)
-    else:
-        assert_allclose(out, ref, atol=1e-2)
-
-
-def _block_diag_reshape_lse(
-    lse: torch.Tensor, q_seqinfo: fmha.attn_bias._SeqLenInfo
-) -> torch.Tensor:
-    """LSE can be padded, let's remove the padding"""
-    parts = []
-    for slice, (start, end) in zip(lse.unbind(0), q_seqinfo.intervals()):
-        parts.append(slice[:, : end - start])
-    return torch.cat(parts, dim=1).unsqueeze(1)
-
-
-@parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
-    (
-        op,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-    query, key, value, attn_bias = create_tensors(
-        *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, fmt="BMK"
-    )
-
-    _out, lse = xformers.ops.memory_efficient_attention_forward_requires_grad(
-        query,
-        key,
-        value,
-        op=op,
-        attn_bias=attn_bias,
-    )
-    attn = (query.float() / k**0.5) @ key.float().transpose(-2, -1)
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            tensor_bias = attn_bias.materialize(
-                (query.shape[0], 1, query.shape[1], key.shape[1]),
-                device=query.device,
-                dtype=torch.float32,
-            )
-        else:
-            assert isinstance(attn_bias, torch.Tensor)
-            tensor_bias = attn_bias
-        if tensor_bias.ndim == 4:
-            tensor_bias = tensor_bias.reshape([-1, *tensor_bias.shape[2:]])
-        attn = attn + tensor_bias.float()
-    ref_lse = attn.logsumexp(-1)
-    if isinstance(attn_bias, fmha.attn_bias.BlockDiagonalMask):
-        lse = _block_diag_reshape_lse(lse, attn_bias.q_seqinfo)
-    assert_allclose(lse[:, 0, : ref_lse.shape[1]], ref_lse, atol=2e-4)
-
-
-@pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
-@pytest.mark.parametrize("grad_out_contiguous", [True])
-@parametrize_opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_backward(
-    opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-    grad_out_contiguous,
-    fmt,
-):
-    (
-        op_bw,
-        device,
-        dtype,
-        bias_type,
-        batch_size,
-        q_len,
-        kv_len,
-        h,
-        k,
-        kv,
-    ) = opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-
-    if k > 128 or kv > 128:
-        pytest.skip(
-            "head-dim length bigger than 128 is not supported by CK-FlashAttention-1"
-        )
-
-    if k % 8 != 0 or kv % 8 != 0:
-        pytest.skip("head-dim length must be an even value for CK-FlashAttention-1")
-
-    # BottomRightMask requires generate {m0,m1,...}, {n0,n1,...} where mi <= ni
-    if (
-        bias_type is fmha.attn_bias.BlockDiagonalCausalFromBottomRightMask
-        and q_len <= kv_len
-    ):
-        pytest.skip(
-            "BlockDiagonalCausalFromBottomRightMask requires kv_len bigger than q_len"
-        )
-
-    if k != kv:
-        pytest.skip("k same as kv is not well tested by CK-FlashAttention-1")
-
-    # attn_bias_requires_grad = (
-    #    random.Random(q_len + kv_len * batch_size).randint(0, 1) > 0
-    # )
-    attn_bias_requires_grad = False
-
-    query, key, value, attn_bias = create_tensors(
-        *opBW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
-        attn_bias_requires_grad=attn_bias_requires_grad,
-        fmt=fmt,
-    )
-    op_fw = (
-        sample_random_supported_fw(
-            fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias),
-            seed=q_len * kv + kv_len * k,
-        )
-        if op_bw != fmha.ck.BwOp
-        else fmha.ck.FwOp
-    )
-    qkv = None
-
-    if (
-        fmt == "BMHK"
-        and query.shape[3] == value.shape[3]
-        and query.shape[1] == value.shape[1]
-    ):
-        qkv = torch.stack([query, key, value], 2)
-        qkv.requires_grad_(True)
-        # bm3hk -> 3 x bmhk
-        query, key, value = xformers.ops.unbind(qkv, 2)
-        assert not query.is_contiguous()
-
-    query.requires_grad_(True)
-    key.requires_grad_(True)
-    value.requires_grad_(True)
-
-    if not op_bw.supports(fmha.Inputs(query, key, value, attn_bias)):
-        pytest.skip("inputs not supported")
-
-    out = xformers.ops.memory_efficient_attention(
-        query, key, value, attn_bias, op=(op_fw, op_bw)
-    )
-
-    grad_out = torch.ones_like(out)
-    # if grad_out_contiguous is False:
-    #    grad_out = torch.tensor([1.0], dtype=query.dtype, device=device)[
-    #        None, None, :
-    #    ].expand_as(out)
-
-    out.backward(grad_out)
-
-    if qkv is None and op_bw == fmha.ck.BwOp:
-        assert query.stride() == query.grad.stride()
-
-    grads = []
-    if qkv is None:
-        grads = [query.grad, key.grad, value.grad]
-        query.grad = None
-        key.grad = None
-        value.grad = None
-    else:
-        grads = [qkv.grad]
-        qkv.grad = None
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias, clear=True)
-        if attn_bias_grad is not None:
-            grads.append(attn_bias_grad)
-
-    ref = ref_attention(query, key, value, attn_bias)
-    ref.backward(grad_out)
-
-    assert_allclose(
-        out.float(),
-        ref.float(),
-        "fw pass",
-        atol=op_fw.ERROR_ATOL[dtype],
-        rtol=op_fw.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-    del out
-    del grad_out
-    del ref
-
-    atol = op_bw.ERROR_ATOL[dtype]
-    rtol = op_bw.ERROR_RTOL[dtype]
-
-    grads_ref = []
-    grads_name = []
-    if qkv is None:
-        assert isinstance(query.grad, torch.Tensor)
-        assert isinstance(key.grad, torch.Tensor)
-        assert isinstance(value.grad, torch.Tensor)
-        grads_ref = [query.grad, key.grad, value.grad]
-        grads_name = ["query", "key", "value"]
-    else:
-        assert isinstance(qkv.grad, torch.Tensor)
-        grads_ref = [qkv.grad]
-        grads_name = ["qkv"]
-
-    if attn_bias_requires_grad:
-        attn_bias_grad = get_bias_grad(attn_bias)
-        if attn_bias_grad is not None:
-            grads_ref.append(attn_bias.grad)
-            grads_name.append("bias")
-
-    del query
-    del key
-    del value
-    del qkv
-
-    assert len(grads_ref) == len(
-        grads
-    ), "Wrong number of gradients (maybe bias grad didn't backprop?)"
-    for name, calc_grad, ref_grad in zip(grads_name, grads, grads_ref):
-        assert_allclose(
-            calc_grad,
-            ref_grad,
-            msg=f"{op_fw.NAME}+{op_bw.NAME}:{name}",
-            atol=atol,
-            rtol=rtol,
-        )

From 08b4159d666e43f54fd42c223dea7722aa057b5e Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 12 Mar 2024 23:38:45 +0000
Subject: [PATCH 487/837] dump kernel resource usage to compilation logs
 similar to nv

---
 setup.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/setup.py b/setup.py
index 163344bb5c..e909188c82 100644
--- a/setup.py
+++ b/setup.py
@@ -377,6 +377,7 @@ def get_extensions():
                 "-U__CUDA_NO_HALF_CONVERSIONS__",
                 "-DCK_FMHA_FWD_FAST_EXP2=1",
                 "-fgpu-flush-denormals-to-zero",
+                "-Rpass-analysis=kernel-resource-usage",
             ]
             + generator_flag
             + cc_flag,

From 2da292719fd301a5bd57df074c78e64ef189d597 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 20 Mar 2024 21:50:59 +0000
Subject: [PATCH 488/837] Add the c++ extension to the latest change of
 ck_tile/dev fwd kernel (added droppout)

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 41 ++++++++++++------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 41 ++++++++++++------
 ...initions.h => ck_tiled_fmha_fwd_setting.h} | 10 ++---
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 43 +++++++++++--------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 38 ++++++++++------
 7 files changed, 109 insertions(+), 68 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_definitions.h => ck_tiled_fmha_fwd_setting.h} (95%)

diff --git a/.gitmodules b/.gitmodules
index 6358114101..7b6cfaab85 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -6,5 +6,5 @@
 	url = https://github.com/Dao-AILab/flash-attention.git
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
-	url = https://github.com/ROCm/composable_kernel.git
+	url = https://github.com/ROCm/composable_kernel-internal.git
 	branch = ck_tile/dev
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index b344343273..0e533488da 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit b344343273cf6731ba0a47e061629890a8014af5
+Subproject commit 0e533488daa13cceb4c61dfa150aad9fd895fa63
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 3dc0c47177..61cdcd1243 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -6,10 +6,6 @@
  */
 #pragma once
 
-#include <optional>
-#include <sstream>
-#include <stdexcept>
-
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
 #include <ck/tensor/tensor_view.hpp>
@@ -24,15 +20,16 @@
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
-#include "ck_tiled_fmha_definitions.h"
-#include "ck_tiled_fmha_forward_kernel.h"
-#include "ck_tiled_fmha_fwd_epilogue.h"
-#include "ck_tiled_fmha_fwd_tile_partitioner.h"
-#include "ck_tiled_fmha_params.h"
-
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
+#include "ck_tiled_fmha_definitions.hpp"
+#include "ck_tiled_fmha_forward_kernel.hpp"
+#include "ck_tiled_fmha_fwd_epilogue.hpp"
+#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+
 template <
     typename scalar_t,
     bool has_causal_mask,
@@ -52,6 +49,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
           typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -98,6 +96,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   true, // kStoreLSE
+                  false, // kHadDropout, to be changed
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -131,6 +130,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   true, // kStoreLSE
+                  false, // kHadDropout, to be changed
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -173,33 +173,46 @@ struct batched_forward_causalmask_attnbias_dispatched {
           param.k_ptr,
           param.v_ptr,
           param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
           param.logsumexp_ptr,
           param.out_ptr,
           param.M, // seqlen_q
           param.N, // seqlen_k
           param.K, // hdim_q
           param.Kv, // hdim_v
+          param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
-          param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+          param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[2],
+          0, // stride_randval
           param.out_strides[1],
-          param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
+          param.q_strides[2], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
           param.k_strides[2],
           param.v_strides[2],
           param.attn_bias_strides[1],
+          0, // nhead_randval
           param.M, // nhead_stride_lse
           param.out_strides[2],
-          param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
+          param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
+                              // batch-dim stride
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[0],
+          0, // batch_stride_randval
           param.Hq * param.M, // batch_stride_lse
           param.out_strides[0],
           static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size);
+          param.window_size,
+          1.0f, // descale_qk, not used
+          1.0f, // descale_sv, not used
+          param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 8696e04378..4e9286a756 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -6,10 +6,6 @@
  */
 #pragma once
 
-#include <optional>
-#include <sstream>
-#include <stdexcept>
-
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
 #include <ck/tensor/tensor_view.hpp>
@@ -24,15 +20,16 @@
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
-#include "ck_tiled_fmha_definitions.h"
-#include "ck_tiled_fmha_forward_kernel.h"
-#include "ck_tiled_fmha_fwd_epilogue.h"
-#include "ck_tiled_fmha_fwd_tile_partitioner.h"
-#include "ck_tiled_fmha_params.h"
-
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
+#include "ck_tiled_fmha_definitions.hpp"
+#include "ck_tiled_fmha_forward_kernel.hpp"
+#include "ck_tiled_fmha_fwd_epilogue.hpp"
+#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+
 template <
     typename scalar_t,
     bool has_causal_mask,
@@ -52,6 +49,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
           typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -98,6 +96,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   false, // kStoreLSE
+                  false, // kHasDropout
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -131,6 +130,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   false, // kStoreLSE
+                  false, // kHasDropout
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -173,33 +173,46 @@ struct batched_infer_causalmask_attnbias_dispatched {
           param.k_ptr,
           param.v_ptr,
           param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
           nullptr, // lse_ptr
           param.out_ptr,
           param.M, // seqlen_q
           param.N, // seqlen_k
           param.K, // hdim_q
           param.Kv, // hdim_v
+          param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
-          param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+          param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[2],
+          0, // stride_randval
           param.out_strides[1],
-          param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim stride
+          param.q_strides[2], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
           param.k_strides[2],
           param.v_strides[2],
           param.attn_bias_strides[1],
+          0, // nhead_stride_randval
           0, // nhead_stride_lse
           param.out_strides[2],
-          param.q_strides[0], // q, k, v, bias, lse, out tensor batch-dim stride
+          param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
+                              // batch-dim stride
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[0],
+          0, // batch_stride_randval
           0, // batch_stride_lse
           param.out_strides[0],
           static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size);
+          param.window_size,
+          1.0f, // descale_qk, not used
+          1.0f, // descale_sv, not used
+          0.0f, // p_dropout
+          false, // is_store_randval
+          {0, 0});
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
similarity index 95%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 4e3767fd2a..3810bd3d04 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_definitions.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,6 @@
 
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
-enum struct CausalMaskType {
-  MaskDisabled,
-  MaskUpperTriangleFromTopLeft,
-  MaskUpperTriangleFromBottomRight
-};
-
 template <typename DataType>
 struct FmhaFwdTypeConfig;
 
@@ -23,6 +17,7 @@ struct FmhaFwdTypeConfig<ck::half_t> {
   using KDataType = ck::half_t;
   using VDataType = ck::half_t;
   using BiasDataType = ck::half_t;
+  using RandValOutputDataType = unsigned short;
   using LSEDataType =
       float; // data type for lse(logsumexp L_j = max_j + log(l_j))
   using SaccDataType = float; // data type for first gemm accumulation
@@ -38,6 +33,7 @@ struct FmhaFwdTypeConfig<ck::bhalf_t> {
   using KDataType = ck::bhalf_t;
   using VDataType = ck::bhalf_t;
   using BiasDataType = ck::bhalf_t;
+  using RandValOutputDataType = unsigned short;
   using LSEDataType =
       float; // data type for lse(logsumexp L_j = max_j + log(l_j))
   using SaccDataType = float; // data type for first gemm accumulation
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index bb4d43d5f6..78ed74316f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -6,11 +6,6 @@
  */
 #pragma once
 
-#include <iostream>
-#include <optional>
-#include <sstream>
-#include <stdexcept>
-
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
 #include <ck/tensor/tensor_view.hpp>
@@ -24,15 +19,16 @@
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
-#include "ck_tiled_fmha_definitions.h"
-#include "ck_tiled_fmha_forward_kernel.h"
-#include "ck_tiled_fmha_fwd_epilogue.h"
-#include "ck_tiled_fmha_fwd_tile_partitioner.h"
-#include "ck_tiled_fmha_params.h"
-
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
+#include "ck_tiled_fmha_definitions.hpp"
+#include "ck_tiled_fmha_forward_kernel.hpp"
+#include "ck_tiled_fmha_fwd_epilogue.hpp"
+#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+
 template <
     typename scalar_t,
     bool has_causal_mask,
@@ -52,6 +48,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
           typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -72,9 +69,8 @@ struct grouped_forward_causalmask_attnbias_dispatched {
 
       using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck::index_t occupancy = (MaxK == 64) ? 3
-          : (MaxK == 256)                            ? 1
-                                                     : 2;
+      constexpr ck::index_t occupancy =
+          (MaxK == 64) ? 3 : (MaxK == 256) ? 1 : 2;
 
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
@@ -92,6 +88,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   true, // kStoreLSE
+                  false, // kHadDropout, to be changed
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -117,6 +114,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   true, // kStoreLSE
+                  false, // kHasDropout
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -144,6 +142,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           param.k_ptr,
           param.v_ptr,
           param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
           param.logsumexp_ptr,
           param.out_ptr,
           param.seqstart_q_dev_ptr,
@@ -151,21 +150,31 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           param.seqlen_k_dev_ptr,
           param.K, // hdim_q
           param.Kv, // hdim_v
+          param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
-          param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+          param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[2],
+          0, // stride_randval
           param.out_strides[0],
-          param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
+          param.q_strides[1], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[1],
+          0, // nhead_stride_randval
           param.max_seqlen_q, // nhead_stride_lse
           param.out_strides[1],
           static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size);
+          param.window_size,
+          1.0f, // descale_qk, not used
+          1.0f, // descale_sv, not used
+          param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index c371b0aa14..05975f84f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -6,11 +6,6 @@
  */
 #pragma once
 
-#include <iostream>
-#include <optional>
-#include <sstream>
-#include <stdexcept>
-
 #include <ck/host_utility/device_prop.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
 #include <ck/tensor/tensor_view.hpp>
@@ -24,15 +19,16 @@
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
-#include "ck_tiled_fmha_definitions.h"
-#include "ck_tiled_fmha_forward_kernel.h"
-#include "ck_tiled_fmha_fwd_epilogue.h"
-#include "ck_tiled_fmha_fwd_tile_partitioner.h"
-#include "ck_tiled_fmha_params.h"
-
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
+#include "ck_tiled_fmha_definitions.hpp"
+#include "ck_tiled_fmha_forward_kernel.hpp"
+#include "ck_tiled_fmha_fwd_epilogue.hpp"
+#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+
 template <
     typename scalar_t,
     bool has_causal_mask,
@@ -52,6 +48,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
           typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
           typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
           typename FmhaFwdTypeConfig<scalar_t>::PDataType,
           typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
@@ -91,6 +88,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   false, // kStoreLSE
+                  false, // kHasDropout
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -116,6 +114,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                   kPadHeadDimV,
                   has_attn_bias,
                   false, // kStoreLSE
+                  false, // kHasDropout
                   occupancy>;
 
               using FmhaPipelineProblem =
@@ -143,6 +142,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           param.k_ptr,
           param.v_ptr,
           param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
           nullptr, // lse_ptr
           param.out_ptr,
           param.seqstart_q_dev_ptr,
@@ -150,21 +150,31 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           param.seqlen_k_dev_ptr,
           param.K, // hdim_q
           param.Kv, // hdim_v
+          param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
-          param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+          param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[2],
+          0, // stride_randval
           param.out_strides[0],
-          param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim stride
+          param.q_strides[1], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[1],
+          0, // nhead_stride_randval
           0, // nhead_stride_lse
           param.out_strides[1],
           static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size);
+          param.window_size,
+          1.0f, // descale_qk, not used
+          1.0f, // descale_sv, not used
+          0.0f, // p_dropout
+          false, // is_store_randval
+          {0, 0});
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(

From 9189e453bb9bdbd923157b2ff4dcbe861791f1e5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 27 Mar 2024 00:01:02 +0000
Subject: [PATCH 489/837] Add the c++ extension to use ck_tile/dev/ fmha bwd
 kernel

---
 .../attention_backward_generic_ck_tiled.cpp   | 520 ++++++++++++++++++
 .../hip_fmha/attention_forward_decoder.cpp    |   6 +-
 .../attention_forward_generic_ck_tiled.cpp    |  39 +-
 .../hip_fmha/attention_forward_splitk.cpp     |  54 +-
 .../hip_fmha/ck_attention_forward_decoder.h   |  10 +-
 .../ck_attention_forward_decoder_splitk.h     |  48 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 293 ++++++++++
 .../ck_tiled_fmha_batched_backward_bp16.cpp   |  63 +++
 .../ck_tiled_fmha_batched_backward_fp16.cpp   |  63 +++
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 113 ++--
 .../ck_tiled_fmha_batched_forward_bp16.cpp    |   1 +
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |   1 +
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 139 +++++
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 268 +++++++++
 .../ck_tiled_fmha_grouped_backward_bp16.cpp   |  63 +++
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   |  63 +++
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  84 +--
 .../ck_tiled_fmha_grouped_forward_bp16.cpp    |   1 +
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |   1 +
 .../attention/hip_fmha/ck_tiled_fmha_params.h |  65 ++-
 .../hip_fmha/ck_tiled_headdim_switch.h        |  16 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...6_no_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...with_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...6_no_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...with_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...6_no_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...with_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...6_no_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ...16_no_causalmask_with_attnbias_maxk_64.cpp |  15 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  15 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  15 +
 ...with_causalmask_with_attnbias_maxk_128.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_32.cpp |  15 +
 ..._with_causalmask_with_attnbias_maxk_64.cpp |  15 +
 69 files changed, 2435 insertions(+), 196 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
new file mode 100644
index 0000000000..8f93269c65
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -0,0 +1,520 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <cmath>
+#include <cstdlib>
+
+#include <ATen/Context.h>
+#include <ATen/ScalarOps.h>
+#include <ATen/Tensor.h>
+#include <ATen/TensorOperators.h>
+#include <c10/cuda/CUDAGuard.h>
+#include <torch/library.h>
+
+#include "ck_fmha_util.h"
+#include "ck_tiled_fmha_params.h"
+
+extern void batched_backward_fp16(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+extern void batched_backward_bp16(
+    BatchedBackwardParams& param,
+    hipStream_t stream);
+extern void grouped_backward_fp16(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
+extern void grouped_backward_bp16(
+    GroupedBackwardParams& param,
+    hipStream_t stream);
+
+namespace {
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor>
+efficient_attention_backward_ck(
+    const at::Tensor& grad_out,
+    const at::Tensor& query,
+    const at::Tensor& key,
+    const at::Tensor& value,
+    const c10::optional<at::Tensor>& bias, // additive attention bias
+    // (Mode 1MHK only) [b+1]: cu_seqlens_q[b] contains the
+    // position of the first query token for batch $b
+    const c10::optional<at::Tensor>& seqstart_q,
+    // (Mode 1MHK only) [b+1]: cu_seqlens_k[b] contains the
+    // position of the first key token for batch $b
+    const c10::optional<at::Tensor>& seqstart_k,
+    // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_q_,
+    // (Mode 1MHK only) Maximum sequence length across batches
+    const c10::optional<int64_t> max_seqlen_k_,
+    const c10::optional<at::Tensor>& seqlen_k,
+    const at::Tensor& logsumexp,
+    const at::Tensor& out,
+    double dropout_p, // dropout probability
+    int64_t rng_seed, // seed using for generating random numbers for dropout
+    int64_t rng_offset, // offset into random number sequence
+    int64_t custom_mask_type,
+    const c10::optional<double> scale,
+    const c10::optional<int64_t> window_size) {
+  // ndim
+  TORCH_CHECK(query.dim() == grad_out.dim());
+  TORCH_CHECK(query.dim() == key.dim());
+  TORCH_CHECK(query.dim() == value.dim());
+  TORCH_CHECK(query.dim() == 4);
+
+  // batch size
+  TORCH_CHECK(query.size(0) == grad_out.size(0));
+  TORCH_CHECK(query.size(0) == key.size(0));
+  TORCH_CHECK(query.size(0) == value.size(0));
+
+  // seqlen
+  TORCH_CHECK(key.size(1) == value.size(1));
+  TORCH_CHECK(query.size(1) == grad_out.size(1));
+
+  // Num heads
+  TORCH_CHECK(query.size(2) % key.size(2) == 0);
+  TORCH_CHECK(key.size(2) == value.size(2));
+  TORCH_CHECK(query.size(2) == grad_out.size(2));
+
+  // Embedding per head
+  TORCH_CHECK(query.size(3) == key.size(3));
+  TORCH_CHECK(value.size(3) == grad_out.size(3));
+
+  // CK-FlashAttn requires out, grad_out to have same shapes
+  TORCH_CHECK(out.sizes() == grad_out.sizes());
+
+  // last dim is contiguous, device is CUDA
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(out);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
+  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
+
+  // logsumexp should be completely contiguous
+  CHECK_NOSPARSE_CONTIGUOUS_CUDA(logsumexp);
+
+  TORCH_CHECK(seqstart_q.has_value() == seqstart_k.has_value());
+  TORCH_CHECK(
+      !(seqstart_q.has_value() && bias.has_value()),
+      "seqstart_q + bias not supported");
+
+  if (seqstart_q.has_value()) {
+    TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
+    TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
+    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(query.size(0) == 1, "seqstart_q only supports batch_size=1");
+    TORCH_CHECK(max_seqlen_q_.has_value());
+    TORCH_CHECK(max_seqlen_k_.has_value());
+  }
+
+  // at::cuda::CUDAGuard device_guard(query.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  int64_t B = query.size(0);
+  int64_t M = query.size(1);
+  int64_t N = key.size(1);
+  int64_t Hq = query.size(2);
+  int64_t Hkv = key.size(2);
+  int64_t K = query.size(3);
+  int64_t Kv = value.size(3);
+
+  auto opts = query.options();
+
+  at::Tensor grad_q, grad_k, grad_v, grad_bias;
+
+  if (query.size(1) == key.size(1) && query.size(3) == value.size(3) &&
+      query.size(2) == key.size(2) &&
+      query.storage().is_alias_of(key.storage()) &&
+      query.storage().is_alias_of(value.storage())) {
+    // Create one big contiguous chunk for grad_q, grad_k, grad_v
+    // This is because q, k and v usually come from a single
+    // output of a linear layer that is chunked.
+    // Creating the gradients with the right layout saves us
+    // a `torch.cat` call in the backward pass
+    at::Tensor chunk = at::empty({B, M, 3, Hq, K}, opts);
+    grad_q = chunk.select(2, 0);
+    grad_k = chunk.select(2, 1);
+    grad_v = chunk.select(2, 2);
+    grad_q.fill_(0);
+  } else if (
+      key.size(3) == value.size(3) &&
+      key.storage().is_alias_of(value.storage())) {
+    // Create one big contiguous chunk for grad_k, grad_v
+    // This is because k and v usually come from a single
+    // output of a linear layer that is chunked.
+    // Creating the gradients with the right layout saves us
+    // a `torch.cat` call in the backward pass
+    at::Tensor chunk = at::empty({B, N, 2, Hkv, Kv}, opts);
+    grad_k = chunk.select(2, 0);
+    grad_v = chunk.select(2, 1);
+
+    grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+    grad_q.fill_(0);
+  } else {
+    grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
+    grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
+    grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
+    grad_q.fill_(0);
+  }
+
+  // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
+  TORCH_CHECK(query.sizes() == grad_q.sizes());
+  TORCH_CHECK(query.strides() == grad_q.strides());
+  TORCH_CHECK(key.sizes() == grad_k.sizes());
+  TORCH_CHECK(key.strides() == grad_k.strides());
+  TORCH_CHECK(value.sizes() == grad_v.sizes());
+  TORCH_CHECK(value.strides() == grad_v.strides());
+
+  const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
+
+  // even it is an output, the grad_bias is required to use the same data-type
+  // as bias in CK-FlashAttn
+  if (bias_requires_grad)
+    grad_bias =
+        at::empty_strided(bias->sizes(), bias->strides(), bias->options());
+
+  bool is_mqa_gqa = (Hq > Hkv);
+
+  at::Tensor tmp_grad_k, tmp_grad_v;
+
+  if (is_mqa_gqa) {
+    // allocate tmp_grad_k/tmp_grad_v which will be reduce to
+    // grad_k/grad_v for returning
+    tmp_grad_k = at::empty({B, N, Hq, K}, opts);
+    tmp_grad_v = at::empty({B, N, Hq, Kv}, opts);
+  }
+
+  auto dot_out = at::empty_like(logsumexp);
+
+  auto set_batched_backward_params = [&](BatchedBackwardParams& p) {
+    p.B = B;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    p.is_mqa_gqa = is_mqa_gqa;
+
+    TORCH_CHECK(p.B == logsumexp.size(0));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
+    TORCH_CHECK(p.M == logsumexp.size(2));
+
+    if (scale.has_value()) {
+      p.scale = float(*scale);
+    } else {
+      p.scale = float(1.0 / std::sqrt(float(K)));
+    }
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+    p.grad_out_ptr = grad_out.data_ptr();
+    p.out_ptr = out.data_ptr();
+
+    p.grad_q_ptr = grad_q.data_ptr();
+    p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
+    p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
+
+    p.q_strides = {
+        static_cast<int>(query.stride(0)),
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(0)),
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(0)),
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(0)),
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+    p.grad_out_strides = {
+        static_cast<int>(grad_out.stride(0)),
+        static_cast<int>(grad_out.stride(1)),
+        static_cast<int>(grad_out.stride(2)),
+        static_cast<int>(grad_out.stride(3))};
+
+    p.lsed_strides = {
+        static_cast<int>(logsumexp.stride(0)),
+        static_cast<int>(logsumexp.stride(1)),
+        static_cast<int>(logsumexp.stride(2))};
+
+    if (is_mqa_gqa) {
+      p.grad_k_strides = {
+          static_cast<int>(tmp_grad_k.stride(0)),
+          static_cast<int>(tmp_grad_k.stride(1)),
+          static_cast<int>(tmp_grad_k.stride(2)),
+          static_cast<int>(tmp_grad_k.stride(3))};
+      p.grad_v_strides = {
+          static_cast<int>(tmp_grad_v.stride(0)),
+          static_cast<int>(tmp_grad_v.stride(1)),
+          static_cast<int>(tmp_grad_v.stride(2)),
+          static_cast<int>(tmp_grad_v.stride(3))};
+    } else {
+      p.grad_k_strides = {
+          static_cast<int>(grad_k.stride(0)),
+          static_cast<int>(grad_k.stride(1)),
+          static_cast<int>(grad_k.stride(2)),
+          static_cast<int>(grad_k.stride(3))};
+      p.grad_v_strides = {
+          static_cast<int>(grad_v.stride(0)),
+          static_cast<int>(grad_v.stride(1)),
+          static_cast<int>(grad_v.stride(2)),
+          static_cast<int>(grad_v.stride(3))};
+    };
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = bias->data_ptr();
+
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+
+      if (bias_requires_grad)
+        p.grad_bias_ptr = grad_bias.data_ptr();
+    } else {
+      p.has_attn_bias = true;
+      p.attn_bias_ptr = nullptr;
+      p.grad_bias_ptr = nullptr;
+    }
+
+    p.bias_has_grad = bias_requires_grad;
+
+    p.custom_mask_type = custom_mask_type;
+    p.window_size =
+        window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.philox_seed = rng_seed;
+    p.philox_offset = rng_offset;
+
+    p.logsumexp_ptr = logsumexp.data_ptr();
+    p.dot_out_ptr = dot_out.data_ptr();
+  };
+
+  auto set_grouped_backward_params = [&](GroupedBackwardParams& p) {
+    p.num_batches = seqstart_q->size(0) - 1;
+    p.M = M;
+    p.N = N;
+    p.Hq = Hq;
+    p.Hkv = Hkv;
+    p.K = K;
+    p.Kv = Kv;
+
+    p.is_mqa_gqa = is_mqa_gqa;
+
+    p.max_seqlen_q = *max_seqlen_q_;
+    p.max_seqlen_k = *max_seqlen_k_;
+
+    TORCH_CHECK(p.num_batches == logsumexp.size(0));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
+    TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
+
+    if (scale.has_value())
+      p.scale = float(*scale);
+    else
+      p.scale = float(1.0 / std::sqrt(float(K)));
+
+    p.q_strides = {
+        static_cast<int>(query.stride(1)),
+        static_cast<int>(query.stride(2)),
+        static_cast<int>(query.stride(3))};
+    p.k_strides = {
+        static_cast<int>(key.stride(1)),
+        static_cast<int>(key.stride(2)),
+        static_cast<int>(key.stride(3))};
+    p.v_strides = {
+        static_cast<int>(value.stride(1)),
+        static_cast<int>(value.stride(2)),
+        static_cast<int>(value.stride(3))};
+    p.out_strides = {
+        static_cast<int>(out.stride(1)),
+        static_cast<int>(out.stride(2)),
+        static_cast<int>(out.stride(3))};
+    p.grad_out_strides = {
+        static_cast<int>(grad_out.stride(1)),
+        static_cast<int>(grad_out.stride(2)),
+        static_cast<int>(grad_out.stride(3))};
+
+    p.lsed_strides = {
+        static_cast<int>(logsumexp.stride(0)),
+        static_cast<int>(logsumexp.stride(1)),
+        static_cast<int>(logsumexp.stride(2))};
+
+    if (is_mqa_gqa) {
+      p.grad_k_strides = {
+          static_cast<int>(tmp_grad_k.stride(1)),
+          static_cast<int>(tmp_grad_k.stride(2)),
+          static_cast<int>(tmp_grad_k.stride(3))};
+      p.grad_v_strides = {
+          static_cast<int>(tmp_grad_v.stride(1)),
+          static_cast<int>(tmp_grad_v.stride(2)),
+          static_cast<int>(tmp_grad_v.stride(3))};
+    } else {
+      p.grad_k_strides = {
+          static_cast<int>(grad_k.stride(1)),
+          static_cast<int>(grad_k.stride(2)),
+          static_cast<int>(grad_k.stride(3))};
+      p.grad_v_strides = {
+          static_cast<int>(grad_v.stride(1)),
+          static_cast<int>(grad_v.stride(2)),
+          static_cast<int>(grad_v.stride(3))};
+    };
+
+    if (bias.has_value()) {
+      CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA((*bias));
+      TORCH_CHECK(bias->scalar_type() == query.scalar_type());
+
+      p.has_attn_bias = true;
+      const at::Tensor bias_4d_view = get_bias_4d_view(*bias, B, Hq, M, N);
+      p.attn_bias_strides = {
+          static_cast<int>(bias_4d_view.stride(0)),
+          static_cast<int>(bias_4d_view.stride(1)),
+          static_cast<int>(bias_4d_view.stride(2)),
+          static_cast<int>(bias_4d_view.stride(3))};
+    } else
+      p.has_attn_bias = false;
+
+    p.bias_has_grad = bias_requires_grad;
+
+    p.custom_mask_type = custom_mask_type;
+    p.window_size =
+        window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
+
+    // interesting: the tensors have to be defined here, moving to more local
+    // scope will cause issue
+    at::Tensor dev_seqstart_q;
+    at::Tensor dev_seqstart_k;
+    at::Tensor dev_seqlen_k;
+
+    if (seqstart_q->is_cpu()) {
+      dev_seqstart_q = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+      p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
+      HIP_CALL_CHECK(hipMemcpyAsync(
+          p.seqstart_q_dev_ptr,
+          seqstart_q->data_ptr(),
+          (p.num_batches + 1) * sizeof(int),
+          hipMemcpyHostToDevice,
+          stream));
+    } else
+      p.seqstart_q_dev_ptr = seqstart_q->data_ptr();
+
+    if (seqstart_k->is_cpu()) {
+      dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
+
+      p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
+      HIP_CALL_CHECK(hipMemcpyAsync(
+          p.seqstart_k_dev_ptr,
+          seqstart_k->data_ptr(),
+          (p.num_batches + 1) * sizeof(int),
+          hipMemcpyHostToDevice,
+          stream));
+    } else
+      p.seqstart_k_dev_ptr = seqstart_k->data_ptr();
+
+    if (seqlen_k.has_value()) {
+      TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
+      TORCH_CHECK(seqlen_k->dim() == 1);
+      TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+
+      if (seqlen_k->is_cpu()) {
+        dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
+
+        p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
+        HIP_CALL_CHECK(hipMemcpyAsync(
+            p.seqlen_k_dev_ptr,
+            seqlen_k->data_ptr(),
+            p.num_batches * sizeof(int),
+            hipMemcpyHostToDevice,
+            stream));
+      } else
+        p.seqlen_k_dev_ptr = seqlen_k->data_ptr();
+    } else
+      p.seqlen_k_dev_ptr = nullptr;
+
+    p.dropout_prob = static_cast<float>(dropout_p);
+    p.philox_seed = rng_seed;
+    p.philox_offset = rng_offset;
+
+    p.q_ptr = query.data_ptr();
+    p.k_ptr = key.data_ptr();
+    p.v_ptr = value.data_ptr();
+
+    p.out_ptr = out.data_ptr();
+    p.grad_out_ptr = grad_out.data_ptr();
+    p.attn_bias_ptr = bias.has_value() ? bias->data_ptr() : nullptr;
+
+    p.logsumexp_ptr = logsumexp.data_ptr();
+    p.dot_out_ptr = dot_out.data_ptr();
+
+    p.grad_q_ptr = grad_q.data_ptr();
+    p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
+    p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
+    p.grad_bias_ptr = bias_requires_grad ? grad_bias.data_ptr() : nullptr;
+  };
+
+  auto inDataType = query.scalar_type();
+
+  if (!seqstart_q.has_value()) { // input is batched
+    BatchedBackwardParams batched_backward_params;
+
+    set_batched_backward_params(batched_backward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      batched_backward_fp16(batched_backward_params, stream);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      batched_backward_bp16(batched_backward_params, stream);
+    } else
+      throw std::runtime_error("input data-type is not supported");
+  } else { // input is grouped
+    GroupedBackwardParams grouped_backward_params;
+
+    set_grouped_backward_params(grouped_backward_params);
+
+    if (inDataType == at::ScalarType::Half) {
+      grouped_backward_fp16(grouped_backward_params, stream);
+    } else if (inDataType == at::ScalarType::BFloat16) {
+      grouped_backward_bp16(grouped_backward_params, stream);
+    } else
+      throw std::runtime_error("input data-type is not supported");
+  }
+
+  if (is_mqa_gqa) {
+    auto tmp_grad_k_view = tmp_grad_k.unflatten(2, {Hkv, Hq / Hkv});
+    auto tmp_grad_v_view = tmp_grad_v.unflatten(2, {Hkv, Hq / Hkv});
+    grad_k = tmp_grad_k_view.sum(3);
+    grad_v = tmp_grad_v_view.sum(3);
+  }
+
+  return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
+}
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_backward_ck"),
+      TORCH_FN(efficient_attention_backward_ck));
+}
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 786dfec0b5..6fe0137b03 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -270,9 +270,9 @@ int main(int argc, char** argv) {
     const int32_t n_heads = std::stoi(args[3]);
     const int32_t n_groups = 1;
     const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
+    const auto dtype = (args[5] == "f32")
+        ? torch::kFloat32
+        : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[6]);
 
     const int32_t dim_per_head = 4 * kThreadsPerWavefront;
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index a56b87f737..88e195c2d7 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -124,7 +124,6 @@ efficient_attention_forward_ck(
   int64_t philox_offset;
 
   if (use_dropout) {
-    /*
     at::PhiloxCudaState rng_engine_inputs;
     at::CUDAGeneratorImpl* gen =
         at::get_generator_or_default<at::CUDAGeneratorImpl>(
@@ -139,9 +138,6 @@ efficient_attention_forward_ck(
 
     philox_seed = std::get<0>(seeds);
     philox_offset = std::get<1>(seeds);
-    */
-    throw std::runtime_error(
-        "drop-out is currently not implemented by ck-tiled!");
   }
 
   auto set_batched_forward_params = [&](BatchedForwardParams& p) {
@@ -212,17 +208,21 @@ efficient_attention_forward_ck(
 
     // the following parameters are only used by training forward
     if (p.use_dropout) {
-      // p.dropout_prob = static_cast<float>(dropout_p);
-      throw std::runtime_error(
-          "drop-out is currently not implemented by ck-tiled!");
+      p.dropout_prob = static_cast<float>(dropout_p);
     } else
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
       logsumexp = at::empty({B, Hq, M}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
-    } else
+      p.lse_strides = {
+          static_cast<int>(logsumexp.stride(0)),
+          static_cast<int>(logsumexp.stride(1)),
+          static_cast<int>(logsumexp.stride(2))};
+    } else {
       p.logsumexp_ptr = nullptr;
+      p.lse_strides = {0, 0, 0};
+    }
   };
 
   auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
@@ -234,6 +234,8 @@ efficient_attention_forward_ck(
     p.K = K;
     p.Kv = Kv;
 
+    p.max_seqlen_q = *max_seqlen_q_;
+
     if (scale.has_value()) {
       p.scale = float(*scale);
     } else {
@@ -282,9 +284,6 @@ efficient_attention_forward_ck(
     p.window_size =
         window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
 
-    // max_seqlen_q is used to create logsumexp tensor
-    p.max_seqlen_q = *max_seqlen_q_;
-
     // interesting: the tensors have to be defined here, moving to more local
     // scope will cause issue
     at::Tensor dev_seqstart_q;
@@ -343,9 +342,7 @@ efficient_attention_forward_ck(
 
     // the following parameters are only used by training forward
     if (p.use_dropout) {
-      // p.dropout_prob = static_cast<float>(dropout_p);
-      throw std::runtime_error(
-          "drop-out is currently not implemented by ck-tiled!");
+      p.dropout_prob = static_cast<float>(dropout_p);
     } else
       p.dropout_prob = 0.0f;
 
@@ -353,8 +350,14 @@ efficient_attention_forward_ck(
       logsumexp = at::empty(
           {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
-    } else
+      p.lse_strides = {
+          static_cast<int>(logsumexp.stride(0)),
+          static_cast<int>(logsumexp.stride(1)),
+          static_cast<int>(logsumexp.stride(2))};
+    } else {
       p.logsumexp_ptr = nullptr;
+      p.lse_strides = {0, 0, 0};
+    }
   };
 
   auto inDataType = query.scalar_type();
@@ -379,9 +382,6 @@ efficient_attention_forward_ck(
         batched_forward_bp16(batched_forward_params, stream);
       } else
         throw std::runtime_error("input data-type is not supported!");
-
-      throw std::runtime_error(
-          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
     };
   } else { // input is grouped
     GroupedForwardParams grouped_forward_params;
@@ -403,9 +403,6 @@ efficient_attention_forward_ck(
         grouped_forward_bp16(grouped_forward_params, stream);
       } else
         throw std::runtime_error("input data-type is not supported!");
-
-      throw std::runtime_error(
-          "drop-out and compuate logsumexp currently not implemented by ck-tiled!");
     };
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index ea4e3505f8..0c2740063e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -555,22 +555,22 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
                     kMaxKVSequenceLength,
                     compute_t>
               : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                        scalar_t,
+                        2,
+                        kLoopUnroll,
+                        kLoopUnrollTail,
+                        kMaxKVSequenceLength,
+                        compute_t>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                            scalar_t,
+                            1,
+                            kLoopUnroll,
+                            kLoopUnrollTail,
+                            kMaxKVSequenceLength,
+                            compute_t>
+                      : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -728,14 +728,14 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : O_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : O_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                        scalar_t,
+                        2>
+                  : O_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
@@ -1114,9 +1114,9 @@ int main(int argc, char** argv) {
     const int32_t batch_size = std::stoi(args[1]);
     const int32_t nq_heads = std::stoi(args[2]);
     const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
+    const auto dtype = (args[4] == "f32")
+        ? torch::kFloat32
+        : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[5]);
 
     auto [Q, K, V, seq] =
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 20b3b8979c..57d54eda2f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -458,10 +458,12 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           Q_size_k_alignment_necessary == 4
               ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
               : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 65c27603d3..3efe1385cc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -622,22 +622,22 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     KV_M_MAX,
                     compute_t>
               : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 2,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 1,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                        scalar_t,
+                        /* vec_size */ 2,
+                        n_loop_unroll,
+                        n_loop_unroll_tail,
+                        KV_M_MAX,
+                        compute_t>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                            scalar_t,
+                            /* vec_size */ 1,
+                            n_loop_unroll,
+                            n_loop_unroll_tail,
+                            KV_M_MAX,
+                            compute_t>
+                      : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -676,14 +676,14 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
+                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                        scalar_t,
+                        2>
+                  : Q_size_k_alignment_necessary == 1
+                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                            scalar_t,
+                            1>
+                      : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
new file mode 100644
index 0000000000..84ea5f4236
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -0,0 +1,293 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/host_utility/device_prop.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
+#include <ck/tensor_description/cluster_descriptor.hpp>
+#include <ck/tensor_description/tensor_descriptor_helper.hpp>
+#include <ck/utility/common_header.hpp>
+
+#include <ck/tile_program/block_tile/block_masking.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dot_do_o.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_dispatcher.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_problem.hpp>
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_bwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+
+#include "ck_tiled_fmha_backward_kernel.hpp"
+#include "ck_tiled_fmha_bwd_epilogue.hpp"
+#include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
+#include "ck_tiled_fmha_definitions.hpp"
+
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t MaxK>
+struct batched_backward_causalmask_attnbias_dispatched {
+  using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
+      typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
+      typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
+      typename FmhaBwdTypeConfig<scalar_t>::VGradDataType>>;
+
+  using FmhaBwdLoadStrategy_ = typename FmhaBwdLoadStrategy<MaxK>::type;
+
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaBwdPipelineProblemTemp =
+      ck::tile_program::block::BlockFmhaBwdPipelineProblem<
+          typename FmhaBwdTypeConfig<scalar_t>::QDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::KDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::VDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::GemmDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::LSEDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::DDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::ODataType,
+          typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::QGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::VGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::BiasGradDataType,
+          FmhaBwdShape<MaxK>,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaTraits>;
+
+  static void Run(BatchedBackwardParams& param, hipStream_t stream) {
+    {
+      constexpr ck::index_t kBlockSize = 256;
+
+      const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
+      const bool pad_headdim_v =
+          !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            constexpr ck::index_t occupancy = 2;
+
+            using FmhaOGradDotOTraits_ =
+                ck::tile_program::TileFmhaBwdOGradDotOTraits<
+                    kPadSeqLenQ,
+                    kPadHeadDimV,
+                    occupancy>;
+
+            using FmhaBwdOGradDotOPipelineProblem =
+                ck::tile_program::block::BlockFmhaBwdOGradDotOPipelineProblem<
+                    typename FmhaBwdTypeConfig<scalar_t>::ODataType,
+                    typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
+                    typename FmhaBwdTypeConfig<scalar_t>::DDataType,
+                    kBlockSize,
+                    FmhaBwdShape<MaxK>::kVHeaddim,
+                    false, // kIsGroupMode
+                    FmhaOGradDotOTraits_>;
+
+            using FmhaBwdOGradDotOPipeline =
+                typename ck::tile_program::block::BlockFmhaBwdOGradDotO<
+                    FmhaBwdOGradDotOPipelineProblem>;
+
+            using FmhaBwdOGradDotOKernel_ = FmhaBwdOGradDotOKernel<
+                FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
+                FmhaBwdOGradDotOPipeline>;
+
+            RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
+          });
+    }
+
+    {
+      const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+        constexpr ck::index_t occupancy = 1;
+        constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+        const bool has_dropout = (param.dropout_prob > 0.0f);
+
+        using FmhaMask = ck::tile_program::block::
+            GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+        using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
+        using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
+
+        const bool pad_seqlen_q = !(param.M % FmhaBwdShape_::kM0 == 0);
+        const bool pad_seqlen_k = !(param.N % FmhaBwdShape_::kN0 == 0);
+        // const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kK2 == 0);
+
+        // usually headdim_q and headdim_v are same, consider them together
+        // to determine whether to do padding saving some compiling time
+        // bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+        // currently headdim padding is not supported due to some atomic_add
+        // issue with bhalf_t
+        constexpr bool kPadHeadDimQ = false;
+
+        BOOL_SWITCH_4(
+            has_dropout,
+            kHasDropout,
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  false, // kStoreLSE
+                  kHasDropout,
+                  occupancy>;
+
+              using FmhaBwdPipelineProblem =
+                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+              using FmhaBwdPipeline_ = typename ck::tile_program::block::
+                  BlockFmhaBwdPipelineDispatcher<
+                      FmhaBwdLoadStrategy_,
+                      FmhaBwdPipelineProblem>::BlockPipeline;
+
+              using FmhaBwdKernel_ = FmhaBwdKernel<
+                  FmhaBwdTilePartitioner_,
+                  FmhaBwdPipeline_,
+                  FmhaBwdEpilogue_>;
+
+              RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
+            });
+      });
+    };
+  }
+
+  template <typename FmhaBwdOGradDotOKernel>
+  static void RunWithBwdOGradDotOKernel(
+      BatchedBackwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaBwdOGradDotOKernel::MakeKargs(
+          param.out_ptr,
+          param.grad_out_ptr,
+          param.dot_out_ptr,
+          param.M,
+          param.Kv,
+          param.grad_out_strides[1], // stride_do
+          param.out_strides[1], // stride_o
+          param.out_strides[2], // nhead_stride_do
+          param.out_strides[2], // nhead_stride_o
+          param.lsed_strides[1], // nhead_stride_d
+          param.out_strides[0], // batch_stride_do
+          param.out_strides[0], // batch_stride_o
+          param.lsed_strides[0]); // batch_stride_d
+    }();
+
+    dim3 kGridSize =
+        FmhaBwdOGradDotOKernel::GridSize(param.B, param.Hq, param.M);
+    constexpr dim3 kBlockSize = FmhaBwdOGradDotOKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdOGradDotOKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaBwdOGradDotOKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  }
+
+  template <typename FmhaBwdKernel>
+  static void RunWithBwdKernel(
+      BatchedBackwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaBwdKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_ptr,
+          param.grad_out_ptr,
+          param.dot_out_ptr,
+          param.grad_q_ptr,
+          param.grad_k_ptr,
+          param.grad_v_ptr,
+          param.grad_bias_ptr,
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          param.Hq, // nhead_q
+          param.Hkv, // nhead_v
+          param.Hq / param.Hkv,
+          param.scale,
+          param.q_strides[1], // q, k, v, bias, do, o, dk, dv, dbias seq-dim
+                              // stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          param.grad_out_strides[1],
+          param.grad_k_strides[1],
+          param.grad_v_strides[1],
+          param.attn_bias_strides[2], // assume grad_bias has same strides as
+                                      // bias
+          param.q_strides[2], // q, k, v, bias, do, o, lse/dot, dbias
+                              // nhead-dim strides
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          param.grad_out_strides[2],
+          param.lsed_strides[1],
+          param.attn_bias_strides[1], // assume grad_bias has same strides as
+                                      // bias
+          param.q_strides[0], // q, k, v, bias, do, o, lse/dot, dk, dv, dbias,
+                              // batch-dim strides
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          param.grad_out_strides[0],
+          param.lsed_strides[0], // lse/dot is in BHM contiguous layout
+          param.grad_k_strides[0],
+          param.grad_v_strides[0],
+          param.attn_bias_strides[0], // assume grad_bias has same strides as
+                                      // bias
+          static_cast<CausalMaskType>(param.custom_mask_type),
+          param.window_size);
+    }();
+
+    dim3 kGridSize = FmhaBwdKernel::GridSize(param.B, param.Hq, param.N);
+    constexpr dim3 kBlockSize = FmhaBwdKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaBwdKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  }
+};
+
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t MaxK>
+void run_batched_backward_causalmask_attnbias_dispatched(
+    BatchedBackwardParams& param,
+    hipStream_t stream) {
+  batched_backward_causalmask_attnbias_dispatched<
+      scalar_t,
+      has_causal_mask,
+      has_attn_bias,
+      MaxK>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
new file mode 100644
index 0000000000..bbcbe87846
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
@@ -0,0 +1,63 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_batched_backward.h"
+#include "ck_tiled_headdim_switch.h"
+
+// clang-format off
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+// clang-format on
+
+void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+      if (param.custom_mask_type == 0)
+        run_batched_backward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            false,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_batched_backward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            true,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
+    });
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
new file mode 100644
index 0000000000..35df8c293d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -0,0 +1,63 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_batched_backward.h"
+#include "ck_tiled_headdim_switch.h"
+
+// clang-format off
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+// clang-format on
+
+void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+      if (param.custom_mask_type == 0)
+        run_batched_backward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            false,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_batched_backward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            true,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
+    });
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 61cdcd1243..617ebd7627 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -23,7 +23,6 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
-#include "ck_tiled_headdim_switch.h"
 
 #include "ck_tiled_fmha_definitions.hpp"
 #include "ck_tiled_fmha_forward_kernel.hpp"
@@ -36,7 +35,7 @@ template <
     bool has_attn_bias,
     ck::index_t MaxK>
 struct batched_forward_causalmask_attnbias_dispatched {
-  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+  using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
       typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
       typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
@@ -64,111 +63,118 @@ struct batched_forward_causalmask_attnbias_dispatched {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-      using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+      using FmhaFwdTilePartitioner_ = FmhaFwdTilePartitioner<FmhaFwdShape_>;
       constexpr ck::index_t occupancy =
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
-      bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-      bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
-      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+      const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
+      const bool pad_seqlen_k = !(param.N % FmhaFwdShape_::kN0 == 0);
+      const bool pad_headdim_q =
+          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
       if constexpr (MaxK == 256) {
         BOOL_SWITCH_4(
+            has_dropout,
+            kHasDropout,
             pad_seqlen_q,
             kPadSeqLenQ,
             pad_seqlen_k,
             kPadSeqLenK,
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
+            pad_headdim,
+            kPadHeadDim,
             [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
+                  kPadHeadDim, // kPadHeadDimQ
+                  kPadHeadDim, // kPadHeadDimV
                   has_attn_bias,
                   true, // kStoreLSE
-                  false, // kHadDropout, to be changed
+                  kHasDropout,
                   occupancy>;
 
               using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
-              using FmhaPipeline =
+              using FmhaFwdPipeline_ =
                   ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
-              using FmhaKernel = FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
 
-              RunWithKernel<FmhaKernel>(param, stream);
+              using FmhaFwdKernel_ = FmhaFwdKernel<
+                  FmhaFwdTilePartitioner_,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
             });
       } else {
         BOOL_SWITCH_4(
+            has_dropout,
+            kHasDropout,
             pad_seqlen_q,
             kPadSeqLenQ,
             pad_seqlen_k,
             kPadSeqLenK,
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
+            pad_headdim,
+            kPadHeadDim,
             [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
+                  kPadHeadDim, // kPadHeadDimQ
+                  kPadHeadDim, // kPadHeadDimV
                   has_attn_bias,
                   true, // kStoreLSE
-                  false, // kHadDropout, to be changed
+                  kHasDropout,
                   occupancy>;
 
               using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
               constexpr bool no_any_padding =
-                  !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
+                  !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDim);
 
               if constexpr (no_any_padding) {
-                using FmhaPipeline =
+                using FmhaFwdPipeline_ =
                     ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
                         FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
+                using FmhaFwdKernel_ = FmhaFwdKernel<
+                    FmhaFwdTilePartitioner_,
+                    FmhaFwdPipeline_,
+                    FmhaFwdEpilogue_>;
 
-                RunWithKernel<FmhaKernel>(param, stream);
+                RunWithKernel<FmhaFwdKernel_>(param, stream);
               } else {
-                using FmhaPipeline =
+                using FmhaFwdPipeline_ =
                     ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                         FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
+                using FmhaFwdKernel_ = FmhaFwdKernel<
+                    FmhaFwdTilePartitioner_,
+                    FmhaFwdPipeline_,
+                    FmhaFwdEpilogue_>;
 
-                RunWithKernel<FmhaKernel>(param, stream);
+                RunWithKernel<FmhaFwdKernel_>(param, stream);
               };
             });
       };
     });
   };
 
-  template <typename FmhaKernel>
+  template <typename FmhaFwdKernel>
   static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaKernel::MakeKargs(
+      return FmhaFwdKernel::MakeKargs(
           param.q_ptr,
           param.k_ptr,
           param.v_ptr,
@@ -196,7 +202,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
           param.v_strides[2],
           param.attn_bias_strides[1],
           0, // nhead_randval
-          param.M, // nhead_stride_lse
+          param.lse_strides[1], // nhead_stride_lse
           param.out_strides[2],
           param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
                               // batch-dim stride
@@ -204,7 +210,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
           param.v_strides[0],
           param.attn_bias_strides[0],
           0, // batch_stride_randval
-          param.Hq * param.M, // batch_stride_lse
+          param.lse_strides[0], // batch_stride_lse
           param.out_strides[0],
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
@@ -215,13 +221,14 @@ struct batched_forward_causalmask_attnbias_dispatched {
           {param.philox_seed, param.philox_offset});
     }();
 
-    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
-    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+    dim3 kGridSize =
+        FmhaFwdKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
-        FmhaKernel{},
+        FmhaFwdKernel{},
         kGridSize,
         kBlockSize,
         0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
index 8d90c7cd51..774e2974cf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -10,6 +10,7 @@
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_forward.h"
+#include "ck_tiled_headdim_switch.h"
 
 // clang-format off
 extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 3e65849715..4e194c3e79 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -10,6 +10,7 @@
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_forward.h"
+#include "ck_tiled_headdim_switch.h"
 
 // clang-format off
 extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
new file mode 100644
index 0000000000..1d004dc8a9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -0,0 +1,139 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+
+template <typename DataType>
+struct FmhaBwdTypeConfig;
+
+template <>
+struct FmhaBwdTypeConfig<ck::half_t> {
+  using QDataType = ck::half_t;
+  using KDataType = ck::half_t;
+  using VDataType = ck::half_t;
+  using GemmDataType = ck::half_t;
+  using BiasDataType = ck::half_t;
+  using RandValOutputDataType = unsigned short;
+  using LSEDataType = float;
+  using AccDataType = float; // data type for gemm accumulation
+  using DDataType = float;
+  using ODataType = ck::half_t;
+  using OGradDataType = ck::half_t;
+  using QGradDataType = ck::half_t;
+  using KGradDataType = ck::half_t;
+  using VGradDataType = ck::half_t;
+  using BiasGradDataType = ck::half_t;
+};
+
+template <>
+struct FmhaBwdTypeConfig<ck::bhalf_t> {
+  using QDataType = ck::bhalf_t;
+  using KDataType = ck::bhalf_t;
+  using VDataType = ck::bhalf_t;
+  using GemmDataType = ck::bhalf_t;
+  using BiasDataType = ck::bhalf_t;
+  using RandValOutputDataType = unsigned short;
+  using LSEDataType = float;
+  using AccDataType = float; // data type for gemm accumulation
+  using DDataType = float;
+  using ODataType = ck::bhalf_t;
+  using OGradDataType = ck::bhalf_t;
+  using QGradDataType = ck::bhalf_t;
+  using KGradDataType = ck::bhalf_t;
+  using VGradDataType = ck::bhalf_t;
+  using BiasGradDataType = ck::bhalf_t;
+};
+
+template <ck::index_t MaxK>
+struct FmhaBwdLoadStrategy;
+
+template <>
+struct FmhaBwdLoadStrategy<32> {
+  using type = ck::Sequence<true, false, true, false, true, true, false>;
+};
+
+template <>
+struct FmhaBwdLoadStrategy<64> {
+  using type = ck::Sequence<false, false, true, true, true, false, false>;
+};
+
+template <>
+struct FmhaBwdLoadStrategy<128> {
+  using type = ck::Sequence<false, false, true, false, true, false, false>;
+};
+
+template <ck::index_t MaxK>
+struct FmhaBwdBlockTile;
+
+template <>
+struct FmhaBwdBlockTile<32> {
+  using type = ck::Sequence<128, 128, 32, 32, 32, 32, 32, 32, 32>;
+};
+
+template <>
+struct FmhaBwdBlockTile<64> {
+  using type = ck::Sequence<64, 128, 32, 32, 32, 32, 32, 64, 64>;
+};
+
+template <>
+struct FmhaBwdBlockTile<128> {
+  using type = ck::Sequence<64, 128, 32, 32, 32, 32, 32, 128, 128>;
+};
+
+using FmhaBwdBlockWarps0 = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
+using FmhaBwdBlockWarps1 = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
+using FmhaBwdBlockWarps2 = ck::Sequence<2, 2, 1>; // default for gemm4
+using FmhaBwdWarpTile = ck::Sequence<32, 32, 16>;
+
+template <ck::index_t MaxK>
+struct FmhaBwdShape;
+
+template <>
+struct FmhaBwdShape<32> : ck::tile_program::TileFmhaBwdShape<
+                              typename FmhaBwdBlockTile<32>::type,
+                              typename FmhaBwdLoadStrategy<32>::type,
+                              FmhaBwdBlockWarps0,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps1,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps0,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps1,
+                              FmhaBwdWarpTile,
+                              ck::Sequence<4, 1, 1>,
+                              FmhaBwdWarpTile> {};
+
+template <>
+struct FmhaBwdShape<64> : ck::tile_program::TileFmhaBwdShape<
+                              typename FmhaBwdBlockTile<64>::type,
+                              typename FmhaBwdLoadStrategy<64>::type,
+                              FmhaBwdBlockWarps0,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps1,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps0,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps1,
+                              FmhaBwdWarpTile,
+                              FmhaBwdBlockWarps2,
+                              FmhaBwdWarpTile> {};
+
+template <>
+struct FmhaBwdShape<128> : ck::tile_program::TileFmhaBwdShape<
+                               typename FmhaBwdBlockTile<128>::type,
+                               typename FmhaBwdLoadStrategy<128>::type,
+                               FmhaBwdBlockWarps0,
+                               FmhaBwdWarpTile,
+                               FmhaBwdBlockWarps1,
+                               FmhaBwdWarpTile,
+                               FmhaBwdBlockWarps0,
+                               FmhaBwdWarpTile,
+                               FmhaBwdBlockWarps1,
+                               FmhaBwdWarpTile,
+                               FmhaBwdBlockWarps2,
+                               FmhaBwdWarpTile> {};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
new file mode 100644
index 0000000000..7fab9f2c8d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -0,0 +1,268 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/host_utility/device_prop.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+#include <ck/tensor/tensor_view.hpp>
+#include <ck/tensor_description/cluster_descriptor.hpp>
+#include <ck/tensor_description/tensor_descriptor_helper.hpp>
+#include <ck/utility/common_header.hpp>
+
+#include <ck/tile_program/block_tile/block_masking.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dot_do_o.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_dispatcher.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_problem.hpp>
+#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_bwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+
+#include "ck_tiled_fmha_backward_kernel.hpp"
+#include "ck_tiled_fmha_bwd_epilogue.hpp"
+#include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
+#include "ck_tiled_fmha_definitions.hpp"
+
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t MaxK>
+struct grouped_backward_causalmask_attnbias_dispatched {
+  using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
+      typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
+      typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
+      typename FmhaBwdTypeConfig<scalar_t>::VGradDataType>>;
+
+  using FmhaBwdLoadStrategy_ = typename FmhaBwdLoadStrategy<MaxK>::type;
+
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaBwdPipelineProblemTemp =
+      ck::tile_program::block::BlockFmhaBwdPipelineProblem<
+          typename FmhaBwdTypeConfig<scalar_t>::QDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::KDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::VDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::GemmDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::LSEDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::DDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::ODataType,
+          typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::QGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::VGradDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::BiasGradDataType,
+          FmhaBwdShape<MaxK>,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaTraits>;
+
+  static void Run(GroupedBackwardParams& param, hipStream_t stream) {
+    {
+      constexpr ck::index_t kBlockSize = 256;
+      bool pad_seqlen_q = !(param.M % kBlockSize == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            constexpr ck::index_t occupancy = 2;
+
+            using FmhaOGradDotOTraits_ =
+                ck::tile_program::TileFmhaBwdOGradDotOTraits<
+                    kPadSeqLenQ,
+                    kPadHeadDimV,
+                    occupancy>;
+
+            using FmhaBwdOGradDotOPipelineProblem =
+                ck::tile_program::block::BlockFmhaBwdOGradDotOPipelineProblem<
+                    typename FmhaBwdTypeConfig<scalar_t>::ODataType,
+                    typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
+                    typename FmhaBwdTypeConfig<scalar_t>::DDataType,
+                    kBlockSize,
+                    FmhaBwdShape<MaxK>::kVHeaddim,
+                    true, // kIsGroupMode
+                    FmhaOGradDotOTraits_>;
+
+            using FmhaBwdOGradDotOPipeline_ =
+                typename ck::tile_program::block::BlockFmhaBwdOGradDotO<
+                    FmhaBwdOGradDotOPipelineProblem>;
+
+            using FmhaBwdOGradDotOKernel_ = FmhaBwdOGradDotOKernel<
+                FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
+                FmhaBwdOGradDotOPipeline_>;
+
+            RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
+          });
+    };
+
+    {
+      const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+        constexpr ck::index_t occupancy = 1;
+        constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+        const bool has_dropout = (param.dropout_prob > 0.0f);
+
+        using FmhaMask = ck::tile_program::block::
+            GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+
+        using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
+        using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
+
+        constexpr bool kPadSeqLenQ = true;
+        constexpr bool kPadSeqLenK = true;
+
+        // const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kK2 == 0);
+
+        // currently headdim padding is not supported due to some atomic_add
+        // issue with bhalf_t
+        constexpr bool kPadHeadDimQ = false;
+
+        BOOL_SWITCH_2(
+            has_dropout, kHasDropout, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  has_attn_bias,
+                  false, // kStoreLSE
+                  kHasDropout,
+                  occupancy>;
+
+              using FmhaBwdPipelineProblem =
+                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+              using FmhaBwdPipeline_ = typename ck::tile_program::block::
+                  BlockFmhaBwdPipelineDispatcher<
+                      FmhaBwdLoadStrategy_,
+                      FmhaBwdPipelineProblem>::BlockPipeline;
+
+              using FmhaBwdKernel_ = FmhaBwdKernel<
+                  FmhaBwdTilePartitioner_,
+                  FmhaBwdPipeline_,
+                  FmhaBwdEpilogue_>;
+
+              RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
+            });
+      });
+    };
+  }
+
+  template <typename FmhaBwdOGradDotOKernel>
+  static void RunWithBwdOGradDotOKernel(
+      GroupedBackwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaBwdOGradDotOKernel::MakeKargs(
+          param.out_ptr,
+          param.grad_out_ptr,
+          param.dot_out_ptr,
+          param.seqstart_q_dev_ptr,
+          param.Kv,
+          param.grad_out_strides[0], // stride_do
+          param.out_strides[0], // stride_o
+          param.grad_out_strides[1], // nhead_stride_do
+          param.out_strides[1], // nhead_stride_o
+          param.lsed_strides[1]);
+    }();
+
+    dim3 kGridSize = FmhaBwdOGradDotOKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q);
+    constexpr dim3 kBlockSize = FmhaBwdOGradDotOKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdOGradDotOKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaBwdOGradDotOKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  }
+
+  template <typename FmhaBwdKernel>
+  static void RunWithBwdKernel(
+      GroupedBackwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaBwdKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_ptr,
+          param.grad_out_ptr,
+          param.dot_out_ptr,
+          param.grad_q_ptr,
+          param.grad_k_ptr,
+          param.grad_v_ptr,
+          param.grad_bias_ptr,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.Hq, // nhead_q
+          param.Hkv, // nhead_v
+          param.Hq / param.Hkv,
+          param.scale,
+          param.q_strides[0], // q, k, v, bias, do, o, dk, dv, dbias seq-dim
+                              // stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[1],
+          param.grad_out_strides[0],
+          param.grad_k_strides[0],
+          param.grad_v_strides[0],
+          param.attn_bias_strides[1], // assume grad_bias has same strides as
+                                      // bias
+          param.q_strides[1], // q, k, v, bias, do, o, lse/dot, dbias
+                              // nhead-dim strides
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[0],
+          param.grad_out_strides[1],
+          param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
+          param.attn_bias_strides[0], // assume grad_bias has same strides as
+                                      // bias
+          static_cast<CausalMaskType>(param.custom_mask_type),
+          param.window_size);
+    }();
+
+    dim3 kGridSize = FmhaBwdKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_k);
+    constexpr dim3 kBlockSize = FmhaBwdKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdKernel::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaBwdKernel{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  }
+};
+
+template <
+    typename scalar_t,
+    bool has_causal_mask,
+    bool has_attn_bias,
+    ck::index_t MaxK>
+void run_grouped_backward_causalmask_attnbias_dispatched(
+    GroupedBackwardParams& param,
+    hipStream_t stream) {
+  grouped_backward_causalmask_attnbias_dispatched<
+      scalar_t,
+      has_causal_mask,
+      has_attn_bias,
+      MaxK>::Run(param, stream);
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
new file mode 100644
index 0000000000..0553bbcb1c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
@@ -0,0 +1,63 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_grouped_backward.h"
+#include "ck_tiled_headdim_switch.h"
+
+// clang-format off
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+// clang-format on
+
+void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+      if (param.custom_mask_type == 0)
+        run_grouped_backward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            false,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_grouped_backward_causalmask_attnbias_dispatched<
+            ck::bhalf_t,
+            true,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
+    });
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
new file mode 100644
index 0000000000..e4522de892
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -0,0 +1,63 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <stdexcept>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_grouped_backward.h"
+#include "ck_tiled_headdim_switch.h"
+
+// clang-format off
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+// clang-format on
+
+void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
+  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+      if (param.custom_mask_type == 0)
+        run_grouped_backward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            false,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+        run_grouped_backward_causalmask_attnbias_dispatched<
+            ck::half_t,
+            true,
+            HAS_ATTN_BIAS,
+            MaxK>(param, stream);
+      else
+        throw std::runtime_error("Invalid custom_mask_type value");
+    });
+  });
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 78ed74316f..548cd013df 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -22,7 +22,6 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
-#include "ck_tiled_headdim_switch.h"
 
 #include "ck_tiled_fmha_definitions.hpp"
 #include "ck_tiled_fmha_forward_kernel.hpp"
@@ -35,7 +34,7 @@ template <
     bool has_attn_bias,
     ck::index_t MaxK>
 struct grouped_forward_causalmask_attnbias_dispatched {
-  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+  using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
       typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
       typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
 
@@ -63,81 +62,96 @@ struct grouped_forward_causalmask_attnbias_dispatched {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
 
-      using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
+      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+      using FmhaFwdTilePartitioner_ = FmhaFwdTilePartitioner<FmhaFwdShape_>;
       constexpr ck::index_t occupancy =
           (MaxK == 64) ? 3 : (MaxK == 256) ? 1 : 2;
 
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
 
-      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+      const bool pad_headdim_q =
+          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
 
       if constexpr (MaxK == 256) {
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+        BOOL_SWITCH_3(
+            has_dropout,
+            kHasDropout,
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
                   kPadHeadDimQ,
                   kPadHeadDimV,
                   has_attn_bias,
                   true, // kStoreLSE
-                  false, // kHadDropout, to be changed
+                  kHasDropout,
                   occupancy>;
 
               using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
-              using FmhaPipeline =
+              using FmhaFwdPipeline_ =
                   ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
-              using FmhaKernel = FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
 
-              RunWithKernel<FmhaKernel>(param, stream);
+              using FmhaFwdKernel_ = FmhaFwdKernel<
+                  FmhaFwdTilePartitioner_,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
             });
       } else {
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+        BOOL_SWITCH_3(
+            has_dropout,
+            kHasDropout,
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            [&] {
+              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
                   kPadHeadDimQ,
                   kPadHeadDimV,
                   has_attn_bias,
                   true, // kStoreLSE
-                  false, // kHasDropout
+                  kHasDropout,
                   occupancy>;
 
               using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
-              using FmhaPipeline =
+              using FmhaFwdPipeline_ =
                   ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
-              using FmhaKernel = FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaFwdKernel_ = FmhaFwdKernel<
+                  FmhaFwdTilePartitioner_,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
 
-              RunWithKernel<FmhaKernel>(param, stream);
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
             });
       };
     });
   };
 
-  template <typename FmhaKernel>
+  template <typename FmhaFwdKernel>
   static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaKernel::MakeKargs(
+      return FmhaFwdKernel::MakeKargs(
           param.q_ptr,
           param.k_ptr,
           param.v_ptr,
@@ -166,7 +180,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           param.v_strides[1],
           param.attn_bias_strides[1],
           0, // nhead_stride_randval
-          param.max_seqlen_q, // nhead_stride_lse
+          param.lse_strides[1],
           param.out_strides[1],
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
@@ -177,14 +191,14 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           {param.philox_seed, param.philox_offset});
     }();
 
-    dim3 kGridSize = FmhaKernel::GridSize(
+    dim3 kGridSize = FmhaFwdKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
-    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+    constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
-        FmhaKernel{},
+        FmhaFwdKernel{},
         kGridSize,
         kBlockSize,
         0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
index b417156f53..9789cee295 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -10,6 +10,7 @@
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_forward.h"
+#include "ck_tiled_headdim_switch.h"
 
 // clang-format off
 extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index b7c278c53a..d49eaa5ccf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -10,6 +10,7 @@
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_forward.h"
+#include "ck_tiled_headdim_switch.h"
 
 // clang-format off
 extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 5d2c232ba1..7f28784872 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -28,6 +28,9 @@ struct BatchedInferParams {
   std::array<int, 4> out_strides;
   std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
 
+  // BHM mode strides, completely contiguous
+  std::array<int, 3> lse_strides;
+
   const void* q_ptr;
   const void* k_ptr;
   const void* v_ptr;
@@ -78,6 +81,9 @@ struct GroupedInferParams {
   // 4d tensor view [B, H, M, N]
   std::array<int, 4> attn_bias_strides;
 
+  // BHM mode strides, completely contiguous
+  std::array<int, 3> lse_strides;
+
   const void* q_ptr;
   const void* k_ptr;
   const void* v_ptr;
@@ -99,9 +105,6 @@ struct GroupedForwardParams : public GroupedInferParams {
 
   // completely contiguous
   void* logsumexp_ptr;
-
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
 };
 
 struct BatchedBackwardParams {
@@ -117,7 +120,6 @@ struct BatchedBackwardParams {
   bool has_attn_bias;
   bool bias_has_grad;
 
-  bool use_fp32_qkv_grad;
   bool is_mqa_gqa;
 
   // BMHK mode strides, last-dim contiguous
@@ -126,9 +128,13 @@ struct BatchedBackwardParams {
   std::array<int, 4> v_strides;
   std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
   std::array<int, 4> out_strides;
+  std::array<int, 4> grad_out_strides;
 
-  std::array<int, 4> tmp_grad_k_strides;
-  std::array<int, 4> tmp_grad_v_strides;
+  std::array<int, 4> grad_k_strides;
+  std::array<int, 4> grad_v_strides;
+
+  // BHM mode strides, completely contiguous
+  std::array<int, 3> lsed_strides;
 
   const void* q_ptr;
   const void* k_ptr;
@@ -138,6 +144,7 @@ struct BatchedBackwardParams {
   const void* out_ptr;
 
   uint8_t custom_mask_type;
+  int window_size; // local-attention
 
   void* grad_q_ptr;
   void* grad_k_ptr;
@@ -150,6 +157,7 @@ struct BatchedBackwardParams {
 
   // BHM mode lengths, completely contiguous
   const void* logsumexp_ptr;
+  void* dot_out_ptr;
 };
 
 struct GroupedBackwardParams {
@@ -162,16 +170,16 @@ struct GroupedBackwardParams {
   int Kv; // embed_dim for Value
 
   int max_seqlen_q;
+  int max_seqlen_k;
 
-  std::vector<int> host_seqstart_q;
-  std::vector<int> host_seqstart_k;
-  std::vector<int> host_seqlen_k;
+  void* seqstart_q_dev_ptr;
+  void* seqstart_k_dev_ptr;
+  void* seqlen_k_dev_ptr;
 
   float scale;
   bool has_attn_bias;
   bool bias_has_grad;
 
-  bool use_fp32_qkv_grad;
   bool is_mqa_gqa;
 
   // MHK mode strides, last-dim contiguous
@@ -179,37 +187,36 @@ struct GroupedBackwardParams {
   std::array<int, 3> k_strides;
   std::array<int, 3> v_strides;
   std::array<int, 3> out_strides;
+  std::array<int, 3> grad_out_strides;
   // 4d tensor view [B, H, M, N]
   std::array<int, 4> attn_bias_strides;
 
-  std::array<int, 3> tmp_grad_k_strides;
-  std::array<int, 3> tmp_grad_v_strides;
+  std::array<int, 3> grad_k_strides;
+  std::array<int, 3> grad_v_strides;
 
-  std::vector<const void*> q_ptrs;
-  std::vector<const void*> k_ptrs;
-  std::vector<const void*> v_ptrs;
-  std::vector<const void*> attn_bias_ptrs;
-  std::vector<const void*> grad_out_ptrs;
-  std::vector<const void*> out_ptrs;
+  // BHM mode strides, completely contiguous
+  std::array<int, 3> lsed_strides;
 
-  // used by the light_v2 kernel
-  // TODO use these as workspace
-  std::vector<void*> ydotdy_ptrs;
+  const void* q_ptr;
+  const void* k_ptr;
+  const void* v_ptr;
+  const void* attn_bias_ptr;
+  const void* grad_out_ptr;
+  const void* out_ptr;
 
   uint8_t custom_mask_type;
+  int window_size; // local-attention
 
-  std::vector<void*> grad_q_ptrs;
-  std::vector<void*> grad_k_ptrs;
-  std::vector<void*> grad_v_ptrs;
-  std::vector<void*> grad_bias_ptrs;
+  void* grad_q_ptr;
+  void* grad_k_ptr;
+  void* grad_v_ptr;
+  void* grad_bias_ptr;
 
   float dropout_prob;
   int64_t philox_seed;
   int64_t philox_offset;
 
   // BHM mode lengths, completely contiguous
-  std::vector<const void*> logsumexp_ptrs;
-
-  // TODO: need remove this after dev-op fix
-  std::vector<void*> randvals_ptrs;
+  const void* logsumexp_ptr;
+  void* dot_out_ptr;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 6de737c80a..ccc8ae0ca6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -26,3 +26,19 @@
       throw std::runtime_error("Head-dim sizes not supported!");       \
     }                                                                  \
   }()
+
+#define FMHA_BWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+  [&] {                                                                \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
+      constexpr ck::index_t CONST_NAME = 32;                           \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
+      constexpr ck::index_t CONST_NAME = 64;                           \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
+      constexpr ck::index_t CONST_NAME = 128;                          \
+      __VA_ARGS__();                                                   \
+    } else {                                                           \
+      throw std::runtime_error("Head-dim sizes not supported!");       \
+    }                                                                  \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..67c5b042f0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..7842cc14e0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..f357331c75
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..ae87f436df
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..27b50a8a61
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..c0944682c1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..3329e61b60
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..2affa3ff97
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..7b3c001fe5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..15b46c6e97
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..29cb04307e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..9c28e4a53d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..24a39ad28d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..ebf7765ac1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..03418ee58b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..315950620e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..1ddf23a3b2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..4f09b8fe11
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..89066e511f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..bc7c12971e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..d53fa0dbeb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..8d2535cfbc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..3754898df5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..991a285c96
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..343cbfcbab
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..484edc2794
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..5e1a6bba08
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..9e93e28ead
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..84d0377ed6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..7fc71497e7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..1bed5bed0a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..635e9c3905
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..af52c955f4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..495ad85806
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..a487c5db26
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..360970962f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..3547d310fc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..24aeb3aeed
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..e3e51ae4a0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..67e153ffc8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..ec7336a51a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..13a5d40eb6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..058f08c656
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..469b2d2e42
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..3675cd20ad
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
new file mode 100644
index 0000000000..0433020e08
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
new file mode 100644
index 0000000000..322c41f15e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
new file mode 100644
index 0000000000..885e757c8b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
@@ -0,0 +1,15 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);

From 28e713d03e1a49f5154f2239514909d0067bedc6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 27 Mar 2024 16:26:40 +0000
Subject: [PATCH 490/837] Update to add dropout for fmah backward

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h   | 17 +++++++++++++----
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h   | 16 ++++++++++++----
 2 files changed, 25 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 84ea5f4236..a51be2f41c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -52,8 +52,8 @@ struct batched_backward_causalmask_attnbias_dispatched {
           typename FmhaBwdTypeConfig<scalar_t>::LSEDataType,
           typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
           typename FmhaBwdTypeConfig<scalar_t>::DDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaBwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaBwdTypeConfig<scalar_t>::ODataType,
           typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
           typename FmhaBwdTypeConfig<scalar_t>::QGradDataType,
@@ -180,6 +180,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.out_ptr,
           param.grad_out_ptr,
           param.dot_out_ptr,
+          1.0f - param.dropout_prob,
           param.M,
           param.Kv,
           param.grad_out_strides[1], // stride_do
@@ -219,14 +220,16 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.logsumexp_ptr,
           param.grad_out_ptr,
           param.dot_out_ptr,
+          nullptr, // rand_val_ptr
           param.grad_q_ptr,
           param.grad_k_ptr,
           param.grad_v_ptr,
           param.grad_bias_ptr,
           param.M, // seqlen_q
           param.N, // seqlen_k
-          param.Hq, // nhead_q
-          param.Hkv, // nhead_v
+          param.K,
+          param.Kv,
+          param.Hq,
           param.Hq / param.Hkv,
           param.scale,
           param.q_strides[1], // q, k, v, bias, do, o, dk, dv, dbias seq-dim
@@ -234,6 +237,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[2],
+          0, // stride_randval
           param.grad_out_strides[1],
           param.grad_k_strides[1],
           param.grad_v_strides[1],
@@ -244,6 +248,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.k_strides[2],
           param.v_strides[2],
           param.attn_bias_strides[1],
+          0, // nhead_stride_randval
           param.grad_out_strides[2],
           param.lsed_strides[1],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
@@ -253,6 +258,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[0],
+          0, // batch_stride_randval
           param.grad_out_strides[0],
           param.lsed_strides[0], // lse/dot is in BHM contiguous layout
           param.grad_k_strides[0],
@@ -260,7 +266,10 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size);
+          param.window_size,
+          param.dropout_prob, // dropout ratio
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
     }();
 
     dim3 kGridSize = FmhaBwdKernel::GridSize(param.B, param.Hq, param.N);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 7fab9f2c8d..5220071bdc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -52,8 +52,8 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           typename FmhaBwdTypeConfig<scalar_t>::LSEDataType,
           typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
           typename FmhaBwdTypeConfig<scalar_t>::DDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaBwdTypeConfig<scalar_t>::BiasDataType,
+          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
           typename FmhaBwdTypeConfig<scalar_t>::ODataType,
           typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
           typename FmhaBwdTypeConfig<scalar_t>::QGradDataType,
@@ -167,6 +167,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.out_ptr,
           param.grad_out_ptr,
           param.dot_out_ptr,
+          1.0f - param.dropout_prob,
           param.seqstart_q_dev_ptr,
           param.Kv,
           param.grad_out_strides[0], // stride_do
@@ -203,6 +204,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.logsumexp_ptr,
           param.grad_out_ptr,
           param.dot_out_ptr,
+          nullptr, // randval_ptr
           param.grad_q_ptr,
           param.grad_k_ptr,
           param.grad_v_ptr,
@@ -210,8 +212,9 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.seqstart_q_dev_ptr,
           param.seqstart_k_dev_ptr,
           param.seqlen_k_dev_ptr,
-          param.Hq, // nhead_q
-          param.Hkv, // nhead_v
+          param.K,
+          param.Kv,
+          param.Hq,
           param.Hq / param.Hkv,
           param.scale,
           param.q_strides[0], // q, k, v, bias, do, o, dk, dv, dbias seq-dim
@@ -219,6 +222,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[1],
+          0, // stride_randval
           param.grad_out_strides[0],
           param.grad_k_strides[0],
           param.grad_v_strides[0],
@@ -229,12 +233,16 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[0],
+          0, // nhead_stride_randval
           param.grad_out_strides[1],
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size);
+          param.window_size,
+          param.dropout_prob, // dropout ratio
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
     }();
 
     dim3 kGridSize = FmhaBwdKernel::GridSize(

From 4ef7eba711f8f0f136f39d781a92cc7a88ea35bc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 27 Mar 2024 17:23:42 +0000
Subject: [PATCH 491/837] Update in attention.cpp to align
 efficient_attention_backward_ck interface parameters

---
 xformers/csrc/attention/attention.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 36a9675e72..e5998de5ba 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -48,7 +48,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, "
       " Tensor value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale) -> (Tensor, Tensor, Tensor, Tensor)"));
+      "xformers::efficient_attention_backward_ck(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, Tensor? seqstart_k, int? max_seqlen_q, int? max_seqlen_k, Tensor? seqlen_k, Tensor logsumexp, Tensor output, float dropout_p, int rng_seed, int rng_offset, int custom_mask_type, float? scale, int? window_size) -> (Tensor, Tensor, Tensor, Tensor)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::_ck_rand_uniform(float p, Tensor out) -> Tensor"));
 #endif

From 48a5f3e757b984d046d688700947664437c48b7e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 27 Mar 2024 23:58:47 +0000
Subject: [PATCH 492/837] Enable BwdOp in ck.py

---
 xformers/ops/fmha/ck.py | 35 +++++++++++++++++++++--------------
 1 file changed, 21 insertions(+), 14 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index aaca59113d..819e9d85e9 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -50,18 +50,15 @@ def _get_seqlen_info(
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         max_seqlen_q = attn_bias.q_seqinfo.max_seqlen
+        max_seqlen_k = attn_bias.k_seqinfo.max_seqlen
     else:
         seqstart_k = None
         seqstart_q = None
         max_seqlen_q = -1
+        max_seqlen_k = -1
 
-    return (
-        seqstart_k,
-        seqstart_q,
-        max_seqlen_q,
-    )
-
-
+    return seqstart_k, seqstart_q, max_seqlen_q, max_seqlen_k
+    
 def _get_tensor_bias(
     attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
 ) -> Optional[torch.Tensor]:
@@ -266,7 +263,7 @@ def apply_bmhk(
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
-        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q, _ = _get_seqlen_info(inp)
         out, lse, rng_seed, rng_offset = cls.OPERATOR(
             query=inp.query,
             key=inp.key,
@@ -327,8 +324,6 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         requires_grad = (
             d.query.requires_grad or d.key.requires_grad or d.value.requires_grad
         )
-        if requires_grad:
-            reasons.append("Gradience is currently not supported by ck-tiled!")
         return reasons
 
     @classmethod
@@ -363,7 +358,7 @@ class BwOp(AttentionBwOpBase):
     OPERATOR = get_xformers_operator("efficient_attention_backward_ck")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
-    SUPPORTED_MAX_K = FwOp.SUPPORTED_MAX_K
+    SUPPORTED_MAX_K = 128 
     SUPPORTED_ATTN_BIAS_TYPES: Set[Any] = {
         type(None),
         torch.Tensor,
@@ -387,8 +382,8 @@ class BwOp(AttentionBwOpBase):
 
     _TEST_K: List[int] = [
         32,  # 64x64 kernel
+        64, 
         128,  # 64x128/128x128 kernel
-        256,  # 64x128 with accumulation in gmem
     ]
 
     @classmethod
@@ -423,7 +418,6 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                 )
         _check_large_shapes(reasons, d)
 
-        reasons.append("Backward is currently not supported by ck-tiled!")
         return reasons
 
     @classmethod
@@ -431,7 +425,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
         if type(inp.attn_bias) not in BwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
 
-        seqstart_k, seqstart_q, max_seqlen_q = _get_seqlen_info(inp)
+        seqstart_k, seqstart_q, max_seqlen_q, max_seqlen_k = _get_seqlen_info(inp)
         dtype = inp.query.dtype
 
         rng_seed = rng_offset = 0
@@ -454,6 +448,7 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             seqstart_q=seqstart_q,
             seqstart_k=seqstart_k,
             max_seqlen_q=max_seqlen_q,
+            max_seqlen_k=max_seqlen_k,
             seqlen_k=(
                 inp.attn_bias.k_seqinfo.seqlen
                 if isinstance(
@@ -472,6 +467,18 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             rng_offset=rng_offset,
             custom_mask_type=_custom_mask_type(inp.attn_bias),
             scale=inp.scale,
+            window_size=(
+                inp.attn_bias._window_size
+                if isinstance(
+                    inp.attn_bias,
+                    (
+                        BlockDiagonalCausalLocalAttentionMask,
+                        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+                        LowerTriangularFromBottomRightLocalAttentionMask,
+                    ),
+                )
+                else None
+            ),
         )
 
         # c++/CUDA implementation returns an uninitialized tensor if bias doesn't

From 2e45012be83dcfdc54582ae8854fd9ea7b7adbbe Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 28 Mar 2024 00:01:40 +0000
Subject: [PATCH 493/837] Support grad_out to have different strides as out

---
 .../attention_backward_generic_ck_tiled.cpp        |  5 ++---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h      | 14 ++++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h      |  8 +++++---
 3 files changed, 15 insertions(+), 12 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 8f93269c65..065cd64844 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -82,12 +82,11 @@ efficient_attention_backward_ck(
   TORCH_CHECK(query.size(3) == key.size(3));
   TORCH_CHECK(value.size(3) == grad_out.size(3));
 
-  // CK-FlashAttn requires out, grad_out to have same shapes
   TORCH_CHECK(out.sizes() == grad_out.sizes());
 
   // last dim is contiguous, device is CUDA
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(out);
-  CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
+  // CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(grad_out);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
@@ -295,7 +294,7 @@ efficient_attention_backward_ck(
       if (bias_requires_grad)
         p.grad_bias_ptr = grad_bias.data_ptr();
     } else {
-      p.has_attn_bias = true;
+      p.has_attn_bias = false;
       p.attn_bias_ptr = nullptr;
       p.grad_bias_ptr = nullptr;
     }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index a51be2f41c..a104ce4c71 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -185,12 +185,13 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.Kv,
           param.grad_out_strides[1], // stride_do
           param.out_strides[1], // stride_o
-          param.out_strides[2], // nhead_stride_do
+          param.grad_out_strides[2], // nhead_stride_do
           param.out_strides[2], // nhead_stride_o
           param.lsed_strides[1], // nhead_stride_d
-          param.out_strides[0], // batch_stride_do
+          param.grad_out_strides[0], // batch_stride_do
           param.out_strides[0], // batch_stride_o
-          param.lsed_strides[0]); // batch_stride_d
+          param.lsed_strides[0], // batch_stride_d
+          param.grad_out_strides[3]); // hdim_stride_do
     }();
 
     dim3 kGridSize =
@@ -232,7 +233,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.Hq,
           param.Hq / param.Hkv,
           param.scale,
-          param.q_strides[1], // q, k, v, bias, do, o, dk, dv, dbias seq-dim
+          param.q_strides[1], // q, k, v, bias, do, dk, dv, dbias seq-dim
                               // stride
           param.k_strides[1],
           param.v_strides[1],
@@ -243,7 +244,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.grad_v_strides[1],
           param.attn_bias_strides[2], // assume grad_bias has same strides as
                                       // bias
-          param.q_strides[2], // q, k, v, bias, do, o, lse/dot, dbias
+          param.q_strides[2], // q, k, v, bias, do, lse/dot, dbias
                               // nhead-dim strides
           param.k_strides[2],
           param.v_strides[2],
@@ -253,7 +254,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.lsed_strides[1],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
                                       // bias
-          param.q_strides[0], // q, k, v, bias, do, o, lse/dot, dk, dv, dbias,
+          param.q_strides[0], // q, k, v, bias, do, lse/dot, dk, dv, dbias,
                               // batch-dim strides
           param.k_strides[0],
           param.v_strides[0],
@@ -265,6 +266,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.grad_v_strides[0],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
+          param.grad_out_strides[3], // hdim_stride_do
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
           param.dropout_prob, // dropout ratio
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 5220071bdc..9587f2d17d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -174,7 +174,8 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.out_strides[0], // stride_o
           param.grad_out_strides[1], // nhead_stride_do
           param.out_strides[1], // nhead_stride_o
-          param.lsed_strides[1]);
+          param.lsed_strides[1],
+          param.grad_out_strides[2]); // hdim_stride_do
     }();
 
     dim3 kGridSize = FmhaBwdOGradDotOKernel::GridSize(
@@ -217,7 +218,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.Hq,
           param.Hq / param.Hkv,
           param.scale,
-          param.q_strides[0], // q, k, v, bias, do, o, dk, dv, dbias seq-dim
+          param.q_strides[0], // q, k, v, bias, do, dk, dv, dbias seq-dim
                               // stride
           param.k_strides[0],
           param.v_strides[0],
@@ -228,7 +229,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.grad_v_strides[0],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
                                       // bias
-          param.q_strides[1], // q, k, v, bias, do, o, lse/dot, dbias
+          param.q_strides[1], // q, k, v, bias, do, lse/dot, dbias
                               // nhead-dim strides
           param.k_strides[1],
           param.v_strides[1],
@@ -238,6 +239,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
+          param.grad_out_strides[2], // hdim_stride_do
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
           param.dropout_prob, // dropout ratio

From 566d26ff8009bf27535fa0798763fd1fdb271087 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 29 Mar 2024 16:38:21 +0000
Subject: [PATCH 494/837] Force seqstart_q/seqstart_k to be in device memory in
 ck.py

---
 xformers/ops/fmha/ck.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 819e9d85e9..00aa1b02bf 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -47,6 +47,8 @@ def _get_seqlen_info(
     if isinstance(
         attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
     ):
+        attn_bias.k_seqinfo.to(inp.query.device)
+        attn_bias.q_seqinfo.to(inp.query.device)
         seqstart_k = attn_bias.k_seqinfo.seqstart
         seqstart_q = attn_bias.q_seqinfo.seqstart
         max_seqlen_q = attn_bias.q_seqinfo.max_seqlen

From fc6c4a678319181de4f8b7ef91747aabd22d89e8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 29 Mar 2024 16:59:28 +0000
Subject: [PATCH 495/837] Remove duplicated codes in
 ck_tiled_fmha_grouped_forward.h/infer.h

---
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 97 ++++++-------------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 76 +++++----------
 2 files changed, 54 insertions(+), 119 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 548cd013df..43c9d0cc4c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -79,72 +79,37 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
 
-      if constexpr (MaxK == 256) {
-        BOOL_SWITCH_3(
-            has_dropout,
-            kHasDropout,
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
-            [&] {
-              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  true, // kStoreLSE
-                  kHasDropout,
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-              using FmhaFwdPipeline_ =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaFwdKernel_ = FmhaFwdKernel<
-                  FmhaFwdTilePartitioner_,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            });
-      } else {
-        BOOL_SWITCH_3(
-            has_dropout,
-            kHasDropout,
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
-            [&] {
-              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  true, // kStoreLSE
-                  kHasDropout,
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-              using FmhaFwdPipeline_ =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-              using FmhaFwdKernel_ = FmhaFwdKernel<
-                  FmhaFwdTilePartitioner_,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            });
-      };
+      BOOL_SWITCH_3(
+          has_dropout,
+          kHasDropout,
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          [&] {
+            using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                has_attn_bias,
+                true, // kStoreLSE
+                kHasDropout,
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+            using FmhaFwdPipeline_ =
+                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+            using FmhaFwdKernel_ = FmhaFwdKernel<
+                FmhaFwdTilePartitioner_,
+                FmhaFwdPipeline_,
+                FmhaFwdEpilogue_>;
+
+            RunWithKernel<FmhaFwdKernel_>(param, stream);
+          });
     });
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 05975f84f5..deb2c1bd7d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -78,59 +78,29 @@ struct grouped_infer_causalmask_attnbias_dispatched {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-      if constexpr (MaxK == 256) {
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  false, // kStoreLSE
-                  false, // kHasDropout
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-              using FmhaKernel = FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            });
-      } else {
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  false, // kStoreLSE
-                  false, // kHasDropout
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-              using FmhaKernel = FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            });
-      };
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                has_attn_bias,
+                false, // kStoreLSE
+                false, // kHasDropout
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaPipeline =
+                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+            using FmhaKernel =
+                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          });
     });
   };
 

From ff0db0736ebbcfee5bec09f30ac992eacb930347 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 29 Mar 2024 22:24:51 +0000
Subject: [PATCH 496/837] Use optimized async pipeline where 8x headdim length
 is assumed

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 79 +++++++-----------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 82 +++++++------------
 2 files changed, 58 insertions(+), 103 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 617ebd7627..3a7427993b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -81,9 +81,12 @@ struct batched_forward_causalmask_attnbias_dispatched {
 
       // usually headdim_q and headdim_v are same, consider them together to
       // determine whether to do padding saving some compiling time
-      bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-      if constexpr (MaxK == 256) {
+      const bool use_async_pipeline =
+          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+
+      if (!use_async_pipeline) {
         BOOL_SWITCH_4(
             has_dropout,
             kHasDropout,
@@ -119,54 +122,30 @@ struct batched_forward_causalmask_attnbias_dispatched {
               RunWithKernel<FmhaFwdKernel_>(param, stream);
             });
       } else {
-        BOOL_SWITCH_4(
-            has_dropout,
-            kHasDropout,
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ
-                  kPadHeadDim, // kPadHeadDimV
-                  has_attn_bias,
-                  true, // kStoreLSE
-                  kHasDropout,
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-              constexpr bool no_any_padding =
-                  !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDim);
-
-              if constexpr (no_any_padding) {
-                using FmhaFwdPipeline_ =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                        FmhaPipelineProblem>;
-                using FmhaFwdKernel_ = FmhaFwdKernel<
-                    FmhaFwdTilePartitioner_,
-                    FmhaFwdPipeline_,
-                    FmhaFwdEpilogue_>;
-
-                RunWithKernel<FmhaFwdKernel_>(param, stream);
-              } else {
-                using FmhaFwdPipeline_ =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                        FmhaPipelineProblem>;
-                using FmhaFwdKernel_ = FmhaFwdKernel<
-                    FmhaFwdTilePartitioner_,
-                    FmhaFwdPipeline_,
-                    FmhaFwdEpilogue_>;
-
-                RunWithKernel<FmhaFwdKernel_>(param, stream);
-              };
-            });
+        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK, [&] {
+          using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
+              true, // kPadSeqLenQ,
+              kPadSeqLenK,
+              true, // kPadHeadDimQ
+              true, // kPadHeadDimV
+              has_attn_bias,
+              true, // kStoreLSE
+              kHasDropout,
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+          using FmhaFwdPipeline_ =
+              ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                  FmhaPipelineProblem>;
+          using FmhaFwdKernel_ = FmhaFwdKernel<
+              FmhaFwdTilePartitioner_,
+              FmhaFwdPipeline_,
+              FmhaFwdEpilogue_>;
+
+          RunWithKernel<FmhaFwdKernel_>(param, stream);
+        });
       };
     });
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 4e9286a756..bc94ce6e27 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -73,12 +73,15 @@ struct batched_infer_causalmask_attnbias_dispatched {
       constexpr ck::index_t occupancy =
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
-      bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-      bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
-      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+      const bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+      const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
-      if constexpr (MaxK == 256) {
+      const bool use_async_pipeline =
+          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+
+      if (!use_async_pipeline) {
         BOOL_SWITCH_4(
             pad_seqlen_q,
             kPadSeqLenQ,
@@ -113,54 +116,27 @@ struct batched_infer_causalmask_attnbias_dispatched {
               RunWithKernel<FmhaKernel>(param, stream);
             });
       } else {
-        BOOL_SWITCH_4(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
-            [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  false, // kStoreLSE
-                  false, // kHasDropout
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              constexpr bool no_any_padding =
-                  !(kPadSeqLenQ || kPadSeqLenK || kPadHeadDimQ || kPadHeadDimV);
-
-              if constexpr (no_any_padding) {
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                        FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              } else {
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                        FmhaPipelineProblem>;
-                using FmhaKernel = FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              };
-            });
+        BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
+          using FmhaTraits = ck::tile_program::TileFmhaTraits<
+              true, // kPadSeqLenQ,
+              kPadSeqLenK,
+              true, // kPadHeadDimQ,
+              true, // kPadHeadDimV,
+              has_attn_bias,
+              false, // kStoreLSE
+              false, // kHasDropout
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+              FmhaPipelineProblem>;
+          using FmhaKernel =
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        });
       };
     });
   };

From 0f4a1712422686ccf57536f927b9fa2d4f0629ee Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 30 Mar 2024 13:35:56 +0000
Subject: [PATCH 497/837] Fix in batched_infer

---
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index bc94ce6e27..294e044833 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -130,7 +130,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-          using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+          using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
               FmhaPipelineProblem>;
           using FmhaKernel =
               FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;

From 0d6b915822b7cbf080c38d52eae9164398a7ff8d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 1 Apr 2024 15:39:59 +0000
Subject: [PATCH 498/837] Update to track ck_tile/opt_padding_fa_train_xformers
 branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 7b6cfaab85..8d80ded0bc 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel-internal.git
-	branch = ck_tile/dev
+	branch = ck_tile/opt_padding_fa_train_xformers
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 0e533488da..b9cb68ea5f 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 0e533488daa13cceb4c61dfa150aad9fd895fa63
+Subproject commit b9cb68ea5f7a0869a6c6be86723f2fe44d35568d

From df435593343d2d0ef99ee2a1b26abf67b04c2d86 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Apr 2024 09:25:34 -0700
Subject: [PATCH 499/837] Update rocm_ci.yml

configuring the self-hosted runner
---
 .github/workflows/rocm_ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index f2593d53af..03f3d3d876 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -7,7 +7,7 @@ on:
 jobs:
   build:
     if: contains(github.event.label.name, 'rocm')
-    runs-on: rocm
+    runs-on: self-hosted
 
     steps:
     - uses: actions/checkout@v2

From 47135760eb1017bc05c18552594b60a5f0af40ff Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 1 Apr 2024 16:43:59 +0000
Subject: [PATCH 500/837] Update to use the newer FmhaFwdEpilogue

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 17 ++++++++++----
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 23 ++++++++++++++-----
 3 files changed, 31 insertions(+), 11 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index b9cb68ea5f..ea5cc2b6f7 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit b9cb68ea5f7a0869a6c6be86723f2fe44d35568d
+Subproject commit ea5cc2b6f7225ca25b970d21463f5dfc7b561c0e
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 3a7427993b..60d18440ff 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -35,10 +35,6 @@ template <
     bool has_attn_bias,
     ck::index_t MaxK>
 struct batched_forward_causalmask_attnbias_dispatched {
-  using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -114,6 +110,12 @@ struct batched_forward_causalmask_attnbias_dispatched {
                   ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
 
+              using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                  typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                  typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDim>>;
+
               using FmhaFwdKernel_ = FmhaFwdKernel<
                   FmhaFwdTilePartitioner_,
                   FmhaFwdPipeline_,
@@ -139,6 +141,13 @@ struct batched_forward_causalmask_attnbias_dispatched {
           using FmhaFwdPipeline_ =
               ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
                   FmhaPipelineProblem>;
+
+          using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+              typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+              typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+              true,
+              true>>;
+
           using FmhaFwdKernel_ = FmhaFwdKernel<
               FmhaFwdTilePartitioner_,
               FmhaFwdPipeline_,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 294e044833..edb132db12 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -36,10 +36,6 @@ template <
     bool has_attn_bias,
     ck::index_t MaxK>
 struct batched_infer_causalmask_attnbias_dispatched {
-  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -108,6 +104,13 @@ struct batched_infer_causalmask_attnbias_dispatched {
               using FmhaPipeline =
                   ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                       FmhaPipelineProblem>;
+
+              using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                  typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                  typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
               using FmhaKernel = FmhaFwdKernel<
                   FmhaTilePartitioner,
                   FmhaPipeline,
@@ -130,8 +133,16 @@ struct batched_infer_causalmask_attnbias_dispatched {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-          using FmhaPipeline = ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-              FmhaPipelineProblem>;
+          using FmhaPipeline =
+              ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                  FmhaPipelineProblem>;
+
+          using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+              typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+              typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+              true,
+              true>>;
+
           using FmhaKernel =
               FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 

From a745c45f134a8b73355711a7c2eef18655edb100 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Apr 2024 10:08:05 -0700
Subject: [PATCH 501/837] Update rocm_ci.yml

add option to manually trigger workflow
---
 .github/workflows/rocm_ci.yml | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 03f3d3d876..894c36a8da 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -3,6 +3,12 @@ name: ROCM_CI
 on: 
   pull_request:
     types: [labeled, synchronize, reopened]
+  workflow_dispatch:
+    inputs:
+      logLevel:
+        description: 'Log level'     
+        required: true
+        default: 'warning'
 
 jobs:
   build:

From 95d0260a3a353d7ec5cd7aff4e6391307d05aad4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Apr 2024 10:27:00 -0700
Subject: [PATCH 502/837] Update rocm_ci.yml

remove condition which skips ci unless github event contains string 'rocm'
---
 .github/workflows/rocm_ci.yml | 1 -
 1 file changed, 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 894c36a8da..eb5d406c79 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -12,7 +12,6 @@ on:
 
 jobs:
   build:
-    if: contains(github.event.label.name, 'rocm')
     runs-on: self-hosted
 
     steps:

From 4069efe3252a15af9b875e037dc8ef4e34cbe234 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Apr 2024 21:14:41 +0000
Subject: [PATCH 503/837] copy rocm_ci workflow from main branch

---
 .github/workflows/rocm_ci.yml | 24 +++++++++++++++---------
 1 file changed, 15 insertions(+), 9 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index eb5d406c79..5a883e8c81 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -13,9 +13,16 @@ on:
 jobs:
   build:
     runs-on: self-hosted
-
+    container:
+      image: 'rocm/pytorch-nightly:latest'
+      options: ' --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G '
     steps:
-    - uses: actions/checkout@v2
+    - uses: actions/checkout@v4
+      with:
+        path: '_xformers'
+        submodules: 'recursive'
+        set-safe-directory: true
+        fetch-depth: 0
     - name: Get CPU info on Ubuntu
       if: contains(runner.os, 'linux')
       run: |
@@ -47,28 +54,27 @@ jobs:
         rocm-smi
         rocminfo | grep "gfx"
 
+        python3 -VV
+
     - name: Build XFormers
       run: |
-        git clone --recursive -b $GIT_BRANCH $GITHUB_REPOSITORY
-        docker run -it --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G -v $PWD/xformers:/xformers  rocm/pytorch-nightly:latest
-
         pip3 install --upgrade pip
         pip3 uninstall -y xformers
-        MAX_JOBS=$MAX_JOBS pip3 install -e /xformers --verbose
+        MAX_JOBS=$MAX_JOBS pip3 install -e ./_xformers --verbose
         pip3 install scipy==1.10
 
-        python3 -c "import torch; print(torch.__version__)"
+        python3 -c "import torch; print(f'PyTorch version {torch.__version__}')"
         python3 -m xformers.info
 
     - name: Run python tests
       run: |
-        pytest -rpfs /xformers/tests/test_mem_eff_attention.py | tee test_mem_eff_attention.log
+        pytest -rpfs ./_xformers/tests/test_mem_eff_attention.py | tee test_mem_eff_attention.log
     
     - name: Archive logs
       uses: actions/upload-artifact@v3
       with:
         name: test results
-        path: test_mem_eff_attention_ck.log
+        path: test_mem_eff_attention.log
 
     - name: Process test results
       run: |

From 724354cc70f557eb37fa268adce0b8743735aef5 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Apr 2024 15:45:27 -0700
Subject: [PATCH 504/837] Update rocm_ci.yml

Bump upload-artifact version
---
 .github/workflows/rocm_ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 5a883e8c81..8e39657774 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -71,7 +71,7 @@ jobs:
         pytest -rpfs ./_xformers/tests/test_mem_eff_attention.py | tee test_mem_eff_attention.log
     
     - name: Archive logs
-      uses: actions/upload-artifact@v3
+      uses: actions/upload-artifact@v4
       with:
         name: test results
         path: test_mem_eff_attention.log

From b1a1009e95481835e25295c470e6763752ccab5a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 2 Apr 2024 00:00:24 +0000
Subject: [PATCH 505/837] Update to use the newer FmhaFwdEpilogue for grouped
 infer/forward

---
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h          | 11 +++++++----
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer.h  | 11 +++++++----
 2 files changed, 14 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 43c9d0cc4c..37e9210c97 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -34,10 +34,6 @@ template <
     bool has_attn_bias,
     ck::index_t MaxK>
 struct grouped_forward_causalmask_attnbias_dispatched {
-  using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -103,6 +99,13 @@ struct grouped_forward_causalmask_attnbias_dispatched {
             using FmhaFwdPipeline_ =
                 ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                     FmhaPipelineProblem>;
+
+            using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                kPadSeqLenQ,
+                kPadHeadDimV>>;
+
             using FmhaFwdKernel_ = FmhaFwdKernel<
                 FmhaFwdTilePartitioner_,
                 FmhaFwdPipeline_,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index deb2c1bd7d..7c09e26593 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -35,10 +35,6 @@ template <
     bool has_attn_bias,
     ck::index_t MaxK>
 struct grouped_infer_causalmask_attnbias_dispatched {
-  using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-      typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-      typename FmhaFwdTypeConfig<scalar_t>::ODataType>>;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -96,6 +92,13 @@ struct grouped_infer_causalmask_attnbias_dispatched {
             using FmhaPipeline =
                 ck::tile_program::block::BlockFmhaPipelineQRKSVS<
                     FmhaPipelineProblem>;
+
+            using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                kPadSeqLenQ,
+                kPadHeadDimV>>;
+
             using FmhaKernel =
                 FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 

From 97e4e20d5ee30f02774bf27c2f998e05583f491c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 3 Apr 2024 18:41:58 +0000
Subject: [PATCH 506/837] Temporarily disable the using of QRKSVSAsync()
 pipeline

---
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 147 +++++++++---------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 145 ++++++++---------
 3 files changed, 147 insertions(+), 147 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index ea5cc2b6f7..bf1fa3c9fe 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit ea5cc2b6f7225ca25b970d21463f5dfc7b561c0e
+Subproject commit bf1fa3c9feb9bf196f27308c76a855adc47fc5e2
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 60d18440ff..1ee6178ffa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -82,80 +82,79 @@ struct batched_forward_causalmask_attnbias_dispatched {
       const bool use_async_pipeline =
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
-      if (!use_async_pipeline) {
-        BOOL_SWITCH_4(
-            has_dropout,
-            kHasDropout,
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ
-                  kPadHeadDim, // kPadHeadDimV
-                  has_attn_bias,
-                  true, // kStoreLSE
-                  kHasDropout,
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-              using FmhaFwdPipeline_ =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                  typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                  typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-                  kPadSeqLenQ,
-                  kPadHeadDim>>;
-
-              using FmhaFwdKernel_ = FmhaFwdKernel<
-                  FmhaFwdTilePartitioner_,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            });
-      } else {
-        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK, [&] {
-          using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
-              true, // kPadSeqLenQ,
-              kPadSeqLenK,
-              true, // kPadHeadDimQ
-              true, // kPadHeadDimV
-              has_attn_bias,
-              true, // kStoreLSE
-              kHasDropout,
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-          using FmhaFwdPipeline_ =
-              ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                  FmhaPipelineProblem>;
-
-          using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-              typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-              typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-              true,
-              true>>;
-
-          using FmhaFwdKernel_ = FmhaFwdKernel<
-              FmhaFwdTilePartitioner_,
-              FmhaFwdPipeline_,
-              FmhaFwdEpilogue_>;
-
-          RunWithKernel<FmhaFwdKernel_>(param, stream);
-        });
-      };
+      /*      if (!use_async_pipeline) { */
+      BOOL_SWITCH_4(
+          has_dropout,
+          kHasDropout,
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim,
+          kPadHeadDim,
+          [&] {
+            using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ
+                kPadHeadDim, // kPadHeadDimV
+                has_attn_bias,
+                true, // kStoreLSE
+                kHasDropout,
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+            using FmhaFwdPipeline_ =
+                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+            using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                kPadSeqLenQ,
+                kPadHeadDim>>;
+
+            using FmhaFwdKernel_ = FmhaFwdKernel<
+                FmhaFwdTilePartitioner_,
+                FmhaFwdPipeline_,
+                FmhaFwdEpilogue_>;
+
+            RunWithKernel<FmhaFwdKernel_>(param, stream);
+          });
+      /*
+            } else {
+              BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK,
+         [&] { using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits< true, //
+         kPadSeqLenQ, kPadSeqLenK, true, // kPadHeadDimQ true, // kPadHeadDimV
+                    has_attn_bias,
+                    true, // kStoreLSE
+                    kHasDropout,
+                    occupancy>;
+
+                using FmhaPipelineProblem =
+                    FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+                using FmhaFwdPipeline_ =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                        FmhaPipelineProblem>;
+
+                using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                    typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                    typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                    true,
+                    true>>;
+
+                using FmhaFwdKernel_ = FmhaFwdKernel<
+                    FmhaFwdTilePartitioner_,
+                    FmhaFwdPipeline_,
+                    FmhaFwdEpilogue_>;
+
+                RunWithKernel<FmhaFwdKernel_>(param, stream);
+              });
+            };
+      */
     });
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index edb132db12..840cd349d5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -77,78 +77,79 @@ struct batched_infer_causalmask_attnbias_dispatched {
       const bool use_async_pipeline =
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
-      if (!use_async_pipeline) {
-        BOOL_SWITCH_4(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
-            [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  false, // kStoreLSE
-                  false, // kHasDropout
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                  typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                  typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-                  kPadSeqLenQ,
-                  kPadHeadDimV>>;
-
-              using FmhaKernel = FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            });
-      } else {
-        BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-          using FmhaTraits = ck::tile_program::TileFmhaTraits<
-              true, // kPadSeqLenQ,
-              kPadSeqLenK,
-              true, // kPadHeadDimQ,
-              true, // kPadHeadDimV,
-              has_attn_bias,
-              false, // kStoreLSE
-              false, // kHasDropout
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-          using FmhaPipeline =
-              ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                  FmhaPipelineProblem>;
-
-          using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-              typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-              typename FmhaFwdTypeConfig<scalar_t>::ODataType,
-              true,
-              true>>;
-
-          using FmhaKernel =
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        });
-      };
+      /*     if (!use_async_pipeline) { */
+      BOOL_SWITCH_4(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          [&] {
+            using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                has_attn_bias,
+                false, // kStoreLSE
+                false, // kHasDropout
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaPipeline =
+                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+            using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                kPadSeqLenQ,
+                kPadHeadDimV>>;
+
+            using FmhaKernel =
+                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          });
+      /*
+            } else {
+              BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
+                using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                    true, // kPadSeqLenQ,
+                    kPadSeqLenK,
+                    true, // kPadHeadDimQ,
+                    true, // kPadHeadDimV,
+                    has_attn_bias,
+                    false, // kStoreLSE
+                    false, // kHasDropout
+                    occupancy>;
+
+                using FmhaPipelineProblem =
+                    FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+                using FmhaPipeline =
+                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                    typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
+                    typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                    true,
+                    true>>;
+
+                using FmhaKernel =
+                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline,
+         FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              });
+            };
+      */
     });
   };
 

From e98877add282d8bc410a34936ee0027f6b418f6f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Apr 2024 15:19:46 -0700
Subject: [PATCH 507/837] Update rocm_ci.yml

add a daily run
---
 .github/workflows/rocm_ci.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 8e39657774..fc6946a9c6 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -9,6 +9,8 @@ on:
         description: 'Log level'     
         required: true
         default: 'warning'
+  schedule:
+    - cron: "15 1 * * *"
 
 jobs:
   build:

From 6fbd05ddd4f277a4722b76280d46256cd49c7ab3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 3 Apr 2024 23:45:43 +0000
Subject: [PATCH 508/837] Implement the ck_rand_uniform interface for
 generating random number tensor

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/attention_ck_rand_uniform.cpp    | 99 +++++++++++++++++++
 2 files changed, 100 insertions(+), 1 deletion(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index bf1fa3c9fe..132bd39f02 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit bf1fa3c9feb9bf196f27308c76a855adc47fc5e2
+Subproject commit 132bd39f02b7f5a04f9619c7dfd28efe9931971c
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
new file mode 100644
index 0000000000..3933b6c5e6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -0,0 +1,99 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ * All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ATen/ATen.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <c10/core/TensorOptions.h>
+#include <torch/library.h>
+#include <torch/types.h>
+#include <ATen/cuda/CUDAGraphsUtils.cuh>
+
+#include <ck/ck.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
+
+#include "ck_tiled_fmha_rand_uniform_kernel.hpp"
+
+namespace {
+
+/**
+ * generate a tensor with random uniform values. only used for testing, not much
+ * attention is paid to performance
+ */
+at::Tensor rand_uniform_int(
+    double dropout_prob,
+    const at::Tensor& out_pattern) // [Batches, num_head, query_len, key_len]
+{
+  int B = out_pattern.size(0);
+  int num_heads = out_pattern.size(1);
+  int M = out_pattern.size(2);
+  int N = out_pattern.size(3);
+
+  // at::cuda::CUDAGuard device_guard(out_pattern.device());
+  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+
+  at::CUDAGeneratorImpl* gen =
+      at::get_generator_or_default<at::CUDAGeneratorImpl>(
+          c10::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
+
+  at::PhiloxCudaState rng_engine_inputs;
+  {
+    std::lock_guard<std::mutex> lock(gen->mutex_);
+    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+  }
+
+  const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
+
+  int64_t philox_seed = std::get<0>(seeds);
+  int64_t philox_offset = std::get<1>(seeds);
+
+  at::Tensor randvals;
+
+  randvals = at::empty(
+      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
+
+  {
+    using FmhaRandUniformKernel_ =
+        FmhaRandUniformKernel<128, 64, 32, int32_t, false>;
+
+    const auto kargs = FmhaRandUniformKernel_::MakeKargs(
+        randvals.data_ptr(),
+        M,
+        N,
+        num_heads,
+        B,
+        static_cast<int>(randvals.stride(2)),
+        static_cast<int>(randvals.stride(3)),
+        static_cast<int>(randvals.stride(1)),
+        static_cast<int>(randvals.stride(0)),
+        {philox_seed, philox_offset});
+
+    dim3 kGridSize = FmhaRandUniformKernel_::GridSize(B, num_heads, M, N);
+    constexpr dim3 kBlockSize = FmhaRandUniformKernel_::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaRandUniformKernel_::kBlockPerCu;
+
+    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
+        StreamConfig{stream, false},
+        FmhaRandUniformKernel_{},
+        kGridSize,
+        kBlockSize,
+        0,
+        kargs);
+  }
+
+  (void)hipStreamSynchronize(stream);
+
+  return randvals;
+} // namespace
+
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::_ck_rand_uniform"),
+      TORCH_FN(rand_uniform_int));
+}

From 2ef3b3fb45314b9533546ca7491f45f0978e21ee Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 7 Apr 2024 14:11:13 +0000
Subject: [PATCH 509/837] Add dropout to the infer path (needed by xformers
 test_dropout)

---
 .../attention_forward_generic_ck_tiled.cpp    | 12 +++------
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 25 +++++++++++--------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 15 ++++++++---
 .../attention/hip_fmha/ck_tiled_fmha_params.h |  1 -
 xformers/ops/fmha/ck.py                       |  2 +-
 7 files changed, 33 insertions(+), 26 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 88e195c2d7..48d37357b0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -201,13 +201,12 @@ efficient_attention_forward_ck(
     p.window_size =
         window_size.has_value() ? (*window_size > 0 ? *window_size : 0) : 0;
 
-    p.use_dropout = use_dropout;
     p.philox_seed = philox_seed;
     p.philox_offset = philox_offset;
     p.compute_logsumexp = compute_logsumexp;
 
     // the following parameters are only used by training forward
-    if (p.use_dropout) {
+    if (use_dropout) {
       p.dropout_prob = static_cast<float>(dropout_p);
     } else
       p.dropout_prob = 0.0f;
@@ -335,13 +334,12 @@ efficient_attention_forward_ck(
     } else
       p.seqlen_k_dev_ptr = nullptr;
 
-    p.use_dropout = use_dropout;
     p.philox_seed = philox_seed;
     p.philox_offset = philox_offset;
     p.compute_logsumexp = compute_logsumexp;
 
     // the following parameters are only used by training forward
-    if (p.use_dropout) {
+    if (use_dropout) {
       p.dropout_prob = static_cast<float>(dropout_p);
     } else
       p.dropout_prob = 0.0f;
@@ -367,8 +365,7 @@ efficient_attention_forward_ck(
 
     set_batched_forward_params(batched_forward_params);
 
-    if (!batched_forward_params.use_dropout &&
-        !batched_forward_params.compute_logsumexp) {
+    if (!batched_forward_params.compute_logsumexp) {
       if (inDataType == at::ScalarType::Half) {
         batched_infer_fp16(batched_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
@@ -388,8 +385,7 @@ efficient_attention_forward_ck(
 
     set_grouped_forward_params(grouped_forward_params);
 
-    if (!grouped_forward_params.use_dropout &&
-        !grouped_forward_params.compute_logsumexp) {
+    if (!grouped_forward_params.compute_logsumexp) {
       if (inDataType == at::ScalarType::Half) {
         grouped_infer_fp16(grouped_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 1ee6178ffa..251ee9fbf7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -203,7 +203,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
           param.window_size,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
-          param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+          param.dropout_prob, // dropout ratio
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 840cd349d5..6e448fd3f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -60,6 +60,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
@@ -74,28 +75,32 @@ struct batched_infer_causalmask_attnbias_dispatched {
       const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
       const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
       const bool use_async_pipeline =
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
       /*     if (!use_async_pipeline) { */
       BOOL_SWITCH_4(
+          has_dropout,
+          kHasDropout,
           pad_seqlen_q,
           kPadSeqLenQ,
           pad_seqlen_k,
           kPadSeqLenK,
-          pad_headdim_q,
-          kPadHeadDimQ,
-          pad_headdim_v,
-          kPadHeadDimV,
+          pad_headdim,
+          kPadHeadDim,
           [&] {
             using FmhaTraits = ck::tile_program::TileFmhaTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
-                kPadHeadDimQ,
-                kPadHeadDimV,
+                kPadHeadDim, // kPadHeadDimQ,
+                kPadHeadDim, // kPadHeadDimV,
                 has_attn_bias,
                 false, // kStoreLSE
-                false, // kHasDropout
+                kHasDropout,
                 occupancy>;
 
             using FmhaPipelineProblem =
@@ -109,7 +114,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                 typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
                 typename FmhaFwdTypeConfig<scalar_t>::ODataType,
                 kPadSeqLenQ,
-                kPadHeadDimV>>;
+                kPadHeadDim>>;
 
             using FmhaKernel =
                 FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
@@ -126,7 +131,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                     true, // kPadHeadDimV,
                     has_attn_bias,
                     false, // kStoreLSE
-                    false, // kHasDropout
+                    kHasDropout,
                     occupancy>;
 
                 using FmhaPipelineProblem =
@@ -198,7 +203,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
           param.window_size,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
-          0.0f, // p_dropout
+          param.dropout_prob, // dropout ratio
           false, // is_store_randval
           {0, 0});
     }();
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 37e9210c97..897b1f2b68 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -154,7 +154,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           param.window_size,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
-          param.use_dropout ? param.dropout_prob : 0.0f, // dropout ratio
+          param.dropout_prob,
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 7c09e26593..87a87d1348 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -59,6 +59,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask = ck::tile_program::block::
           GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
@@ -74,8 +75,14 @@ struct grouped_infer_causalmask_attnbias_dispatched {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-      BOOL_SWITCH_2(
-          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+      BOOL_SWITCH_3(
+          has_dropout,
+          kHasDropout,
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          [&] {
             using FmhaTraits = ck::tile_program::TileFmhaTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
@@ -83,7 +90,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                 kPadHeadDimV,
                 has_attn_bias,
                 false, // kStoreLSE
-                false, // kHasDropout
+                kHasDropout,
                 occupancy>;
 
             using FmhaPipelineProblem =
@@ -145,7 +152,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           param.window_size,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
-          0.0f, // p_dropout
+          param.dropout_prob,
           false, // is_store_randval
           {0, 0});
     }();
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 7f28784872..e97db1e86d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -43,7 +43,6 @@ struct BatchedInferParams {
 };
 
 struct BatchedForwardParams : public BatchedInferParams {
-  bool use_dropout;
   bool compute_logsumexp;
 
   float dropout_prob;
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 00aa1b02bf..acc06f4386 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -172,7 +172,7 @@ class FwOp(AttentionFwOpBase):
         BlockDiagonalCausalLocalAttentionFromBottomRightMask,
     }
 
-    SUPPORTS_DROPOUT = False
+    SUPPORTS_DROPOUT = True
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
     SUPPORTS_BMGHK = True

From 930bb257453f083e1fd63f491aed50bb95f5b5a3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 8 Apr 2024 14:24:46 +0000
Subject: [PATCH 510/837] Update to support test_dropout and
 test_dropout_backward tests

---
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  5 ++--
 xformers/ops/fmha/dispatch.py                 | 24 ++++++++++++-------
 2 files changed, 18 insertions(+), 11 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index 3933b6c5e6..2f55d425ab 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -54,11 +54,12 @@ at::Tensor rand_uniform_int(
   at::Tensor randvals;
 
   randvals = at::empty(
-      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Int));
+      {B, num_heads, M, N}, out_pattern.options().dtype(at::ScalarType::Byte));
 
   {
+    // only work for batched mode
     using FmhaRandUniformKernel_ =
-        FmhaRandUniformKernel<128, 64, 32, int32_t, false>;
+        FmhaRandUniformKernel<128, 64, 32, uint8_t, false>;
 
     const auto kargs = FmhaRandUniformKernel_::MakeKargs(
         randvals.data_ptr(),
diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 5bd343eb79..b657083956 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -134,15 +134,21 @@ def _is_cutlassB_faster_than_flash(inp: Inputs) -> bool:
 
 
 def _dispatch_bw(inp: Inputs) -> Type[AttentionBwOpBase]:
-    priority_list_ops: List[Type[AttentionBwOpBase]] = [
-        flash.BwOp,
-        cutlass.BwOp,
-        # CUDA illegal memory issues, race conditions etc..
-        # triton.BwOp,
-        # Deprecated
-        small_k.BwOp,
-    ]
-    if _is_cutlassB_faster_than_flash(inp):
+    if torch.version.cuda:
+        priority_list_ops: List[Type[AttentionBwOpBase]] = [
+            flash.BwOp,
+            cutlass.BwOp,
+            # CUDA illegal memory issues, race conditions etc..
+            # triton.BwOp,
+            # Deprecated
+            small_k.BwOp,
+        ]
+    else:
+        priority_list_ops = [
+                ck.BwOp,
+            ]
+
+    if torch.version.cuda and _is_cutlassB_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.BwOp)
         priority_list_ops.insert(0, cutlass.BwOp)
     return _run_priority_list(

From bdbc956c91d3380c870b284758e4ef6aac1b2098 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 9 Apr 2024 18:44:52 +0000
Subject: [PATCH 511/837] Update the padding method in batched_backward.h

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h    | 16 ++++++----------
 1 file changed, 6 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index a104ce4c71..85f1abb80f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -121,16 +121,12 @@ struct batched_backward_causalmask_attnbias_dispatched {
 
         const bool pad_seqlen_q = !(param.M % FmhaBwdShape_::kM0 == 0);
         const bool pad_seqlen_k = !(param.N % FmhaBwdShape_::kN0 == 0);
-        // const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
+        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kK2 == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time
-        // bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-        // currently headdim padding is not supported due to some atomic_add
-        // issue with bhalf_t
-        constexpr bool kPadHeadDimQ = false;
+        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         BOOL_SWITCH_4(
             has_dropout,
@@ -139,14 +135,14 @@ struct batched_backward_causalmask_attnbias_dispatched {
             kPadSeqLenQ,
             pad_seqlen_k,
             kPadSeqLenK,
-            pad_headdim_v,
-            kPadHeadDimV,
+            pad_headdim,
+            kPadHeadDim,
             [&] {
               using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
                   has_attn_bias,
                   false, // kStoreLSE
                   kHasDropout,

From 44fff2984277696cbc402eb7bd77549bb5fa0788 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 9 Apr 2024 19:06:27 +0000
Subject: [PATCH 512/837] Update the OGradDotO kernel padding method

---
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 63 +++++++++----------
 1 file changed, 31 insertions(+), 32 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 9587f2d17d..7100fbe136 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -120,40 +120,39 @@ struct grouped_backward_causalmask_attnbias_dispatched {
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
 
-        // const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
+        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kK2 == 0);
 
-        // currently headdim padding is not supported due to some atomic_add
-        // issue with bhalf_t
-        constexpr bool kPadHeadDimQ = false;
-
-        BOOL_SWITCH_2(
-            has_dropout, kHasDropout, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  has_attn_bias,
-                  false, // kStoreLSE
-                  kHasDropout,
-                  occupancy>;
-
-              using FmhaBwdPipelineProblem =
-                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
-
-              using FmhaBwdPipeline_ = typename ck::tile_program::block::
-                  BlockFmhaBwdPipelineDispatcher<
-                      FmhaBwdLoadStrategy_,
-                      FmhaBwdPipelineProblem>::BlockPipeline;
-
-              using FmhaBwdKernel_ = FmhaBwdKernel<
-                  FmhaBwdTilePartitioner_,
-                  FmhaBwdPipeline_,
-                  FmhaBwdEpilogue_>;
-
-              RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
-            });
+        // usually headdim_q and headdim_v are same, consider them together
+        // to determine whether to do padding saving some compiling time
+        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_headdim, kPadHeadDim, [&] {
+          using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDim, // kPadHeadDimQ,
+              kPadHeadDim, // kPadHeadDimV,
+              has_attn_bias,
+              false, // kStoreLSE
+              kHasDropout,
+              occupancy>;
+
+          using FmhaBwdPipelineProblem =
+              FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+          using FmhaBwdPipeline_ =
+              typename ck::tile_program::block::BlockFmhaBwdPipelineDispatcher<
+                  FmhaBwdLoadStrategy_,
+                  FmhaBwdPipelineProblem>::BlockPipeline;
+
+          using FmhaBwdKernel_ = FmhaBwdKernel<
+              FmhaBwdTilePartitioner_,
+              FmhaBwdPipeline_,
+              FmhaBwdEpilogue_>;
+
+          RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
+        });
       });
     };
   }

From d5c2d88e04f5b188962299913175e53958a0d68f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 9 Apr 2024 21:28:46 +0000
Subject: [PATCH 513/837] Change the backward padding checking condition

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h  | 4 ++--
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h  | 4 ++--
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 85f1abb80f..5b871628fe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -121,8 +121,8 @@ struct batched_backward_causalmask_attnbias_dispatched {
 
         const bool pad_seqlen_q = !(param.M % FmhaBwdShape_::kM0 == 0);
         const bool pad_seqlen_k = !(param.N % FmhaBwdShape_::kN0 == 0);
-        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kK2 == 0);
+        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kQKHeaddim == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kVHeaddim == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 7100fbe136..2e7f73cef0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -120,8 +120,8 @@ struct grouped_backward_causalmask_attnbias_dispatched {
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
 
-        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kK0 == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kK2 == 0);
+        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kQKHeaddim == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kVHeaddim == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time

From ce9c23c8c030f3de7927af9e93cdf49bd8ae2457 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Apr 2024 15:00:05 +0000
Subject: [PATCH 514/837] Add batch_stride_lse/d parameters to adapt grouped
 mode forward/backward to [num_batches, H, MaxSeqlenQ] layout

---
 third_party/composable_kernel_tiled                             | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h    | 2 ++
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h     | 1 +
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h  | 1 +
 4 files changed, 5 insertions(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 132bd39f02..6bb26d084d 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 132bd39f02b7f5a04f9619c7dfd28efe9931971c
+Subproject commit 6bb26d084d4201531797c7b79f7ece723687352d
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 2e7f73cef0..c444404856 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -174,6 +174,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.grad_out_strides[1], // nhead_stride_do
           param.out_strides[1], // nhead_stride_o
           param.lsed_strides[1],
+          param.lsed_strides[0], // batch_stride_d
           param.grad_out_strides[2]); // hdim_stride_do
     }();
 
@@ -238,6 +239,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
+          param.lsed_strides[0], // batch_stride_lse
           param.grad_out_strides[2], // hdim_stride_do
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 897b1f2b68..d50e184310 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -150,6 +150,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           0, // nhead_stride_randval
           param.lse_strides[1],
           param.out_strides[1],
+          param.lse_strides[0], // batch_stride_lse
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
           1.0f, // descale_qk, not used
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 87a87d1348..b710d464c1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -148,6 +148,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           0, // nhead_stride_randval
           0, // nhead_stride_lse
           param.out_strides[1],
+          0, // batch_stride_lse
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
           1.0f, // descale_qk, not used

From dafea78de208f74a23523adaaf5b16c96047fb40 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 10 Apr 2024 16:42:09 +0000
Subject: [PATCH 515/837] Fill the grad_bias in advance

---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp        | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 065cd64844..ac4bceeef6 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -173,9 +173,13 @@ efficient_attention_backward_ck(
 
   // even it is an output, the grad_bias is required to use the same data-type
   // as bias in CK-FlashAttn
-  if (bias_requires_grad)
+  if (bias_requires_grad) {
     grad_bias =
         at::empty_strided(bias->sizes(), bias->strides(), bias->options());
+    // cleaning is needed since masked tile does no outputting in our
+    // implementation
+    grad_bias.fill_(0);
+  }
 
   bool is_mqa_gqa = (Hq > Hkv);
 

From 06ad68975b073bbbb36e641468b549b4c4e00ebc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 11 Apr 2024 07:41:26 +0000
Subject: [PATCH 516/837] Add support for kHasBiasGrad as instance template

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h |  4 +
 .../ck_tiled_fmha_batched_backward_bp16.cpp   | 83 ++++++++++++-------
 .../ck_tiled_fmha_batched_backward_fp16.cpp   | 83 ++++++++++++-------
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  1 +
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  1 +
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h |  4 +
 .../ck_tiled_fmha_grouped_backward_bp16.cpp   | 83 ++++++++++++-------
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   | 83 ++++++++++++-------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  1 +
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  1 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 ...6_with_causalmask_no_attnbias_maxk_128.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_32.cpp |  1 +
 ...16_with_causalmask_no_attnbias_maxk_64.cpp |  1 +
 ...ask_with_attnbias_no_biasgrad_maxk_128.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_32.cpp | 16 ++++
 ...mask_with_attnbias_no_biasgrad_maxk_64.cpp | 16 ++++
 ..._with_attnbias_with_biasgrad_maxk_128.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_32.cpp} |  1 +
 ...k_with_attnbias_with_biasgrad_maxk_64.cpp} |  1 +
 83 files changed, 657 insertions(+), 121 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp => ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp => ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp} (97%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp => ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp} (97%)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 6bb26d084d..617dd51bb8 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 6bb26d084d4201531797c7b79f7ece723687352d
+Subproject commit 617dd51bb8f85488e9c73c498cd6fc7b6b002b42
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 5b871628fe..688acc70b1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -33,6 +33,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
+    bool has_bias_grad,
     ck::index_t MaxK>
 struct batched_backward_causalmask_attnbias_dispatched {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
@@ -144,6 +145,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
                   kPadHeadDim, // kPadHeadDimQ,
                   kPadHeadDim, // kPadHeadDimV,
                   has_attn_bias,
+                  has_bias_grad,
                   false, // kStoreLSE
                   kHasDropout,
                   occupancy>;
@@ -288,6 +290,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
+    bool has_bias_grad,
     ck::index_t MaxK>
 void run_batched_backward_causalmask_attnbias_dispatched(
     BatchedBackwardParams& param,
@@ -296,5 +299,6 @@ void run_batched_backward_causalmask_attnbias_dispatched(
       scalar_t,
       has_causal_mask,
       has_attn_bias,
+      has_bias_grad,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
index bbcbe87846..f82fdc0614 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
@@ -13,51 +13,74 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_batched_backward_causalmask_attnbias_dispatched<
-            ck::bhalf_t,
-            false,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_backward_causalmask_attnbias_dispatched<
-            ck::bhalf_t,
-            true,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else
-        throw std::runtime_error("Invalid custom_mask_type value");
-    });
-  });
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.bias_has_grad,
+      HAS_BIAS_GRAD,
+      [&] {
+        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+          FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+            if (param.custom_mask_type == 0)
+              run_batched_backward_causalmask_attnbias_dispatched<
+                  ck::bhalf_t,
+                  false,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+              run_batched_backward_causalmask_attnbias_dispatched<
+                  ck::bhalf_t,
+                  true,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else
+              throw std::runtime_error("Invalid custom_mask_type value");
+          });
+        } else
+          throw std::runtime_error(
+              "bias_has_grad should be false when has_attn_bias is false!");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index 35df8c293d..f8395acdb4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -13,51 +13,74 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 32>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_batched_backward_causalmask_attnbias_dispatched<
-            ck::half_t,
-            false,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_backward_causalmask_attnbias_dispatched<
-            ck::half_t,
-            true,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else
-        throw std::runtime_error("Invalid custom_mask_type value");
-    });
-  });
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.bias_has_grad,
+      HAS_BIAS_GRAD,
+      [&] {
+        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+          FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+            if (param.custom_mask_type == 0)
+              run_batched_backward_causalmask_attnbias_dispatched<
+                  ck::half_t,
+                  false,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+              run_batched_backward_causalmask_attnbias_dispatched<
+                  ck::half_t,
+                  true,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else
+              throw std::runtime_error("Invalid custom_mask_type value");
+          });
+        } else
+          throw std::runtime_error(
+              "bias_has_grad should be false when has_attn_bias is false!");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 251ee9fbf7..6a0ef0a43c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -99,6 +99,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
                 kPadHeadDim, // kPadHeadDimQ
                 kPadHeadDim, // kPadHeadDimV
                 has_attn_bias,
+                false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
                 kHasDropout,
                 occupancy>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 6e448fd3f5..107f2628ee 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -99,6 +99,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                 kPadHeadDim, // kPadHeadDimQ,
                 kPadHeadDim, // kPadHeadDimV,
                 has_attn_bias,
+                false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
                 kHasDropout,
                 occupancy>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index c444404856..2780530382 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -33,6 +33,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
+    bool has_bias_grad,
     ck::index_t MaxK>
 struct grouped_backward_causalmask_attnbias_dispatched {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
@@ -134,6 +135,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
               kPadHeadDim, // kPadHeadDimQ,
               kPadHeadDim, // kPadHeadDimV,
               has_attn_bias,
+              has_bias_grad,
               false, // kStoreLSE
               kHasDropout,
               occupancy>;
@@ -267,6 +269,7 @@ template <
     typename scalar_t,
     bool has_causal_mask,
     bool has_attn_bias,
+    bool has_bias_grad,
     ck::index_t MaxK>
 void run_grouped_backward_causalmask_attnbias_dispatched(
     GroupedBackwardParams& param,
@@ -275,5 +278,6 @@ void run_grouped_backward_causalmask_attnbias_dispatched(
       scalar_t,
       has_causal_mask,
       has_attn_bias,
+      has_bias_grad,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
index 0553bbcb1c..10337fcd26 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
@@ -13,51 +13,74 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_grouped_backward_causalmask_attnbias_dispatched<
-            ck::bhalf_t,
-            false,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_backward_causalmask_attnbias_dispatched<
-            ck::bhalf_t,
-            true,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else
-        throw std::runtime_error("Invalid custom_mask_type value");
-    });
-  });
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.bias_has_grad,
+      HAS_BIAS_GRAD,
+      [&] {
+        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+          FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+            if (param.custom_mask_type == 0)
+              run_grouped_backward_causalmask_attnbias_dispatched<
+                  ck::bhalf_t,
+                  false,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+              run_grouped_backward_causalmask_attnbias_dispatched<
+                  ck::bhalf_t,
+                  true,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else
+              throw std::runtime_error("Invalid custom_mask_type value");
+          });
+        } else
+          throw std::runtime_error(
+              "bias_has_grad should be false when has_attn_bias is false!");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index e4522de892..ef2e0bb8b6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -13,51 +13,74 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 32>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
-    FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_grouped_backward_causalmask_attnbias_dispatched<
-            ck::half_t,
-            false,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_backward_causalmask_attnbias_dispatched<
-            ck::half_t,
-            true,
-            HAS_ATTN_BIAS,
-            MaxK>(param, stream);
-      else
-        throw std::runtime_error("Invalid custom_mask_type value");
-    });
-  });
+  BOOL_SWITCH_2(
+      param.has_attn_bias,
+      HAS_ATTN_BIAS,
+      param.bias_has_grad,
+      HAS_BIAS_GRAD,
+      [&] {
+        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+          FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
+            if (param.custom_mask_type == 0)
+              run_grouped_backward_causalmask_attnbias_dispatched<
+                  ck::half_t,
+                  false,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
+              run_grouped_backward_causalmask_attnbias_dispatched<
+                  ck::half_t,
+                  true,
+                  HAS_ATTN_BIAS,
+                  HAS_BIAS_GRAD,
+                  MaxK>(param, stream);
+            else
+              throw std::runtime_error("Invalid custom_mask_type value");
+          });
+        } else
+          throw std::runtime_error(
+              "bias_has_grad should be false when has_attn_bias is false!");
+      });
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index d50e184310..360c9c9c19 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -89,6 +89,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
                 kPadHeadDimQ,
                 kPadHeadDimV,
                 has_attn_bias,
+                false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
                 kHasDropout,
                 occupancy>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index b710d464c1..347f0de161 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -89,6 +89,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                 kPadHeadDimQ,
                 kPadHeadDimV,
                 has_attn_bias,
+                false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
                 kHasDropout,
                 occupancy>;
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index 67c5b042f0..fd19dba04c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index 7842cc14e0..2abde7a138 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index f357331c75..392e0df610 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..2dc4036ab7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..b634ec861b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..572667e05e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index ae87f436df..410a001339 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     true,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index 27b50a8a61..0eb83776e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     true,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index c0944682c1..30a9d3e062 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     true,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
index 3329e61b60..390c057a2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
index 2affa3ff97..6d9e8db05b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
index 7b3c001fe5..f37923f726 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..4154b0e51e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..c6ef4a6ad9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..5ea0440a96
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 15b46c6e97..23dcdbd742 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     true,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index 29cb04307e..cea2dc49fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     true,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 9c28e4a53d..ebf213e77c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     true,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index 24a39ad28d..ad1018234f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index ebf7765ac1..ed71783b84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index 03418ee58b..35bb6ac5f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..0d8369353d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..043d4357cc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..48013f08d6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 315950620e..d6e30d22a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     true,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index 1ddf23a3b2..f465739245 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     true,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 4f09b8fe11..fc79740383 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     true,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
index 89066e511f..b2b0d96f99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
index bc7c12971e..4b63b34e4d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
index d53fa0dbeb..c7e2c84b34 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..b611084db4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..a0156e2c41
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..2685736f4f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 8d2535cfbc..3d03144e19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     true,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index 3754898df5..130922e0d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     true,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 991a285c96..974fe17520 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_batched_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     true,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index 343cbfcbab..7e92e2be57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index 484edc2794..27e119c5c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index 5e1a6bba08..b2149eafbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..a703e7b1b0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..a57d05f374
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..4dd74235e8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 9e93e28ead..9ab625aed0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     true,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index 84d0377ed6..a8a3c66fd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     true,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 7fc71497e7..29ec584404 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     false,
     true,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
index 1bed5bed0a..26146e7b95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
index 635e9c3905..eec45177f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
index af52c955f4..f55ada6a47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..1b045b39bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..68bb20d864
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..6fab84344d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::bhalf_t,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 495ad85806..ccf93c6eb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     true,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index a487c5db26..571012ebac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     true,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 360970962f..7f4c7a6c01 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::bhalf_t,
     true,
     true,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index 3547d310fc..1a59b5a0a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index 24aeb3aeed..7689feaac8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index e3e51ae4a0..89b2ab4758 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..e25e0c7553
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..18e9ea80d2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..23e7cd1e53
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    false,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 67e153ffc8..2904aa8866 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     true,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index ec7336a51a..75680aad1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     true,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 13a5d40eb6..d7625e4dc8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     false,
     true,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
index 058f08c656..3b0cd4b766 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
index 469b2d2e42..e3055cffe8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
index 3675cd20ad..1d2ae1a98a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
new file mode 100644
index 0000000000..a082bcb807
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
new file mode 100644
index 0000000000..59165bbe81
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
new file mode 100644
index 0000000000..cbf262e7a7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_attnbias_dispatched<
+    ck::half_t,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
index 0433020e08..d32f76ef39 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     true,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
index 322c41f15e..b3cf3fa5c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     true,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
similarity index 97%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
index 885e757c8b..6b6fe13835 100644
--- a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
@@ -12,4 +12,5 @@ template void run_grouped_backward_causalmask_attnbias_dispatched<
     ck::half_t,
     true,
     true,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);

From bdd6291a1bc316fc82d2c41449577d122ce135ec Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 11 Apr 2024 15:00:48 +0000
Subject: [PATCH 517/837] Remove using hdim_stride_do in fmha backward

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h  | 4 +---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h  | 4 +---
 2 files changed, 2 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 688acc70b1..9f2fcf8b10 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -188,8 +188,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.lsed_strides[1], // nhead_stride_d
           param.grad_out_strides[0], // batch_stride_do
           param.out_strides[0], // batch_stride_o
-          param.lsed_strides[0], // batch_stride_d
-          param.grad_out_strides[3]); // hdim_stride_do
+          param.lsed_strides[0]); // batch_stride_d
     }();
 
     dim3 kGridSize =
@@ -264,7 +263,6 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.grad_v_strides[0],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
-          param.grad_out_strides[3], // hdim_stride_do
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
           param.dropout_prob, // dropout ratio
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 2780530382..31ed265fa2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -176,8 +176,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.grad_out_strides[1], // nhead_stride_do
           param.out_strides[1], // nhead_stride_o
           param.lsed_strides[1],
-          param.lsed_strides[0], // batch_stride_d
-          param.grad_out_strides[2]); // hdim_stride_do
+          param.lsed_strides[0]); // batch_stride_d
     }();
 
     dim3 kGridSize = FmhaBwdOGradDotOKernel::GridSize(
@@ -242,7 +241,6 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           param.lsed_strides[0], // batch_stride_lse
-          param.grad_out_strides[2], // hdim_stride_do
           static_cast<CausalMaskType>(param.custom_mask_type),
           param.window_size,
           param.dropout_prob, // dropout ratio

From 410f814a35fdf37c6ea3b185cb99c76dd1e495a8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 11 Apr 2024 16:18:55 +0000
Subject: [PATCH 518/837] Force kPadSeqLenQ/kPadSeqLenK to be true in
 batched-backward to save compiling time

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 68 ++++++++-----------
 2 files changed, 31 insertions(+), 39 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 617dd51bb8..de0f8161bf 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 617dd51bb8f85488e9c73c498cd6fc7b6b002b42
+Subproject commit de0f8161bf7533f650dbbd47be941a1ffff53e76
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 9f2fcf8b10..b7c40de7fc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -120,8 +120,9 @@ struct batched_backward_causalmask_attnbias_dispatched {
         using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
         using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
 
-        const bool pad_seqlen_q = !(param.M % FmhaBwdShape_::kM0 == 0);
-        const bool pad_seqlen_k = !(param.N % FmhaBwdShape_::kN0 == 0);
+        constexpr bool kPadSeqLenQ = true;
+        constexpr bool kPadSeqLenK = true;
+
         const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kQKHeaddim == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kVHeaddim == 0);
 
@@ -129,42 +130,33 @@ struct batched_backward_causalmask_attnbias_dispatched {
         // to determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-        BOOL_SWITCH_4(
-            has_dropout,
-            kHasDropout,
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  has_attn_bias,
-                  has_bias_grad,
-                  false, // kStoreLSE
-                  kHasDropout,
-                  occupancy>;
-
-              using FmhaBwdPipelineProblem =
-                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
-
-              using FmhaBwdPipeline_ = typename ck::tile_program::block::
-                  BlockFmhaBwdPipelineDispatcher<
-                      FmhaBwdLoadStrategy_,
-                      FmhaBwdPipelineProblem>::BlockPipeline;
-
-              using FmhaBwdKernel_ = FmhaBwdKernel<
-                  FmhaBwdTilePartitioner_,
-                  FmhaBwdPipeline_,
-                  FmhaBwdEpilogue_>;
-
-              RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
-            });
+        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_headdim, kPadHeadDim, [&] {
+          using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDim, // kPadHeadDimQ,
+              kPadHeadDim, // kPadHeadDimV,
+              has_attn_bias,
+              has_bias_grad,
+              false, // kStoreLSE
+              kHasDropout,
+              occupancy>;
+
+          using FmhaBwdPipelineProblem =
+              FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+          using FmhaBwdPipeline_ =
+              typename ck::tile_program::block::BlockFmhaBwdPipelineDispatcher<
+                  FmhaBwdLoadStrategy_,
+                  FmhaBwdPipelineProblem>::BlockPipeline;
+
+          using FmhaBwdKernel_ = FmhaBwdKernel<
+              FmhaBwdTilePartitioner_,
+              FmhaBwdPipeline_,
+              FmhaBwdEpilogue_>;
+
+          RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
+        });
       });
     };
   }

From 2712dff109043025eb1284a7c1c6236aa1e26f36 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 12 Apr 2024 23:27:37 +0000
Subject: [PATCH 519/837] Fix missing passing of {philox_seed, philox_offset}
 in inference path

---
 third_party/composable_kernel_tiled                            | 2 +-
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 2 +-
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index de0f8161bf..bb57f31fdc 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit de0f8161bf7533f650dbbd47be941a1ffff53e76
+Subproject commit bb57f31fdc290bb7bc4df6af35c736b7c00f2a3c
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 107f2628ee..96585c13dd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -206,7 +206,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
           1.0f, // descale_sv, not used
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
-          {0, 0});
+          {param.philox_seed, param.philox_offset});
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 347f0de161..bfaa55c321 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -156,7 +156,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           1.0f, // descale_sv, not used
           param.dropout_prob,
           false, // is_store_randval
-          {0, 0});
+          {param.philox_seed, param.philox_offset});
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(

From 7c27a820966b276ad73c91f5736501d6d7375677 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 14 Apr 2024 17:58:48 +0000
Subject: [PATCH 520/837] Use SimplifiedGenericAttentionMask to replace
 GenericAttentionMask

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h        | 12 +++++++-----
 .../hip_fmha/ck_tiled_fmha_batched_forward.h         | 11 ++++++-----
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 11 ++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h        | 12 +++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h         | 11 ++++++-----
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer.h | 11 ++++++-----
 6 files changed, 38 insertions(+), 30 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index b7c40de7fc..ccc7e7d3ac 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -27,7 +27,6 @@
 #include "ck_tiled_fmha_backward_kernel.hpp"
 #include "ck_tiled_fmha_bwd_epilogue.hpp"
 #include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
-#include "ck_tiled_fmha_definitions.hpp"
 
 template <
     typename scalar_t,
@@ -114,8 +113,9 @@ struct batched_backward_causalmask_attnbias_dispatched {
         constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 
-        using FmhaMask = ck::tile_program::block::
-            GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+        using FmhaMask =
+            ck::tile_program::block::SimplifiedGenericAttentionMask<
+                has_masking>;
 
         using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
         using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
@@ -255,8 +255,10 @@ struct batched_backward_causalmask_attnbias_dispatched {
           param.grad_v_strides[0],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
-          static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size,
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 6a0ef0a43c..bce607f916 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -24,7 +24,6 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "ck_tiled_fmha_definitions.hpp"
 #include "ck_tiled_fmha_forward_kernel.hpp"
 #include "ck_tiled_fmha_fwd_epilogue.hpp"
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
@@ -61,8 +60,8 @@ struct batched_forward_causalmask_attnbias_dispatched {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
-      using FmhaMask = ck::tile_program::block::
-          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+      using FmhaMask =
+          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
       using FmhaFwdTilePartitioner_ = FmhaFwdTilePartitioner<FmhaFwdShape_>;
@@ -200,8 +199,10 @@ struct batched_forward_causalmask_attnbias_dispatched {
           0, // batch_stride_randval
           param.lse_strides[0], // batch_stride_lse
           param.out_strides[0],
-          static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size,
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
           param.dropout_prob, // dropout ratio
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 96585c13dd..4da93e6d30 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -25,7 +25,6 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "ck_tiled_fmha_definitions.hpp"
 #include "ck_tiled_fmha_forward_kernel.hpp"
 #include "ck_tiled_fmha_fwd_epilogue.hpp"
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
@@ -62,8 +61,8 @@ struct batched_infer_causalmask_attnbias_dispatched {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
-      using FmhaMask = ck::tile_program::block::
-          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+      using FmhaMask =
+          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
@@ -200,8 +199,10 @@ struct batched_infer_causalmask_attnbias_dispatched {
           0, // batch_stride_randval
           0, // batch_stride_lse
           param.out_strides[0],
-          static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size,
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
           param.dropout_prob, // dropout ratio
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 31ed265fa2..0adda65cf7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -27,7 +27,6 @@
 #include "ck_tiled_fmha_backward_kernel.hpp"
 #include "ck_tiled_fmha_bwd_epilogue.hpp"
 #include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
-#include "ck_tiled_fmha_definitions.hpp"
 
 template <
     typename scalar_t,
@@ -112,8 +111,9 @@ struct grouped_backward_causalmask_attnbias_dispatched {
         constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 
-        using FmhaMask = ck::tile_program::block::
-            GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+        using FmhaMask =
+            ck::tile_program::block::SimplifiedGenericAttentionMask<
+                has_masking>;
 
         using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
         using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
@@ -241,8 +241,10 @@ struct grouped_backward_causalmask_attnbias_dispatched {
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           param.lsed_strides[0], // batch_stride_lse
-          static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size,
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 360c9c9c19..2e4458d7f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -23,7 +23,6 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "ck_tiled_fmha_definitions.hpp"
 #include "ck_tiled_fmha_forward_kernel.hpp"
 #include "ck_tiled_fmha_fwd_epilogue.hpp"
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
@@ -60,8 +59,8 @@ struct grouped_forward_causalmask_attnbias_dispatched {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
-      using FmhaMask = ck::tile_program::block::
-          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+      using FmhaMask =
+          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
       using FmhaFwdTilePartitioner_ = FmhaFwdTilePartitioner<FmhaFwdShape_>;
@@ -152,8 +151,10 @@ struct grouped_forward_causalmask_attnbias_dispatched {
           param.lse_strides[1],
           param.out_strides[1],
           param.lse_strides[0], // batch_stride_lse
-          static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size,
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
           param.dropout_prob,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index bfaa55c321..5c44c772c4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -24,7 +24,6 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "ck_tiled_fmha_definitions.hpp"
 #include "ck_tiled_fmha_forward_kernel.hpp"
 #include "ck_tiled_fmha_fwd_epilogue.hpp"
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
@@ -61,8 +60,8 @@ struct grouped_infer_causalmask_attnbias_dispatched {
       constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
-      using FmhaMask = ck::tile_program::block::
-          GenericAttentionMask<has_masking, USE_LOCAL_ATTENTION>;
+      using FmhaMask =
+          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaShape = FmhaFwdShape<MaxK>;
       using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
@@ -150,8 +149,10 @@ struct grouped_infer_causalmask_attnbias_dispatched {
           0, // nhead_stride_lse
           param.out_strides[1],
           0, // batch_stride_lse
-          static_cast<CausalMaskType>(param.custom_mask_type),
-          param.window_size,
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
           1.0f, // descale_qk, not used
           1.0f, // descale_sv, not used
           param.dropout_prob,

From 46c491ee3a680b720b94fc67e729bca99b74fa9f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 14 Apr 2024 23:20:07 +0000
Subject: [PATCH 521/837] Shorten the instance file names

---
 third_party/composable_kernel_tiled                             | 2 +-
 ..._bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...d_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...d_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...d_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...rd_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...rd_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...tched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...atched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...atched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...d_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...rd_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...rd_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...rd_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...ard_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...ard_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...atched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...d_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...d_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...d_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...rd_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...rd_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...tched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...atched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...atched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...d_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...rd_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...rd_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...rd_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...ard_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...ard_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...atched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...tched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...tched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...atched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...atched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...atched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...atched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...atched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...atched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ..._batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ..._batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...tched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...tched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...atched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...atched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...atched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...atched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...atched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...atched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ..._batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ..._batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ..._batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ..._batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ..._batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ..._batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...a_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...a_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ..._batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...a_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...a_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...a_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...a_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...ha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...ha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ..._batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ..._batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ..._batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ..._batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...a_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...a_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ..._batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...a_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...a_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...a_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...a_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...ha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...ha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...d_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...d_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...d_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...rd_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...rd_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...ouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...rouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...rouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...d_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...rd_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...rd_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...rd_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...ard_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...ard_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...rouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...d_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...d_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...d_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...rd_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...rd_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...ouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...rouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...rouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...d_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} | 0
 ...rd_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} | 0
 ...rd_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} | 0
 ...rd_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} | 0
 ...ard_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} | 0
 ...ard_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} | 0
 ...rouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...ouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...ouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...rouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...rouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...rouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...rouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...rouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...rouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ..._grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ..._grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...ouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...ouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...rouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...rouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...rouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...rouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...rouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...rouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ..._grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ..._grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ..._grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ..._grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ..._grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ..._grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...a_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...a_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ..._grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...a_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...a_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...a_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...a_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...ha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...ha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 ...grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp} | 0
 ...grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp} | 0
 ..._grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp} | 0
 ..._grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp} | 0
 ..._grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp} | 0
 ..._grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...a_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...a_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp} | 0
 ..._grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp} | 0
 ..._grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp} | 0
 ...a_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp} | 0
 ...a_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp} | 0
 ...a_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp} | 0
 ...a_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp} | 0
 ...ha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp} | 0
 ...ha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp} | 0
 201 files changed, 1 insertion(+), 1 deletion(-)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp} (100%)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index bb57f31fdc..131f660b24 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit bb57f31fdc290bb7bc4df6af35c736b7c00f2a3c
+Subproject commit 131f660b24c450f819f1ebe4698afcbe6155d9b9
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_with_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_with_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_with_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_with_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
diff --git a/xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/ck_tiled_fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp

From 4c6c08d470434ea5a89ea93caef5e328b7bef32e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 14 Apr 2024 23:47:44 +0000
Subject: [PATCH 522/837] Rename the template parameters

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 72 +++++++++----------
 .../ck_tiled_fmha_batched_backward_bp16.cpp   | 16 ++---
 .../ck_tiled_fmha_batched_backward_fp16.cpp   | 16 ++---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 54 +++++++-------
 .../ck_tiled_fmha_batched_forward_bp16.cpp    |  6 +-
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |  6 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 54 +++++++-------
 .../ck_tiled_fmha_batched_infer_bp16.cpp      |  6 +-
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  6 +-
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 72 +++++++++----------
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   | 16 ++---
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 48 ++++++-------
 .../ck_tiled_fmha_grouped_forward_bp16.cpp    |  6 +-
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |  6 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 48 ++++++-------
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      |  6 +-
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  6 +-
 17 files changed, 216 insertions(+), 228 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index ccc7e7d3ac..9af5bf1c32 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -29,37 +29,37 @@
 #include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
-    bool has_bias_grad,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasBiasGrad,
     ck::index_t MaxK>
 struct batched_backward_causalmask_attnbias_dispatched {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
-      typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
-      typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
-      typename FmhaBwdTypeConfig<scalar_t>::VGradDataType>>;
+      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType>>;
 
   using FmhaBwdLoadStrategy_ = typename FmhaBwdLoadStrategy<MaxK>::type;
 
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaBwdPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaBwdPipelineProblem<
-          typename FmhaBwdTypeConfig<scalar_t>::QDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::KDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::VDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::GemmDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::LSEDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::DDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::BiasDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::ODataType,
-          typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::QGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::VGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::BiasGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::GemmDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::DDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::RandValOutputDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+          typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
           FmhaBwdShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
@@ -85,9 +85,9 @@ struct batched_backward_causalmask_attnbias_dispatched {
 
             using FmhaBwdOGradDotOPipelineProblem =
                 ck::tile_program::block::BlockFmhaBwdOGradDotOPipelineProblem<
-                    typename FmhaBwdTypeConfig<scalar_t>::ODataType,
-                    typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
-                    typename FmhaBwdTypeConfig<scalar_t>::DDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::DDataType,
                     kBlockSize,
                     FmhaBwdShape<MaxK>::kVHeaddim,
                     false, // kIsGroupMode
@@ -110,7 +110,7 @@ struct batched_backward_causalmask_attnbias_dispatched {
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
         constexpr ck::index_t occupancy = 1;
-        constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 
         using FmhaMask =
@@ -136,8 +136,8 @@ struct batched_backward_causalmask_attnbias_dispatched {
               kPadSeqLenK,
               kPadHeadDim, // kPadHeadDimQ,
               kPadHeadDim, // kPadHeadDimV,
-              has_attn_bias,
-              has_bias_grad,
+              kHasBias,
+              kHasBiasGrad,
               false, // kStoreLSE
               kHasDropout,
               occupancy>;
@@ -279,18 +279,18 @@ struct batched_backward_causalmask_attnbias_dispatched {
 };
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
-    bool has_bias_grad,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasBiasGrad,
     ck::index_t MaxK>
 void run_batched_backward_causalmask_attnbias_dispatched(
     BatchedBackwardParams& param,
     hipStream_t stream) {
   batched_backward_causalmask_attnbias_dispatched<
-      scalar_t,
-      has_causal_mask,
-      has_attn_bias,
-      has_bias_grad,
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
+      kHasBiasGrad,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
index f82fdc0614..8d0445ddfa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
@@ -55,26 +55,22 @@ extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bha
 
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.bias_has_grad,
-      HAS_BIAS_GRAD,
-      [&] {
-        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+      param.has_attn_bias, kHasBias, param.bias_has_grad, kHasBiasGrad, [&] {
+        if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_batched_backward_causalmask_attnbias_dispatched<
                   ck::bhalf_t,
                   false,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_batched_backward_causalmask_attnbias_dispatched<
                   ck::bhalf_t,
                   true,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index f8395acdb4..a0d0cca7d2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -55,26 +55,22 @@ extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::hal
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.bias_has_grad,
-      HAS_BIAS_GRAD,
-      [&] {
-        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+      param.has_attn_bias, kHasBias, param.bias_has_grad, kHasBiasGrad, [&] {
+        if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_batched_backward_causalmask_attnbias_dispatched<
                   ck::half_t,
                   false,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_batched_backward_causalmask_attnbias_dispatched<
                   ck::half_t,
                   true,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index bce607f916..ee45f36310 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -29,25 +29,25 @@
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 struct batched_forward_causalmask_attnbias_dispatched {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           FmhaFwdShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
@@ -57,7 +57,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
@@ -97,7 +97,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
                 kPadSeqLenK,
                 kPadHeadDim, // kPadHeadDimQ
                 kPadHeadDim, // kPadHeadDimV
-                has_attn_bias,
+                kHasBias,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
                 kHasDropout,
@@ -111,8 +111,8 @@ struct batched_forward_causalmask_attnbias_dispatched {
                     FmhaPipelineProblem>;
 
             using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                 kPadSeqLenQ,
                 kPadHeadDim>>;
 
@@ -128,7 +128,7 @@ struct batched_forward_causalmask_attnbias_dispatched {
               BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK,
          [&] { using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits< true, //
          kPadSeqLenQ, kPadSeqLenK, true, // kPadHeadDimQ true, // kPadHeadDimV
-                    has_attn_bias,
+                    kHasBias,
                     true, // kStoreLSE
                     kHasDropout,
                     occupancy>;
@@ -141,8 +141,8 @@ struct batched_forward_causalmask_attnbias_dispatched {
                         FmhaPipelineProblem>;
 
                 using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                    typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                    typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                     true,
                     true>>;
 
@@ -226,16 +226,16 @@ struct batched_forward_causalmask_attnbias_dispatched {
 };
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 void run_batched_forward_causalmask_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
   batched_forward_causalmask_attnbias_dispatched<
-      scalar_t,
-      has_causal_mask,
-      has_attn_bias,
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
index 774e2974cf..90a8b2c59e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -51,19 +51,19 @@ extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhal
 // clang-format on
 
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 4e194c3e79..469de6c792 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -51,19 +51,19 @@ extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half
 // clang-format on
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 4da93e6d30..4b53877f31 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -30,25 +30,25 @@
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 struct batched_infer_causalmask_attnbias_dispatched {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           FmhaFwdShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
@@ -58,7 +58,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
@@ -97,7 +97,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                 kPadSeqLenK,
                 kPadHeadDim, // kPadHeadDimQ,
                 kPadHeadDim, // kPadHeadDimV,
-                has_attn_bias,
+                kHasBias,
                 false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
                 kHasDropout,
@@ -111,8 +111,8 @@ struct batched_infer_causalmask_attnbias_dispatched {
                     FmhaPipelineProblem>;
 
             using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                 kPadSeqLenQ,
                 kPadHeadDim>>;
 
@@ -129,7 +129,7 @@ struct batched_infer_causalmask_attnbias_dispatched {
                     kPadSeqLenK,
                     true, // kPadHeadDimQ,
                     true, // kPadHeadDimV,
-                    has_attn_bias,
+                    kHasBias,
                     false, // kStoreLSE
                     kHasDropout,
                     occupancy>;
@@ -142,8 +142,8 @@ struct batched_infer_causalmask_attnbias_dispatched {
                         FmhaPipelineProblem>;
 
                 using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                    typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                    typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                     true,
                     true>>;
 
@@ -225,16 +225,16 @@ struct batched_infer_causalmask_attnbias_dispatched {
 };
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 void run_batched_infer_causalmask_attnbias_dispatched(
     BatchedForwardParams& param,
     hipStream_t stream) {
   batched_infer_causalmask_attnbias_dispatched<
-      scalar_t,
-      has_causal_mask,
-      has_attn_bias,
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index f4a2e064e3..0bb91bc522 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -50,19 +50,19 @@ extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_
 // clang-format on
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 653cfacbd5..9e5ebe8085 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -50,19 +50,19 @@ extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t
 // clang-format on
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 0adda65cf7..9a77d4f10e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -29,37 +29,37 @@
 #include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
-    bool has_bias_grad,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasBiasGrad,
     ck::index_t MaxK>
 struct grouped_backward_causalmask_attnbias_dispatched {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
-      typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
-      typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
-      typename FmhaBwdTypeConfig<scalar_t>::VGradDataType>>;
+      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType>>;
 
   using FmhaBwdLoadStrategy_ = typename FmhaBwdLoadStrategy<MaxK>::type;
 
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaBwdPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaBwdPipelineProblem<
-          typename FmhaBwdTypeConfig<scalar_t>::QDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::KDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::VDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::GemmDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::LSEDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::AccDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::DDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::BiasDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::RandValOutputDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::ODataType,
-          typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::QGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::KGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::VGradDataType,
-          typename FmhaBwdTypeConfig<scalar_t>::BiasGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::GemmDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::DDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::RandValOutputDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+          typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+          typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
           FmhaBwdShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
@@ -83,9 +83,9 @@ struct grouped_backward_causalmask_attnbias_dispatched {
 
             using FmhaBwdOGradDotOPipelineProblem =
                 ck::tile_program::block::BlockFmhaBwdOGradDotOPipelineProblem<
-                    typename FmhaBwdTypeConfig<scalar_t>::ODataType,
-                    typename FmhaBwdTypeConfig<scalar_t>::OGradDataType,
-                    typename FmhaBwdTypeConfig<scalar_t>::DDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::DDataType,
                     kBlockSize,
                     FmhaBwdShape<MaxK>::kVHeaddim,
                     true, // kIsGroupMode
@@ -108,7 +108,7 @@ struct grouped_backward_causalmask_attnbias_dispatched {
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
         constexpr ck::index_t occupancy = 1;
-        constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 
         using FmhaMask =
@@ -134,8 +134,8 @@ struct grouped_backward_causalmask_attnbias_dispatched {
               kPadSeqLenK,
               kPadHeadDim, // kPadHeadDimQ,
               kPadHeadDim, // kPadHeadDimV,
-              has_attn_bias,
-              has_bias_grad,
+              kHasBias,
+              kHasBiasGrad,
               false, // kStoreLSE
               kHasDropout,
               occupancy>;
@@ -266,18 +266,18 @@ struct grouped_backward_causalmask_attnbias_dispatched {
 };
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
-    bool has_bias_grad,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasBiasGrad,
     ck::index_t MaxK>
 void run_grouped_backward_causalmask_attnbias_dispatched(
     GroupedBackwardParams& param,
     hipStream_t stream) {
   grouped_backward_causalmask_attnbias_dispatched<
-      scalar_t,
-      has_causal_mask,
-      has_attn_bias,
-      has_bias_grad,
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
+      kHasBiasGrad,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index ef2e0bb8b6..8707ef38fe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -55,26 +55,22 @@ extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::hal
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
   BOOL_SWITCH_2(
-      param.has_attn_bias,
-      HAS_ATTN_BIAS,
-      param.bias_has_grad,
-      HAS_BIAS_GRAD,
-      [&] {
-        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+      param.has_attn_bias, kHasBias, param.bias_has_grad, kHasBiasGrad, [&] {
+        if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_grouped_backward_causalmask_attnbias_dispatched<
                   ck::half_t,
                   false,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_grouped_backward_causalmask_attnbias_dispatched<
                   ck::half_t,
                   true,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 2e4458d7f5..70beb6ff27 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -28,25 +28,25 @@
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 struct grouped_forward_causalmask_attnbias_dispatched {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           FmhaFwdShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
@@ -56,7 +56,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
@@ -87,7 +87,7 @@ struct grouped_forward_causalmask_attnbias_dispatched {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
-                has_attn_bias,
+                kHasBias,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
                 kHasDropout,
@@ -101,8 +101,8 @@ struct grouped_forward_causalmask_attnbias_dispatched {
                     FmhaPipelineProblem>;
 
             using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                 kPadSeqLenQ,
                 kPadHeadDimV>>;
 
@@ -178,16 +178,16 @@ struct grouped_forward_causalmask_attnbias_dispatched {
 };
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 void run_grouped_forward_causalmask_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
   grouped_forward_causalmask_attnbias_dispatched<
-      scalar_t,
-      has_causal_mask,
-      has_attn_bias,
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
index 9789cee295..d49d7ccf6c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -51,19 +51,19 @@ extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhal
 // clang-format on
 
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index d49eaa5ccf..f0ca8a1024 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -51,19 +51,19 @@ extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half
 // clang-format on
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_forward_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 5c44c772c4..53e70420ca 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -29,25 +29,25 @@
 #include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 struct grouped_infer_causalmask_attnbias_dispatched {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<scalar_t>::QDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::KDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::VDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::BiasDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::LSEDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::PDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-          typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           FmhaFwdShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
@@ -57,7 +57,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = has_causal_mask || USE_LOCAL_ATTENTION;
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
       const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
@@ -87,7 +87,7 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
-                has_attn_bias,
+                kHasBias,
                 false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
                 kHasDropout,
@@ -101,8 +101,8 @@ struct grouped_infer_causalmask_attnbias_dispatched {
                     FmhaPipelineProblem>;
 
             using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<scalar_t>::OaccDataType,
-                typename FmhaFwdTypeConfig<scalar_t>::ODataType,
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                 kPadSeqLenQ,
                 kPadHeadDimV>>;
 
@@ -176,16 +176,16 @@ struct grouped_infer_causalmask_attnbias_dispatched {
 };
 
 template <
-    typename scalar_t,
-    bool has_causal_mask,
-    bool has_attn_bias,
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
     ck::index_t MaxK>
 void run_grouped_infer_causalmask_attnbias_dispatched(
     GroupedForwardParams& param,
     hipStream_t stream) {
   grouped_infer_causalmask_attnbias_dispatched<
-      scalar_t,
-      has_causal_mask,
-      has_attn_bias,
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index 7ee53261d7..ccb7e0e6f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -50,19 +50,19 @@ extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_
 // clang-format on
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::bhalf_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 2d03119db8..881810868d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -50,19 +50,19 @@ extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t
 // clang-format on
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, HAS_ATTN_BIAS, [&] {
+  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             false,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_infer_causalmask_attnbias_dispatched<
             ck::half_t,
             true,
-            HAS_ATTN_BIAS,
+            kHasBias,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");

From 411ccd63bfb32a0f0437a2f123078e7cd48dcae3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 15 Apr 2024 00:11:38 +0000
Subject: [PATCH 523/837] Simplify the names of the dispatch class and
 interfaces

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h |  6 +--
 .../ck_tiled_fmha_batched_backward_bp16.cpp   | 40 +++++++++----------
 .../ck_tiled_fmha_batched_backward_fp16.cpp   | 40 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  6 +--
 .../ck_tiled_fmha_batched_forward_bp16.cpp    | 36 ++++++++---------
 .../ck_tiled_fmha_batched_forward_fp16.cpp    | 36 ++++++++---------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  6 +--
 .../ck_tiled_fmha_batched_infer_bp16.cpp      | 36 ++++++++---------
 .../ck_tiled_fmha_batched_infer_fp16.cpp      | 36 ++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h |  6 +--
 .../ck_tiled_fmha_grouped_backward_bp16.cpp   | 40 +++++++++----------
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   | 40 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  6 +--
 .../ck_tiled_fmha_grouped_forward_bp16.cpp    | 36 ++++++++---------
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    | 36 ++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  6 +--
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      | 36 ++++++++---------
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      | 36 ++++++++---------
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...ask_has_attnbias_has_biasgrad_maxk_128.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_32.cpp |  2 +-
 ...mask_has_attnbias_has_biasgrad_maxk_64.cpp |  2 +-
 ...mask_has_attnbias_no_biasgrad_maxk_128.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_32.cpp |  2 +-
 ...lmask_has_attnbias_no_biasgrad_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...bp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...6_has_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...16_has_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...16_has_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...p16_has_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_128.cpp |  2 +-
 ...16_no_causalmask_has_attnbias_maxk_256.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_32.cpp |  2 +-
 ...p16_no_causalmask_has_attnbias_maxk_64.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_128.cpp |  2 +-
 ...p16_no_causalmask_no_attnbias_maxk_256.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_32.cpp |  2 +-
 ...fp16_no_causalmask_no_attnbias_maxk_64.cpp |  2 +-
 218 files changed, 442 insertions(+), 442 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 9af5bf1c32..0316907ae5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -34,7 +34,7 @@ template <
     bool kHasBias,
     bool kHasBiasGrad,
     ck::index_t MaxK>
-struct batched_backward_causalmask_attnbias_dispatched {
+struct batched_backward_causalmask_bias_dispatch {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
       typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
@@ -284,10 +284,10 @@ template <
     bool kHasBias,
     bool kHasBiasGrad,
     ck::index_t MaxK>
-void run_batched_backward_causalmask_attnbias_dispatched(
+void run_batched_backward_causalmask_bias_dispatch(
     BatchedBackwardParams& param,
     hipStream_t stream) {
-  batched_backward_causalmask_attnbias_dispatched<
+  batched_backward_causalmask_bias_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
index 8d0445ddfa..db2b56742b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
@@ -13,43 +13,43 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -59,14 +59,14 @@ void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_batched_backward_causalmask_attnbias_dispatched<
+              run_batched_backward_causalmask_bias_dispatch<
                   ck::bhalf_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_batched_backward_causalmask_attnbias_dispatched<
+              run_batched_backward_causalmask_bias_dispatch<
                   ck::bhalf_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index a0d0cca7d2..4623094358 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -13,43 +13,43 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -59,14 +59,14 @@ void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_batched_backward_causalmask_attnbias_dispatched<
+              run_batched_backward_causalmask_bias_dispatch<
                   ck::half_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_batched_backward_causalmask_attnbias_dispatched<
+              run_batched_backward_causalmask_bias_dispatch<
                   ck::half_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index ee45f36310..79f6eceb6e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -33,7 +33,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-struct batched_forward_causalmask_attnbias_dispatched {
+struct batched_forward_causalmask_bias_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -230,10 +230,10 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-void run_batched_forward_causalmask_attnbias_dispatched(
+void run_batched_forward_causalmask_bias_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_forward_causalmask_attnbias_dispatched<
+  batched_forward_causalmask_bias_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
index 90a8b2c59e..6dad194592 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -13,40 +13,40 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -54,13 +54,13 @@ void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_forward_causalmask_attnbias_dispatched<
+        run_batched_forward_causalmask_bias_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_forward_causalmask_attnbias_dispatched<
+        run_batched_forward_causalmask_bias_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 469de6c792..73cd2e7fef 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -13,40 +13,40 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -54,13 +54,13 @@ void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_forward_causalmask_attnbias_dispatched<
+        run_batched_forward_causalmask_bias_dispatch<
             ck::half_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_forward_causalmask_attnbias_dispatched<
+        run_batched_forward_causalmask_bias_dispatch<
             ck::half_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 4b53877f31..eb65e7aba8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -34,7 +34,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-struct batched_infer_causalmask_attnbias_dispatched {
+struct batched_infer_causalmask_bias_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -229,10 +229,10 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-void run_batched_infer_causalmask_attnbias_dispatched(
+void run_batched_infer_causalmask_bias_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_infer_causalmask_attnbias_dispatched<
+  batched_infer_causalmask_bias_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index 0bb91bc522..9a14373ad7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -12,40 +12,40 @@
 #include "ck_tiled_fmha_batched_infer.h"
 
 // clang-format off
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -53,13 +53,13 @@ void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_infer_causalmask_attnbias_dispatched<
+        run_batched_infer_causalmask_bias_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_infer_causalmask_attnbias_dispatched<
+        run_batched_infer_causalmask_bias_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 9e5ebe8085..d2f8e7bfe5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -12,40 +12,40 @@
 #include "ck_tiled_fmha_batched_infer.h"
 
 // clang-format off
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -53,13 +53,13 @@ void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_infer_causalmask_attnbias_dispatched<
+        run_batched_infer_causalmask_bias_dispatch<
             ck::half_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_infer_causalmask_attnbias_dispatched<
+        run_batched_infer_causalmask_bias_dispatch<
             ck::half_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 9a77d4f10e..264cafa1ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -34,7 +34,7 @@ template <
     bool kHasBias,
     bool kHasBiasGrad,
     ck::index_t MaxK>
-struct grouped_backward_causalmask_attnbias_dispatched {
+struct grouped_backward_causalmask_bias_dispatch {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
       typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
@@ -271,10 +271,10 @@ template <
     bool kHasBias,
     bool kHasBiasGrad,
     ck::index_t MaxK>
-void run_grouped_backward_causalmask_attnbias_dispatched(
+void run_grouped_backward_causalmask_bias_dispatch(
     GroupedBackwardParams& param,
     hipStream_t stream) {
-  grouped_backward_causalmask_attnbias_dispatched<
+  grouped_backward_causalmask_bias_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
index 10337fcd26..f0164e470f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
@@ -13,43 +13,43 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -63,14 +63,14 @@ void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
         if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_grouped_backward_causalmask_attnbias_dispatched<
+              run_grouped_backward_causalmask_bias_dispatch<
                   ck::bhalf_t,
                   false,
                   HAS_ATTN_BIAS,
                   HAS_BIAS_GRAD,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_grouped_backward_causalmask_attnbias_dispatched<
+              run_grouped_backward_causalmask_bias_dispatch<
                   ck::bhalf_t,
                   true,
                   HAS_ATTN_BIAS,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index 8707ef38fe..7703b742c7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -13,43 +13,43 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_attnbias_dispatched<ck::half_t, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -59,14 +59,14 @@ void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_grouped_backward_causalmask_attnbias_dispatched<
+              run_grouped_backward_causalmask_bias_dispatch<
                   ck::half_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_grouped_backward_causalmask_attnbias_dispatched<
+              run_grouped_backward_causalmask_bias_dispatch<
                   ck::half_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 70beb6ff27..345c8fe35a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -32,7 +32,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-struct grouped_forward_causalmask_attnbias_dispatched {
+struct grouped_forward_causalmask_bias_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -182,10 +182,10 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-void run_grouped_forward_causalmask_attnbias_dispatched(
+void run_grouped_forward_causalmask_bias_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_forward_causalmask_attnbias_dispatched<
+  grouped_forward_causalmask_bias_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
index d49d7ccf6c..50e3bac623 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -13,40 +13,40 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -54,13 +54,13 @@ void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_forward_causalmask_attnbias_dispatched<
+        run_grouped_forward_causalmask_bias_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_forward_causalmask_attnbias_dispatched<
+        run_grouped_forward_causalmask_bias_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index f0ca8a1024..f566a6d2cc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -13,40 +13,40 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -54,13 +54,13 @@ void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_forward_causalmask_attnbias_dispatched<
+        run_grouped_forward_causalmask_bias_dispatch<
             ck::half_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_forward_causalmask_attnbias_dispatched<
+        run_grouped_forward_causalmask_bias_dispatch<
             ck::half_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 53e70420ca..0d976de975 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -33,7 +33,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-struct grouped_infer_causalmask_attnbias_dispatched {
+struct grouped_infer_causalmask_bias_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -180,10 +180,10 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     ck::index_t MaxK>
-void run_grouped_infer_causalmask_attnbias_dispatched(
+void run_grouped_infer_causalmask_bias_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_infer_causalmask_attnbias_dispatched<
+  grouped_infer_causalmask_bias_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index ccb7e0e6f5..c76c6e6f8d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -12,40 +12,40 @@
 #include "ck_tiled_fmha_grouped_infer.h"
 
 // clang-format off
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::bhalf_t, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -53,13 +53,13 @@ void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_infer_causalmask_attnbias_dispatched<
+        run_grouped_infer_causalmask_bias_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_infer_causalmask_attnbias_dispatched<
+        run_grouped_infer_causalmask_bias_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 881810868d..4e4a1c1013 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -12,40 +12,40 @@
 #include "ck_tiled_fmha_grouped_infer.h"
 
 // clang-format off
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_attnbias_dispatched<ck::half_t, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -53,13 +53,13 @@ void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
   BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_infer_causalmask_attnbias_dispatched<
+        run_grouped_infer_causalmask_bias_dispatch<
             ck::half_t,
             false,
             kHasBias,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_infer_causalmask_attnbias_dispatched<
+        run_grouped_infer_causalmask_bias_dispatch<
             ck::half_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index 23dcdbd742..f6bf4bd6f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index cea2dc49fc..0514bf28ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index ebf213e77c..ee19b37dec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index 4154b0e51e..8ab4f42290 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index c6ef4a6ad9..75966fb732 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 5ea0440a96..07dc496fd3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
index 390c057a2e..736256e63a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
index 6d9e8db05b..c44a2f99e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
index f37923f726..3d9272061b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index 410a001339..484d96a418 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index 0eb83776e4..8f22808ad8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index 30a9d3e062..e173fd0cb9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index 2dc4036ab7..395d187a7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index b634ec861b..89a5c06243 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 572667e05e..09f17fb59d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index fd19dba04c..11023b667e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index 2abde7a138..1ca23feadd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index 392e0df610..f71dedaafc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index 3d03144e19..cb146d6c5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index 130922e0d1..32b7d5373e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index 974fe17520..42e57c6a8a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index b611084db4..442263f0c1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index a0156e2c41..9d20c01c5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 2685736f4f..95d62e3da4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
index b2b0d96f99..074f41cdb8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
index 4b63b34e4d..cea3242f4a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
index c7e2c84b34..50687e28ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index d6e30d22a2..94477c6a6c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index f465739245..2dc0722716 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index fc79740383..abb6f7933a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index 0d8369353d..3f2b9ddec2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index 043d4357cc..77395133b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 48013f08d6..1bb5433e9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index ad1018234f..f0e4e22afc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index ed71783b84..fc49a01822 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index 35bb6ac5f6..8deba9920a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_attnbias_dispatched<
+template void run_batched_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
index 6ea24c5ca2..0e2eced3cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
index a675c95be0..0ee352e554 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
index dc4bb0ea0f..3ce3f2fd38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
index 334eb891f1..11674e05d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
index 59c6550f4c..51996f5f88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
index a30775e77c..078bfe33f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
index 594c4a68ce..c6c070287a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
index 39ea429139..235c706f36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
index ed91bf4bf0..99f9d3dc4e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
index eca8592290..2edf0c9b7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
index ec258aeda0..00e19f71db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
index feb78a115c..529837a274 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index 1482336abf..a7aec2f1aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
index f1ba383daf..d99707cf36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index 3b9f3026b3..f723ed872d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index c38716ce22..5d0095c4f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
index 58013ca642..c8b985564d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
index fcb6d8b546..e0beb8f59b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
index 38e7fb026c..a58be730c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
index 1c0b277b71..5ef660d354 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
index 070ed44ef2..c12bcafdb6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
index e535f40f3b..00aacf534e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
index a24884bff3..9e2963e42e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
index 524e1ab867..93972071bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
index c2c124dbe7..3c6aa04c50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
index 1cdd7e0781..bb11268297 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
index 50ea226597..6911476cb2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
index 58ac17e394..f9aaf8a71c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index 606d9db860..c1d701e6ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
index 7dc799605f..01435a3011 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index 566b1bf6a3..e499377ba2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index 3b72b97d12..8cf6fe5511 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_attnbias_dispatched<
+template void run_batched_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
index ecc90b3661..e5fab05c4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
index dff3a317a3..a3c8f6bca3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
index fa084941bd..3fc855dbbf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
index d0ece69d02..5573d58b7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
index 9757278dba..87f5c89ff4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
index 6caed9563c..3935893ca5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
index 4dfaa36785..b4a4a9fa70 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
index fa0416c5c2..e051515452 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
index 4772d56ab2..2f7ff1124c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
index b95f0d5ae8..a17c6fabbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
index 7fe7a3f69d..d4021ed8d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
index 3ae7733695..0359232694 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index b95c3fdb97..9251bccc57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
index dce1496ea1..e113097a6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index fa81f80c11..0241586ac6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index fd118cd222..290d6b145b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
index 1ae833e7d0..5aba53e37f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
index bb9a177b54..0d653b4e51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
index 88945231f9..657708501d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
index 330e0dfbcd..666488a9f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
index 8caa116d80..47d1f4e513 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
index 0468ba8afe..2c1779293f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
index cd8077b510..90138a2711 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
index ed22d8fc5f..10396a2245 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
index 2f16639ed7..21d46d793c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
index 41f8249e99..14d14ce8c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
index bfdf01423b..85eed5de99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
index 550831036b..00de9f3ee5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index 8e9843a5e4..42edd42a51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
index 20580c11e6..078a28eb7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index 4e4d90f820..f3791d7663 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index b36864534a..23b8796cef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_attnbias_dispatched<
+template void run_batched_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index ccf93c6eb0..06974cabbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index 571012ebac..7bc1dafaeb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index 7f4c7a6c01..e08c2d2a0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index 1b045b39bf..7f745b0057 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index 68bb20d864..8bdecd02e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 6fab84344d..b68b7f0f1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
index 26146e7b95..bd728f9672 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
index eec45177f0..1daa010627 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
index f55ada6a47..42f675373d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index 9ab625aed0..fcd672d9e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index a8a3c66fd8..18151b2ced 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index 29ec584404..f7f1647205 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index a703e7b1b0..4c81b91d18 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index a57d05f374..4ea3986a55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 4dd74235e8..67caf36b22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index 7e92e2be57..44e53a806d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index 27e119c5c9..9034115feb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index b2149eafbc..25e2ba32ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index d32f76ef39..fb50648f40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index b3cf3fa5c4..a3e58ba19b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index 6b6fe13835..445f59fb52 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index a082bcb807..0e62099887 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index 59165bbe81..01d441c5ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index cbf262e7a7..c332b580ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
index 3b0cd4b766..1b61d184af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
index e3055cffe8..d8ddfbb5d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
index 1d2ae1a98a..4664327cae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
index 2904aa8866..bbfe4fc481 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
index 75680aad1a..b0eea03c4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
index d7625e4dc8..035e4c43e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
index e25e0c7553..f4a38dab8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
index 18e9ea80d2..a6c3641462 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
index 23e7cd1e53..f45d7495fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index 1a59b5a0a2..440c1b41ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index 7689feaac8..cc2945436b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index 89b2ab4758..00b2f08d63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_attnbias_dispatched<
+template void run_grouped_backward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
index 785e62d78a..6b74ac6122 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
index 83001360bd..d973d299b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
index ed45ccf363..3ff1b29014 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
index f0b639ef65..1347d1da89 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
index 697ce6345b..b4320968e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
index cc24c03c0f..7654c11cda 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
index e0d0f9e03f..dd8ee28795 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
index c658c89f2f..0da1dbf1a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
index ebd002ef4e..5a078f4ada 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
index 844444629a..cdb13030e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
index 52b5cb8953..344307c4ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
index 35a0583687..a8604cd7c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index d278e2b0bc..d9e3392666 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
index 2bd6d042a0..339c05c017 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index 732381a8a0..9c600d90e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index 352d94bb4a..c2ecf7d9de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
index c83769098b..6f1a866bd0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
index fe21d52feb..60a5f9444c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
index 6bedae2d29..c549aec614 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
index a45a99b804..8198f3beb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
index e0349f471d..d5fa2c40c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
index 58d7cec792..ecb005898c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
index a9a2a191e2..53ce1e9628 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
index 8eb2447a8f..80a645aa81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
index c7ba7f09e7..3bbfba9bab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
index 577f1a1aee..59d0142bec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
index cd1bda5d13..503b4c2452 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
index caa6f0d164..f63f6b44dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index 08bf47cd57..dd27d65c04 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
index 8c4c0c440e..a945f41900 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index 2ff6c73e75..03c98bd6f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index b5ec1a7817..451004e3bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_attnbias_dispatched<
+template void run_grouped_forward_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
index fe5b8db516..dacb2b5ffd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
index 593d4fda19..49faae0f17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
index 941dcd50ed..79f83bbd66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
index 82183313ac..965428a418 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
index 2f8ea04e7f..ffd8ac1530 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
index f10999c7cd..46495e5f0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
index f877720240..c52e17f7b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
index d2b85141cf..5bf323e37b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
index 35b522a6ab..bfb0a8aab6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
index 4fb8bdd598..4a4298a246 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
index 1d2cd2656f..2584fcf0b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
index 2ccb25769a..a8197825f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
index 54cbec7ec3..d409b257b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
index 12b67ea453..8022f3e256 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
index d6c6c1a5d1..a8ab2616ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
index c74dbe2000..d0c3b76d65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::bhalf_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
index 8fe0d31e7c..3e0acc63a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
index aeff1e2c67..f17c72caaa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
index f8fed71069..be812c79f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
index ec5f029d78..360180c842 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
index 5449dfd322..ea0f838424 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
index 73bf0e6d69..8647f82739 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
index 55c80b4c9e..28a8085229 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
index 76cafe4e03..888f0f8e75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
index 1741265b25..238ef6acbf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
index 4197ba831d..6819de0a38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
index 88ac7b42c5..3ab3cc5c2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
index c717aed649..7470f5b12b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
index c3f52f074b..7226ed6160 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
index 5d4882d2b1..c8ec9fcddc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
index 6e0b2914d8..80e7378e99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
index b49d099089..826b22356d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
@@ -8,7 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_attnbias_dispatched<
+template void run_grouped_infer_causalmask_bias_dispatch<
     ck::half_t,
     false,
     false,

From 812a529ac8cc2b36ca5383727127217aaf66ae2b Mon Sep 17 00:00:00 2001
From: "Qianfeng.Zhang" <Qianfeng.Zhang@amd.com>
Date: Tue, 16 Apr 2024 06:28:08 +0000
Subject: [PATCH 524/837] Changes to reuse the kernel files under ck_tile
 examples/91_tile_program/fmha folder

---
 .gitmodules                                                 | 2 +-
 setup.py                                                    | 2 +-
 third_party/composable_kernel_tiled                         | 2 +-
 .../csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp   | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_backward.h     | 6 +++---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h | 6 +++---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h   | 6 +++---
 .../attention/hip_fmha/ck_tiled_fmha_grouped_backward.h     | 6 +++---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h | 6 +++---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h   | 6 +++---
 10 files changed, 22 insertions(+), 22 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 8d80ded0bc..6a58ce8c29 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel-internal.git
-	branch = ck_tile/opt_padding_fa_train_xformers
+	branch = ck_tile/opt_padding_fa_train_pr
diff --git a/setup.py b/setup.py
index e909188c82..9053e6dd2c 100644
--- a/setup.py
+++ b/setup.py
@@ -357,7 +357,7 @@ def get_extensions():
             / "composable_kernel_tiled"
             / "example"
             / "91_tile_program"
-            / "xformers_fmha"
+            / "fmha"
         ]
 
         include_dirs += [
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 131f660b24..bbf7e3d0a4 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 131f660b24c450f819f1ebe4698afcbe6155d9b9
+Subproject commit bbf7e3d0a4c550e54d383d8214c087d2fc184205
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index 2f55d425ab..f751e751ed 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -16,7 +16,7 @@
 #include <ck/ck.hpp>
 #include <ck/host_utility/kernel_launch.hpp>
 
-#include "ck_tiled_fmha_rand_uniform_kernel.hpp"
+#include "fmha_rand_uniform_kernel.hpp"
 
 namespace {
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 0316907ae5..f84eb306b8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -24,9 +24,9 @@
 #include "ck_tiled_fmha_bwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "ck_tiled_fmha_backward_kernel.hpp"
-#include "ck_tiled_fmha_bwd_epilogue.hpp"
-#include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
+#include "fmha_bwd_kernel.hpp"
+#include "fmha_bwd_epilogue.hpp"
+#include "fmha_bwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 79f6eceb6e..de76314498 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -24,9 +24,9 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "ck_tiled_fmha_forward_kernel.hpp"
-#include "ck_tiled_fmha_fwd_epilogue.hpp"
-#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+#include "fmha_fwd_kernel.hpp"
+#include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index eb65e7aba8..b99fb7afc7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -25,9 +25,9 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "ck_tiled_fmha_forward_kernel.hpp"
-#include "ck_tiled_fmha_fwd_epilogue.hpp"
-#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+#include "fmha_fwd_kernel.hpp"
+#include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 264cafa1ce..c0b54ece84 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -24,9 +24,9 @@
 #include "ck_tiled_fmha_bwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "ck_tiled_fmha_backward_kernel.hpp"
-#include "ck_tiled_fmha_bwd_epilogue.hpp"
-#include "ck_tiled_fmha_bwd_tile_partitioner.hpp"
+#include "fmha_bwd_kernel.hpp"
+#include "fmha_bwd_epilogue.hpp"
+#include "fmha_bwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 345c8fe35a..c50f50e7c3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -23,9 +23,9 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "ck_tiled_fmha_forward_kernel.hpp"
-#include "ck_tiled_fmha_fwd_epilogue.hpp"
-#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+#include "fmha_fwd_kernel.hpp"
+#include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 0d976de975..af5d9588b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -24,9 +24,9 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "ck_tiled_fmha_forward_kernel.hpp"
-#include "ck_tiled_fmha_fwd_epilogue.hpp"
-#include "ck_tiled_fmha_fwd_tile_partitioner.hpp"
+#include "fmha_fwd_kernel.hpp"
+#include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,

From 51b4223749320c6ff39060e59917e2388bbb3ff7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 16 Apr 2024 15:55:55 +0000
Subject: [PATCH 525/837] Update test_mem_eff_attention.py for
 test_dropout/test_dropout_backward/test_backward on rocm

---
 tests/test_mem_eff_attention.py | 50 ++++++++++++++++++++++++++++++---
 1 file changed, 46 insertions(+), 4 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 1d166b336d..0c623e8eb1 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -969,6 +969,16 @@ def test_backward(
         if op_bw != fmha.cutlass.BwOp
         else fmha.cutlass.FwOp
     )
+
+    if op_bw == fmha.ck.BwOp:
+        op_fwd = fmha.ck.FwOp
+        if dtype == torch.bfloat16:
+            pytest.skip("CK Fmha backward for bfloat16 currently is not very accurate for some cases!")
+        if grad_out_contiguous == False:
+            pytest.skip("CK Fmha does not support contiguous layout for grad_out!")
+        if k % 2 != 0:
+            pytest.skip("CK Fmha currently requires the headdim size of query input be an even value!")
+
     qkv = None
 
     if (
@@ -1106,6 +1116,12 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
         rand_uniform = torch.ops.xformers._cutlass_rand_uniform(p, mask)
         mask = (rand_uniform > p).to(torch.float32)
         mask = mask.reshape(batch_size, q_len, kv_len)
+    elif op == fmha.ck.FwOp:
+        mask = torch.empty((batch_size, 1, q_len, kv_len), device=device)
+        # rand_uniform is an int8_t tensor
+        rand_uniform = torch.ops.xformers._ck_rand_uniform(p, mask)
+        mask = (rand_uniform <= int((1.0 - p) * 255.0)).to(torch.float32)
+        mask = mask.reshape(batch_size, q_len, kv_len)
     else:
         mask = torch.empty((batch_size, q_len, kv_len), device=device)
         mask = torch.ops.xformers._temp_dropout(mask, p)
@@ -1125,9 +1141,14 @@ def _get_drop_mask(op, batch_size, q_len, kv_len, p, device):
 def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     device = "cuda"
     scale = 3
-    query = torch.randn((batch_size, q_len, k_len), device=device) * scale
-    key = torch.randn((batch_size, kv_len, k_len), device=device) * scale
-    value = torch.randn((batch_size, kv_len, k_len), device=device) * scale
+
+    dtype=torch.float
+    if torch.version.hip and op == fmha.ck.FwOp:
+        dtype=torch.float16
+
+    query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
+    key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
+    value = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
 
     inputs_for_support_check = fmha.Inputs(query, key, value, attn_bias, p, None)
     if not op.supports(inputs_for_support_check):
@@ -1149,7 +1170,11 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     torch.manual_seed(seed)
     mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
     ref = ref_attention(query, key, value, attn_bias, mask, p)
-    assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
+
+    if dtype is torch.float:
+        assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
+    else:
+        assert_allclose(out.float(), ref, atol=2.2e-2), f"{(out - ref).abs().max()}"
 
     num_trials = 1000
     p_val_tol = 1e-6
@@ -1267,6 +1292,23 @@ def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
         dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
     )
 
+cuda_only
+@pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
+@pytest.mark.parametrize("k", [16, 64, 128])
+@pytest.mark.parametrize("batch_size", [1, 2])
+@pytest.mark.parametrize("kv_len", [3, 248, 256])
+@pytest.mark.parametrize("q_len", [3, 248, 256])
+@pytest.mark.parametrize("dt", ["f16"])
+def test_dropout_backward_ck(dt, q_len, kv_len, batch_size, k, p):
+    _test_dropout_backward(
+        q_len,
+        kv_len,
+        batch_size,
+        k,
+        p,
+        op=fmha.ck.FwOp,
+        dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
+    )
 
 @cuda_only
 @disable_on_rocm

From d10ef791f131ce179e37f554862539943e882768 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 16 Apr 2024 16:32:34 +0000
Subject: [PATCH 526/837] Tiny change to the philox_cuda_state input setting

---
 xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp | 3 ++-
 .../attention/hip_fmha/attention_forward_generic_ck_tiled.cpp  | 3 ++-
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index f751e751ed..b3e2418442 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -43,7 +43,8 @@ at::Tensor rand_uniform_int(
   at::PhiloxCudaState rng_engine_inputs;
   {
     std::lock_guard<std::mutex> lock(gen->mutex_);
-    rng_engine_inputs = gen->philox_cuda_state(B * num_heads * M * N);
+    rng_engine_inputs =
+        gen->philox_cuda_state((B + 3) * (num_heads + 1) * (M + 1) * (N + 1));
   }
 
   const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 48d37357b0..ba2fb56b76 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -132,7 +132,8 @@ efficient_attention_forward_ck(
     std::lock_guard<std::mutex> lock(gen->mutex_);
     // if using dropout, we produce 1 random number for each element of the
     // attention tensor
-    rng_engine_inputs = gen->philox_cuda_state(B * Hq * M * N);
+    rng_engine_inputs =
+        gen->philox_cuda_state((B + 3) * (Hq + 1) * (M + 1) * (N + 1));
 
     const auto seeds = at::cuda::philox::unpack(rng_engine_inputs);
 

From 25bd72046d64ef7a241799bb2350c49501caca7e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 16 Apr 2024 18:00:43 +0000
Subject: [PATCH 527/837] Allocate logsumexp to ensure aligned access by each
 thread-group

---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp          | 4 ++--
 .../attention/hip_fmha/attention_forward_generic_ck_tiled.cpp | 4 +++-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index ac4bceeef6..01d9ba0a82 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -207,7 +207,7 @@ efficient_attention_backward_ck(
 
     TORCH_CHECK(p.B == logsumexp.size(0));
     TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.M == logsumexp.size(2));
+    TORCH_CHECK(p.M <= logsumexp.size(2));
 
     if (scale.has_value()) {
       p.scale = float(*scale);
@@ -333,7 +333,7 @@ efficient_attention_backward_ck(
 
     TORCH_CHECK(p.num_batches == logsumexp.size(0));
     TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.max_seqlen_q == logsumexp.size(2));
+    TORCH_CHECK(p.max_seqlen_q <= logsumexp.size(2));
 
     if (scale.has_value())
       p.scale = float(*scale);
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index ba2fb56b76..de1e65dc29 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -346,8 +346,10 @@ efficient_attention_forward_ck(
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
+      // align the access of logsumexp by each thread-group in cache-line size
+      int aligned_seqlen_q = (p.max_seqlen_q + 15) / 16 * 16;
       logsumexp = at::empty(
-          {p.num_batches, Hq, p.max_seqlen_q}, opts.dtype(at::kFloat));
+          {p.num_batches, Hq, aligned_seqlen_q}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
       p.lse_strides = {
           static_cast<int>(logsumexp.stride(0)),

From abfdc27c212d4c9d48ff65db9e2c74c364cae344 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 16 Apr 2024 18:06:21 +0000
Subject: [PATCH 528/837] Add checking for query/key headdim size
 attention_backward_generic

---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp          | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 01d9ba0a82..2fe1150dc6 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -122,6 +122,10 @@ efficient_attention_backward_ck(
   int64_t K = query.size(3);
   int64_t Kv = value.size(3);
 
+  if (K % 2 != 0)
+    throw std::runtime_error(
+        "Currently CK Fmha requires the headdim of query/key be an even value!");
+
   auto opts = query.options();
 
   at::Tensor grad_q, grad_k, grad_v, grad_bias;

From ff953674421e8097dc3a1dd2c55a2dbd8440f100 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 22 Apr 2024 15:21:46 +0000
Subject: [PATCH 529/837] Using ck_tile/opt_padding_fa_train_pr2 and
 synchronize the backward codes with the changes

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 20 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 20 +++++++++----------
 4 files changed, 22 insertions(+), 22 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 6a58ce8c29..325ca5fbfd 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel-internal.git
-	branch = ck_tile/opt_padding_fa_train_pr
+	branch = ck_tile/opt_padding_fa_train_pr2
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index bbf7e3d0a4..f949afaea4 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit bbf7e3d0a4c550e54d383d8214c087d2fc184205
+Subproject commit f949afaea4abfc426676b7b9cb7e931664f9b5e8
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index f84eb306b8..904cd930e9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -24,8 +24,8 @@
 #include "ck_tiled_fmha_bwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_bwd_kernel.hpp"
 #include "fmha_bwd_epilogue.hpp"
+#include "fmha_bwd_kernel.hpp"
 #include "fmha_bwd_tile_partitioner.hpp"
 
 template <
@@ -150,12 +150,12 @@ struct batched_backward_causalmask_bias_dispatch {
                   FmhaBwdLoadStrategy_,
                   FmhaBwdPipelineProblem>::BlockPipeline;
 
-          using FmhaBwdKernel_ = FmhaBwdKernel<
+          using FmhaBwdQKVGradKernel_ = FmhaBwdQKVGradKernel<
               FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
               FmhaBwdEpilogue_>;
 
-          RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
+          RunWithBwdQKVGradKernel<FmhaBwdQKVGradKernel_>(param, stream);
         });
       });
     };
@@ -197,12 +197,12 @@ struct batched_backward_causalmask_bias_dispatch {
         kargs);
   }
 
-  template <typename FmhaBwdKernel>
-  static void RunWithBwdKernel(
+  template <typename FmhaBwdQKVGradKernel>
+  static void RunWithBwdQKVGradKernel(
       BatchedBackwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaBwdKernel::MakeKargs(
+      return FmhaBwdQKVGradKernel::MakeKargs(
           param.q_ptr,
           param.k_ptr,
           param.v_ptr,
@@ -264,13 +264,13 @@ struct batched_backward_causalmask_bias_dispatch {
           {param.philox_seed, param.philox_offset});
     }();
 
-    dim3 kGridSize = FmhaBwdKernel::GridSize(param.B, param.Hq, param.N);
-    constexpr dim3 kBlockSize = FmhaBwdKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdKernel::kBlockPerCu;
+    dim3 kGridSize = FmhaBwdQKVGradKernel::GridSize(param.B, param.Hq, param.N);
+    constexpr dim3 kBlockSize = FmhaBwdQKVGradKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdQKVGradKernel::kBlockPerCu;
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
-        FmhaBwdKernel{},
+        FmhaBwdQKVGradKernel{},
         kGridSize,
         kBlockSize,
         0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index c0b54ece84..c61cf11bc2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -24,8 +24,8 @@
 #include "ck_tiled_fmha_bwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_bwd_kernel.hpp"
 #include "fmha_bwd_epilogue.hpp"
+#include "fmha_bwd_kernel.hpp"
 #include "fmha_bwd_tile_partitioner.hpp"
 
 template <
@@ -148,12 +148,12 @@ struct grouped_backward_causalmask_bias_dispatch {
                   FmhaBwdLoadStrategy_,
                   FmhaBwdPipelineProblem>::BlockPipeline;
 
-          using FmhaBwdKernel_ = FmhaBwdKernel<
+          using FmhaBwdQKVGradKernel_ = FmhaBwdQKVGradKernel<
               FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
               FmhaBwdEpilogue_>;
 
-          RunWithBwdKernel<FmhaBwdKernel_>(param, stream);
+          RunWithBwdQKVGradKernel<FmhaBwdQKVGradKernel_>(param, stream);
         });
       });
     };
@@ -193,12 +193,12 @@ struct grouped_backward_causalmask_bias_dispatch {
         kargs);
   }
 
-  template <typename FmhaBwdKernel>
-  static void RunWithBwdKernel(
+  template <typename FmhaBwdQKVGradKernel>
+  static void RunWithBwdQKVGradKernel(
       GroupedBackwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaBwdKernel::MakeKargs(
+      return FmhaBwdQKVGradKernel::MakeKargs(
           param.q_ptr,
           param.k_ptr,
           param.v_ptr,
@@ -250,14 +250,14 @@ struct grouped_backward_causalmask_bias_dispatch {
           {param.philox_seed, param.philox_offset});
     }();
 
-    dim3 kGridSize = FmhaBwdKernel::GridSize(
+    dim3 kGridSize = FmhaBwdQKVGradKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_k);
-    constexpr dim3 kBlockSize = FmhaBwdKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdKernel::kBlockPerCu;
+    constexpr dim3 kBlockSize = FmhaBwdQKVGradKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdQKVGradKernel::kBlockPerCu;
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
-        FmhaBwdKernel{},
+        FmhaBwdQKVGradKernel{},
         kGridSize,
         kBlockSize,
         0,

From 93469ab1c10afd6ef6851b8d36cb5807706b103b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 22 Apr 2024 15:23:38 +0000
Subject: [PATCH 530/837] Enable using async pipeline in the batched inference
 path for performance

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 150 +++++++++---------
 1 file changed, 75 insertions(+), 75 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index b99fb7afc7..2b43cb6777 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -25,8 +25,8 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_tile_partitioner.hpp"
 
 template <
@@ -81,80 +81,80 @@ struct batched_infer_causalmask_bias_dispatch {
       const bool use_async_pipeline =
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
-      /*     if (!use_async_pipeline) { */
-      BOOL_SWITCH_4(
-          has_dropout,
-          kHasDropout,
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_seqlen_k,
-          kPadSeqLenK,
-          pad_headdim,
-          kPadHeadDim,
-          [&] {
-            using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDim, // kPadHeadDimQ,
-                kPadHeadDim, // kPadHeadDimV,
-                kHasBias,
-                false, // kHasBiasGrad place-holder
-                false, // kStoreLSE
-                kHasDropout,
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-            using FmhaPipeline =
-                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-            using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                kPadSeqLenQ,
-                kPadHeadDim>>;
-
-            using FmhaKernel =
-                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          });
-      /*
-            } else {
-              BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-                using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                    true, // kPadSeqLenQ,
-                    kPadSeqLenK,
-                    true, // kPadHeadDimQ,
-                    true, // kPadHeadDimV,
-                    kHasBias,
-                    false, // kStoreLSE
-                    kHasDropout,
-                    occupancy>;
-
-                using FmhaPipelineProblem =
-                    FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-                using FmhaPipeline =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                        FmhaPipelineProblem>;
-
-                using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    true,
-                    true>>;
-
-                using FmhaKernel =
-                    FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline,
-         FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              });
-            };
-      */
+      if (!use_async_pipeline) {
+        BOOL_SWITCH_4(
+            has_dropout,
+            kHasDropout,
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim,
+            kPadHeadDim,
+            [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kHasBias,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  kHasDropout,
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDim>>;
+
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK, [&] {
+          using FmhaTraits = ck::tile_program::TileFmhaTraits<
+              true, // kPadSeqLenQ,
+              kPadSeqLenK,
+              true, // kPadHeadDimQ,
+              true, // kPadHeadDimV,
+              kHasBias,
+              false, // kHasBiasGrad place-holder
+              false, // kStoreLSE
+              kHasDropout,
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline =
+              ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                  FmhaPipelineProblem>;
+
+          using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+              true,
+              true>>;
+
+          using FmhaKernel =
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        });
+      };
     });
   };
 

From 2c8626be546f457b3f7acca1328e777a6442c9c1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Apr 2024 07:08:15 +0000
Subject: [PATCH 531/837] Re-organize cpp instances for calling fmha infer
 kernel

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 16 ++--
 .../ck_tiled_fmha_batched_infer_bp16.cpp      | 77 ++++++++++++++-----
 .../ck_tiled_fmha_batched_infer_fp16.cpp      | 77 ++++++++++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 22 +++---
 .../ck_tiled_fmha_grouped_infer_bp16.cpp      | 77 ++++++++++++++-----
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      | 77 ++++++++++++++-----
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  5 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  5 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 134 files changed, 1411 insertions(+), 171 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 2b43cb6777..f67d266c14 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -33,8 +33,9 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-struct batched_infer_causalmask_bias_dispatch {
+struct batched_infer_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -59,7 +60,6 @@ struct batched_infer_causalmask_bias_dispatch {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
           ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
@@ -82,9 +82,7 @@ struct batched_infer_causalmask_bias_dispatch {
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
       if (!use_async_pipeline) {
-        BOOL_SWITCH_4(
-            has_dropout,
-            kHasDropout,
+        BOOL_SWITCH_3(
             pad_seqlen_q,
             kPadSeqLenQ,
             pad_seqlen_k,
@@ -124,7 +122,7 @@ struct batched_infer_causalmask_bias_dispatch {
               RunWithKernel<FmhaKernel>(param, stream);
             });
       } else {
-        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK, [&] {
+        BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
           using FmhaTraits = ck::tile_program::TileFmhaTraits<
               true, // kPadSeqLenQ,
               kPadSeqLenK,
@@ -228,13 +226,15 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-void run_batched_infer_causalmask_bias_dispatch(
+void run_batched_infer_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_infer_causalmask_bias_dispatch<
+  batched_infer_causalmask_bias_dropout_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
+      kHasDropout,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
index 9a14373ad7..cf7bacbe44 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
@@ -12,57 +12,96 @@
 #include "ck_tiled_fmha_batched_infer.h"
 
 // clang-format off
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_infer_causalmask_bias_dispatch<
+        run_batched_infer_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_infer_causalmask_bias_dispatch<
+        run_batched_infer_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index d2f8e7bfe5..533b86109a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -12,57 +12,96 @@
 #include "ck_tiled_fmha_batched_infer.h"
 
 // clang-format off
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_infer_causalmask_bias_dispatch<
+        run_batched_infer_causalmask_bias_dropout_dispatch<
             ck::half_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_infer_causalmask_bias_dispatch<
+        run_batched_infer_causalmask_bias_dropout_dispatch<
             ck::half_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index af5d9588b5..2a1c02b4e5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -24,16 +24,17 @@
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-struct grouped_infer_causalmask_bias_dispatch {
+struct grouped_infer_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -58,7 +59,6 @@ struct grouped_infer_causalmask_bias_dispatch {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
           ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
@@ -74,14 +74,8 @@ struct grouped_infer_causalmask_bias_dispatch {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-      BOOL_SWITCH_3(
-          has_dropout,
-          kHasDropout,
-          pad_headdim_q,
-          kPadHeadDimQ,
-          pad_headdim_v,
-          kPadHeadDimV,
-          [&] {
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
             using FmhaTraits = ck::tile_program::TileFmhaTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
@@ -179,13 +173,15 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-void run_grouped_infer_causalmask_bias_dispatch(
+void run_grouped_infer_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_infer_causalmask_bias_dispatch<
+  grouped_infer_causalmask_bias_dropout_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
+      kHasDropout,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
index c76c6e6f8d..80ef8a396f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
@@ -12,57 +12,96 @@
 #include "ck_tiled_fmha_grouped_infer.h"
 
 // clang-format off
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_infer_causalmask_bias_dispatch<
+        run_grouped_infer_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_infer_causalmask_bias_dispatch<
+        run_grouped_infer_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 4e4a1c1013..73103a0e8a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -12,57 +12,96 @@
 #include "ck_tiled_fmha_grouped_infer.h"
 
 // clang-format off
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_infer_causalmask_bias_dispatch<
+        run_grouped_infer_causalmask_bias_dropout_dispatch<
             ck::half_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_infer_causalmask_bias_dispatch<
+        run_grouped_infer_causalmask_bias_dropout_dispatch<
             ck::half_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index e5fab05c4f..936789b59e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index a3c8f6bca3..26454ef59b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index 3fc855dbbf..97272b0323 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 5573d58b7f..913afceaf6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index 87f5c89ff4..d3d4f08235 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index a17c6fabbd..a11984f7ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index d4021ed8d6..1712a317d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index e051515452..632fb07946 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 2f7ff1124c..b8a1fde666 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 3935893ca5..76b569cff0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index b4a4a9fa70..ace85cec2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 0359232694..3f1df08f68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index 9251bccc57..eafa8238e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index e113097a6a..5528f22dd0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index 0241586ac6..ceaa26f4d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 290d6b145b..e87f2672b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..6b547e34e8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..152c34e568
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..2db0507bd3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..f9b0d15190
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..5a19fe4693
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..0d9edb15dc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..25928ff520
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..823e9e1d17
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..109a6e9148
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..b278bde420
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..23f5e10f74
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..7e62dfe1f1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..6fda3ae541
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..fcc5a2bd88
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..cd7c4681bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..a2510ef7dc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index 5aba53e37f..91fa9cfb8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index 0d653b4e51..a8db3c21e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index 657708501d..cf70efd4eb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 666488a9f9..2699d7a96a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index 47d1f4e513..98cdea4045 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index 14d14ce8c3..10444d7d86 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 85eed5de99..d703893734 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index 00de9f3ee5..a6d22c6669 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 21d46d793c..6ba251a1a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 2c1779293f..8da1f1e387 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index 90138a2711..bb22a42a08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 10396a2245..ff98dd5555 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index 42edd42a51..b310ad71f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index 078a28eb7e..4e0ab2c07e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index f3791d7663..4e3d7c989b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 23b8796cef..e619bcb8d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dispatch<
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..2d60996b87
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..3a39fb4aea
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..1951d311c7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..4557fe7aa5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..ae7739be4b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..3594e81fd0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..e4fb8dbad6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..a15494b0fe
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..81607aa687
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..86e5b5a660
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..07d487f6e0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..83043e1c59
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..f6ffe49631
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..3b57b10ce6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..00872610fb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..0d69fcda01
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index dacb2b5ffd..32a098714c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index 49faae0f17..b67cc8ca61 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index 79f83bbd66..77ecf2f4a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 965428a418..efae07d30f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index ffd8ac1530..b8221e5000 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index 4a4298a246..8f5458f9a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 2584fcf0b4..d64878a934 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index 5bf323e37b..078c81ca0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index bfb0a8aab6..13205e8c4a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 46495e5f0e..e399bfbce7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index c52e17f7b1..9c3081f7ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index a8197825f3..60e847191e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index d409b257b8..f030cbb003 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index 8022f3e256..efc5b625ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index a8ab2616ce..0b7037cec5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index d0c3b76d65..7301fdb10a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..5b000a6284
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..47c79b1af3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..463a621af2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..f53906c824
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..e25c9ece72
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..093395947a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..3724a2886c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..a96ab0ce5d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..f18bf1e8fa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..cd0336e0da
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..baf202b497
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..65c0c923d4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..c9c1b385b6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..4a5e084d9c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..ae7440bf99
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..5f6048cbb5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index 3e0acc63a1..0ea9c2176a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index f17c72caaa..bc668d784b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index be812c79f0..f2375b0a79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 360180c842..66de4bf3de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index ea0f838424..dce9620da8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index 6819de0a38..eaa255d2af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 3ab3cc5c2c..1c1cee3708 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index 7470f5b12b..53434b15a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 238ef6acbf..5a2c266d66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 8647f82739..e8f0b69089 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index 28a8085229..b316aa818d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 888f0f8e75..3cc34095ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index 7226ed6160..069aa9ed68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index c8ec9fcddc..d09b9b0c0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index 80e7378e99..64d6034b49 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 826b22356d..fac8e1cfa6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dispatch<
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..886537fadd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..3d72a59090
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..822dabaddd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..8ad64cd697
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..1c9c324f6d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..e08afd8c06
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..3289a3109f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..1c6cd7d3e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..fbf764fc53
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..5fed583d57
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..1825795eb3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..45b21a50c4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..e6a42bcc41
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..592ad3232d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..af45ae2228
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..03b28b79d3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);

From bdd716c6ab5b373be23acea2c86f4603acda7b79 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Apr 2024 08:15:31 +0000
Subject: [PATCH 532/837] Re-organize cpp instances for calling fmha forward
 kernel

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 18 ++---
 .../ck_tiled_fmha_batched_forward_bp16.cpp    | 77 ++++++++++++++-----
 .../ck_tiled_fmha_batched_forward_fp16.cpp    | 77 ++++++++++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 22 +++---
 .../ck_tiled_fmha_grouped_forward_bp16.cpp    | 77 ++++++++++++++-----
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    | 77 ++++++++++++++-----
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  5 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...ask_has_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...ask_has_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...mask_has_attnbias_no_dropout_maxk_256.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_32.cpp} |  5 +-
 ...lmask_has_attnbias_no_dropout_maxk_64.cpp} |  5 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |  3 +-
 ...mask_no_attnbias_has_dropout_maxk_256.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |  3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |  3 +-
 ...lmask_no_attnbias_no_dropout_maxk_256.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |  3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |  3 +-
 ...mask_has_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...mask_has_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...lmask_has_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...lmask_has_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...almask_has_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp | 16 ++++
 ...lmask_no_attnbias_has_dropout_maxk_256.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp | 16 ++++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp | 16 ++++
 ...almask_no_attnbias_no_dropout_maxk_256.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp | 16 ++++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp | 16 ++++
 134 files changed, 1412 insertions(+), 172 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (82%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (82%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (82%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (82%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (82%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index de76314498..a0151b9794 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -24,16 +24,17 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-struct batched_forward_causalmask_bias_dispatch {
+struct batched_forward_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -58,7 +59,6 @@ struct batched_forward_causalmask_bias_dispatch {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
           ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
@@ -82,9 +82,7 @@ struct batched_forward_causalmask_bias_dispatch {
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
       /*      if (!use_async_pipeline) { */
-      BOOL_SWITCH_4(
-          has_dropout,
-          kHasDropout,
+      BOOL_SWITCH_3(
           pad_seqlen_q,
           kPadSeqLenQ,
           pad_seqlen_k,
@@ -125,7 +123,7 @@ struct batched_forward_causalmask_bias_dispatch {
           });
       /*
             } else {
-              BOOL_SWITCH_2(has_dropout, kHasDropout, pad_seqlen_k, kPadSeqLenK,
+              BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK,
          [&] { using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits< true, //
          kPadSeqLenQ, kPadSeqLenK, true, // kPadHeadDimQ true, // kPadHeadDimV
                     kHasBias,
@@ -229,13 +227,15 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-void run_batched_forward_causalmask_bias_dispatch(
+void run_batched_forward_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_forward_causalmask_bias_dispatch<
+  batched_forward_causalmask_bias_dropout_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
+      kHasDropout,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
index 6dad194592..80ba53eb4a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
@@ -13,57 +13,96 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_forward_causalmask_bias_dispatch<
+        run_batched_forward_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_forward_causalmask_bias_dispatch<
+        run_batched_forward_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 73cd2e7fef..450a70de2a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -13,57 +13,96 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+    BatchedForwardParams& param, hipStream_t stream);
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_batched_forward_causalmask_bias_dispatch<
+        run_batched_forward_causalmask_bias_dropout_dispatch<
             ck::half_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_forward_causalmask_bias_dispatch<
+        run_batched_forward_causalmask_bias_dropout_dispatch<
             ck::half_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index c50f50e7c3..0b348bd0ec 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -23,16 +23,17 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_epilogue.hpp"
+#include "fmha_fwd_kernel.hpp"
 #include "fmha_fwd_tile_partitioner.hpp"
 
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-struct grouped_forward_causalmask_bias_dispatch {
+struct grouped_forward_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaPipelineProblem<
@@ -57,7 +58,6 @@ struct grouped_forward_causalmask_bias_dispatch {
 
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-      const bool has_dropout = (param.dropout_prob > 0.0f);
 
       using FmhaMask =
           ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
@@ -74,14 +74,8 @@ struct grouped_forward_causalmask_bias_dispatch {
           !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
 
-      BOOL_SWITCH_3(
-          has_dropout,
-          kHasDropout,
-          pad_headdim_q,
-          kPadHeadDimQ,
-          pad_headdim_v,
-          kPadHeadDimV,
-          [&] {
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
             using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
@@ -181,13 +175,15 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
+    bool kHasDropout,
     ck::index_t MaxK>
-void run_grouped_forward_causalmask_bias_dispatch(
+void run_grouped_forward_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_forward_causalmask_bias_dispatch<
+  grouped_forward_causalmask_bias_dropout_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
+      kHasDropout,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
index 50e3bac623..f9d768c8c2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
@@ -13,57 +13,96 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::bhalf_t, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_forward_causalmask_bias_dispatch<
+        run_grouped_forward_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_forward_causalmask_bias_dispatch<
+        run_grouped_forward_causalmask_bias_dropout_dispatch<
             ck::bhalf_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index f566a6d2cc..abeba91f6f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -13,57 +13,96 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dispatch<ck::half_t, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+    GroupedForwardParams& param, hipStream_t stream);
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH(param.has_attn_bias, kHasBias, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
-        run_grouped_forward_causalmask_bias_dispatch<
+        run_grouped_forward_causalmask_bias_dropout_dispatch<
             ck::half_t,
             false,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_forward_causalmask_bias_dispatch<
+        run_grouped_forward_causalmask_bias_dropout_dispatch<
             ck::half_t,
             true,
             kHasBias,
+            kHasDropout,
             MaxK>(param, stream);
       else
         throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index 0e2eced3cb..dbf8459d27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index 0ee352e554..0bc2865fc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index 3ce3f2fd38..9390f08a43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 11674e05d5..dea796009f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index 51996f5f88..18ace4cc5d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index 2edf0c9b7d..1dc1c67ed8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 00e19f71db..16f51cf1ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index 235c706f36..95731a02ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 99f9d3dc4e..3c274c3d63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 078bfe33f9..0c4156fafa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index c6c070287a..dfd1278399 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 529837a274..3b52555be3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index a7aec2f1aa..657a998653 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index d99707cf36..263d46e27a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index f723ed872d..775c6c1b15 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 5d0095c4f3..4a6a7ee895 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..c2a2db5862
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..bc20e97bde
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..d6709f88e1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..95eb46660a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..a4ca78d9e8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..e515cfbb5b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..7f573e21ec
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..6980a41413
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..a6784236f5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..df6c6c72de
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..394728af12
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..b2ef9186f2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..4abe212c7c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..bab70f8142
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..8b8cc0a16b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..c2f4badc4c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index c8b985564d..249c4f425f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index e0beb8f59b..33ea7c25a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index a58be730c3..fcc6ac1533 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 5ef660d354..f7547b5772 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index c12bcafdb6..dd28c7c871 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index bb11268297..808d4e7100 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 6911476cb2..72c6714a58 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index f9aaf8a71c..f0c6d5967a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 3c6aa04c50..5f0d702390 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 00aacf534e..0ac3953bc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index 9e2963e42e..22586dc956 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 93972071bd..8ea49cdfd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index c1d701e6ee..505d4d0482 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index 01435a3011..a438cca43e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index e499377ba2..96fd2bbb25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 8cf6fe5511..4a51059964 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dispatch<
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..ca332b921c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..2791fc6ff6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..f40ba4ec37
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..03a78009e5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..bd319545a0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..97f7fbd46c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..5edd0cd404
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..4e0f85734c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..da15841a32
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..f2ba8c9114
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..93ef1d810e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..ab6382b622
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..84deea900f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..cf24162f41
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..392151f6d3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..2960c998bc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index 6b74ac6122..e801c3f93c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index d973d299b1..da3f9451c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index 3ff1b29014..097cc7bf6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 1347d1da89..26f0cb5ec4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index b4320968e3..48887ba1b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index cdb13030e0..8b49d8374a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 344307c4ca..49402375a9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index 0da1dbf1a8..a402d98059 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 5a078f4ada..d5f2785d78 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index 7654c11cda..9a7c28fb5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index dd8ee28795..e8e1a889f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index a8604cd7c2..cf02458332 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index d9e3392666..ba58b2a3ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index 339c05c017..3f472877db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index 9c600d90e9..533d97a531 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index c2ecf7d9de..48672f2e0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..ec2af1f104
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..44f5e1e413
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..498e15bcdd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..e08bd87d21
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..ccf7b1e1f1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..1c0dee6a39
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..d7fdf67893
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..b91e4a3ea4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..4a208cf12f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..07b92f6fbb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..d561c4e086
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..21a57dfca6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..7088d0d9d4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..f4cc5ac8f3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..2f8b750df4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..ac9d81f958
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
index 6f1a866bd0..c9b178a761 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
index 60a5f9444c..82533dfa98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
index c549aec614..090d3465dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
index 8198f3beb3..99bf4bee6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
index d5fa2c40c9..2290c94108 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
index 59d0142bec..a685ec502e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
index 503b4c2452..22e90a4ccf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
index f63f6b44dc..b44e850899 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 3bbfba9bab..c9742c9702 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
index ecb005898c..dab84d1f53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index 53ce1e9628..109bf6cdcf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 80a645aa81..79a9ecc5ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index dd27d65c04..c6d8e12e24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
index a945f41900..cdd4a6b4f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index 03c98bd6f4..7e1478866a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 82%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 451004e3bc..a98daba6c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dispatch<
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..5fe2e08fc1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..f645e14734
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..686f65bca4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..f7aa2630bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..6b851c95d5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..83b4ca32ed
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..35472c1e81
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..c4f645028d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..72022fb987
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..48d249424b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..0207a2691e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..8cdf116457
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..137412fd92
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..a1fccefe05
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..273593b9de
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..8b638fa324
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,16 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);

From 44d4592dd85366f4db95b052000decce838b7e89 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Apr 2024 09:32:34 +0000
Subject: [PATCH 533/837] Re-organize cpp instances for calling fmha backward
 kernel

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h |  12 ++-
 .../ck_tiled_fmha_batched_backward_bp16.cpp   |  92 ++++++++++++----
 .../ck_tiled_fmha_batched_backward_fp16.cpp   |  92 ++++++++++++----
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h |  11 +-
 .../ck_tiled_fmha_grouped_backward_bp16.cpp   | 100 +++++++++++++-----
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   |  92 ++++++++++++----
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...nbias_has_biasgrad_no_dropout_maxk_32.cpp} |   3 +-
 ...nbias_has_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   3 +-
 ...nbias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...nbias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...nbias_no_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |   3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |   3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |   5 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...nbias_has_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...nbias_no_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...tnbias_no_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp |  17 +++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp |  17 +++
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   3 +-
 ...nbias_has_biasgrad_no_dropout_maxk_32.cpp} |   3 +-
 ...nbias_has_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...nbias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...nbias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...nbias_no_biasgrad_no_dropout_maxk_128.cpp} |   3 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |   5 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |   3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |   5 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...nbias_has_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...nbias_no_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...tnbias_no_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp |  17 +++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp |  17 +++
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...nbias_has_biasgrad_no_dropout_maxk_32.cpp} |   3 +-
 ...nbias_has_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   3 +-
 ...nbias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...nbias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...nbias_no_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |   3 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |   3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |   5 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...nbias_has_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...nbias_no_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...tnbias_no_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp |  17 +++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp |  17 +++
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   3 +-
 ...nbias_has_biasgrad_no_dropout_maxk_32.cpp} |   3 +-
 ...nbias_has_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...nbias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...nbias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...nbias_no_biasgrad_no_dropout_maxk_128.cpp} |   3 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...tnbias_no_biasgrad_no_dropout_maxk_64.cpp} |   3 +-
 ...mask_no_attnbias_has_dropout_maxk_128.cpp} |   5 +-
 ...lmask_no_attnbias_has_dropout_maxk_32.cpp} |   3 +-
 ...lmask_no_attnbias_has_dropout_maxk_64.cpp} |   5 +-
 ...lmask_no_attnbias_no_dropout_maxk_128.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_32.cpp} |   3 +-
 ...almask_no_attnbias_no_dropout_maxk_64.cpp} |   3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...nbias_has_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...nbias_has_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...tnbias_has_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...nbias_no_biasgrad_has_dropout_maxk_128.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_32.cpp |  17 +++
 ...tnbias_no_biasgrad_has_dropout_maxk_64.cpp |  17 +++
 ...tnbias_no_biasgrad_no_dropout_maxk_128.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_32.cpp |  17 +++
 ...ttnbias_no_biasgrad_no_dropout_maxk_64.cpp |  17 +++
 ...lmask_no_attnbias_has_dropout_maxk_128.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_32.cpp |  17 +++
 ...almask_no_attnbias_has_dropout_maxk_64.cpp |  17 +++
 ...almask_no_attnbias_no_dropout_maxk_128.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_32.cpp |  17 +++
 ...salmask_no_attnbias_no_dropout_maxk_64.cpp |  17 +++
 150 files changed, 1688 insertions(+), 199 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp} (83%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp} (83%)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 904cd930e9..28cddb133e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -33,8 +33,9 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasBiasGrad,
+    bool kHasDropout,
     ck::index_t MaxK>
-struct batched_backward_causalmask_bias_dispatch {
+struct batched_backward_causalmask_bias_dropout_dispatch {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
       typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
@@ -111,7 +112,6 @@ struct batched_backward_causalmask_bias_dispatch {
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
         constexpr ck::index_t occupancy = 1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-        const bool has_dropout = (param.dropout_prob > 0.0f);
 
         using FmhaMask =
             ck::tile_program::block::SimplifiedGenericAttentionMask<
@@ -130,7 +130,7 @@ struct batched_backward_causalmask_bias_dispatch {
         // to determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_headdim, kPadHeadDim, [&] {
+        BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
           using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
@@ -283,14 +283,16 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasBiasGrad,
+    bool kHasDropout,
     ck::index_t MaxK>
-void run_batched_backward_causalmask_bias_dispatch(
+void run_batched_backward_causalmask_bias_dropout_dispatch(
     BatchedBackwardParams& param,
     hipStream_t stream) {
-  batched_backward_causalmask_bias_dispatch<
+  batched_backward_causalmask_bias_dropout_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
       kHasBiasGrad,
+      kHasDropout,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
index db2b56742b..87f4ad1073 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
@@ -13,64 +13,112 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias, kHasBias, param.bias_has_grad, kHasBiasGrad, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_3(
+      param.has_attn_bias,
+      kHasBias,
+      param.bias_has_grad,
+      kHasBiasGrad,
+      has_dropout,
+      kHasDropout,
+      [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_batched_backward_causalmask_bias_dispatch<
+              run_batched_backward_causalmask_bias_dropout_dispatch<
                   ck::bhalf_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_batched_backward_causalmask_bias_dispatch<
+              run_batched_backward_causalmask_bias_dropout_dispatch<
                   ck::bhalf_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index 4623094358..ed39b5a891 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -13,64 +13,112 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 64>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 128>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias, kHasBias, param.bias_has_grad, kHasBiasGrad, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_3(
+      param.has_attn_bias,
+      kHasBias,
+      param.bias_has_grad,
+      kHasBiasGrad,
+      has_dropout,
+      kHasDropout,
+      [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_batched_backward_causalmask_bias_dispatch<
+              run_batched_backward_causalmask_bias_dropout_dispatch<
                   ck::half_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_batched_backward_causalmask_bias_dispatch<
+              run_batched_backward_causalmask_bias_dropout_dispatch<
                   ck::half_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index c61cf11bc2..45d3859a64 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -33,8 +33,9 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasBiasGrad,
+    bool kHasDropout,
     ck::index_t MaxK>
-struct grouped_backward_causalmask_bias_dispatch {
+struct grouped_backward_causalmask_bias_dropout_dispatch {
   using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
       typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
@@ -128,7 +129,7 @@ struct grouped_backward_causalmask_bias_dispatch {
         // to determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-        BOOL_SWITCH_2(has_dropout, kHasDropout, pad_headdim, kPadHeadDim, [&] {
+        BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
           using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
@@ -270,14 +271,16 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasBiasGrad,
+    bool kHasDropout,
     ck::index_t MaxK>
-void run_grouped_backward_causalmask_bias_dispatch(
+void run_grouped_backward_causalmask_bias_dropout_dispatch(
     GroupedBackwardParams& param,
     hipStream_t stream) {
-  grouped_backward_causalmask_bias_dispatch<
+  grouped_backward_causalmask_bias_dropout_dispatch<
       ScalarType,
       kHasCausalMask,
       kHasBias,
       kHasBiasGrad,
+      kHasDropout,
       MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
index f0164e470f..6db5544051 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
@@ -13,68 +13,112 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::bhalf_t, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_3(
       param.has_attn_bias,
-      HAS_ATTN_BIAS,
+      kHasBias,
       param.bias_has_grad,
-      HAS_BIAS_GRAD,
+      kHasBiasGrad,
+      has_dropout,
+      kHasDropout,
       [&] {
-        if constexpr (HAS_ATTN_BIAS || !HAS_BIAS_GRAD) {
+        if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_grouped_backward_causalmask_bias_dispatch<
+              run_grouped_backward_causalmask_bias_dropout_dispatch<
                   ck::bhalf_t,
                   false,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_grouped_backward_causalmask_bias_dispatch<
+              run_grouped_backward_causalmask_bias_dropout_dispatch<
                   ck::bhalf_t,
                   true,
-                  HAS_ATTN_BIAS,
-                  HAS_BIAS_GRAD,
+                  kHasBias,
+                  kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index 7703b742c7..3dfc6f7f15 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -13,64 +13,112 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dispatch<ck::half_t, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 64>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 128>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
-  BOOL_SWITCH_2(
-      param.has_attn_bias, kHasBias, param.bias_has_grad, kHasBiasGrad, [&] {
+  const bool has_dropout = (param.dropout_prob > 0.0f);
+  BOOL_SWITCH_3(
+      param.has_attn_bias,
+      kHasBias,
+      param.bias_has_grad,
+      kHasBiasGrad,
+      has_dropout,
+      kHasDropout,
+      [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
-              run_grouped_backward_causalmask_bias_dispatch<
+              run_grouped_backward_causalmask_bias_dropout_dispatch<
                   ck::half_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_grouped_backward_causalmask_bias_dispatch<
+              run_grouped_backward_causalmask_bias_dropout_dispatch<
                   ck::half_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
+                  kHasDropout,
                   MaxK>(param, stream);
             else
               throw std::runtime_error("Invalid custom_mask_type value");
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
index f6bf4bd6f2..53ab69fc27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     true,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
index 0514bf28ab..17e2eef9a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     true,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
index ee19b37dec..e5903a2626 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     true,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
index 484d96a418..3d93e9168b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    true,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
index 75966fb732..7c827865f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
index 07dc496fd3..34e32791ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
index 8ab4f42290..0f2ad6e782 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
index 8f22808ad8..746539438a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
index e173fd0cb9..46de1be238 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
index 395d187a7a..fea36c72b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
index 89a5c06243..f570c926e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
index 3d9272061b..463aa81de2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 736256e63a..6186abdf8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
     false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index c44a2f99e5..175fbaf4db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
     false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 09f17fb59d..c8e379d59b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index 11023b667e..2a535ec0c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index 1ca23feadd..74e6105e7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index f71dedaafc..fa3b403a35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..6d1a95675b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..2c227abf21
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..7375b1aca8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..d987a2516b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..9cf279c5bd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..62f5b6e56e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..afe52ab8b2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..5619a50296
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..6b04d766af
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..693ac4f26e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..aa754420b9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..04badab083
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..366e6a68e8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..0f0c587435
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..2a8279443e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..c943f2ea38
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..6cfe5c349d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..4c2d55d062
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
index cb146d6c5e..c7c2bf0209 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
     true,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
index 32b7d5373e..970c63e143 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
     true,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
index 42e57c6a8a..cbde5ad7fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
     true,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
index 442263f0c1..b382ff62f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
index 9d20c01c5e..d7b02b3c2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
index 95d62e3da4..490fe4261f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
index 94477c6a6c..9b50b4648d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     true,
+    false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
index 2dc0722716..acce3f8243 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     true,
+    false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
index abb6f7933a..bf3c4e2bb7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     true,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
index 074f41cdb8..1dc265944b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
index 77395133b2..d6c19a81b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
index 50687e28ba..290b1c60da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index 3f2b9ddec2..f97b3829dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index cea3242f4a..42a2945dd6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
     false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 1bb5433e9c..dd60fbab57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index f0e4e22afc..dc07dbddf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index fc49a01822..0800dd7ca8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 8deba9920a..d0ea35d545 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dispatch<
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..54b193591a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..acc06d6639
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..349ef31900
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..4fc4e8bbde
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..82ec79aca9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..2d9fb867a8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..878d2b9682
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..5dea3b92d9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..614dc4af56
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..fae40a708c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..1bee92536b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..fe583539d1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..0da1f95e40
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..01c8505095
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..b85f2ac56e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..dd77dc88ce
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..30fc3c1dd3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..e6184baf5a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
index 06974cabbd..529a8931ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     true,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
index 7bc1dafaeb..eca64f3829 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     true,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
index e08c2d2a0e..03de226681 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     true,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
index fcd672d9e5..be2d548367 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    true,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
index 8bdecd02e9..eac3e148d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
index b68b7f0f1c..bd0ce8e791 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
+    true,
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
index 7f745b0057..3b24da32a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
     false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
index 18151b2ced..ec9f2db83e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
index f7f1647205..1d0d05754f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
index 4c81b91d18..7028cb7dc2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
index 4ea3986a55..0a15c5dad3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    true,
+    false,
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
index 42f675373d..01d422c007 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index bd728f9672..4f39ed2537 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
     false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index 1daa010627..0f586cdc40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     false,
     false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index 67caf36b22..88ac4b243c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index 44e53a806d..d1d05d05a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index 9034115feb..8721df90eb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 25e2ba32ad..08646ecca3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..9cf7db73fe
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..a8d69e6192
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..4391d4d7d7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..5343b0c3a6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..a67bb299df
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..4a3d28b51f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..1483143567
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..305697e7bb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..ad7cdd7037
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..fff043eb01
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..b15836d17e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..e671f3ca21
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    true,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..e9f870c4c9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..66fc7c9b3c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..5001ac06e6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..98836e82a0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..696e14ca3d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..1e1226c574
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::bhalf_t,
+    false,
+    false,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
index fb50648f40..9b75204111 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
     true,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
index a3e58ba19b..40c3e25664 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
     true,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
index 445f59fb52..4c1939000c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
     true,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
index 0e62099887..c259e3b896 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
index 01d441c5ff..8e6d377fc8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
index c332b580ae..c5ec3f4fb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     true,
+    true,
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
index bbfe4fc481..bfc021bc9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     true,
+    false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
index b0eea03c4b..76d4ae7198 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     true,
+    false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
index 035e4c43e8..a3b402dfa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     true,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
index 1b61d184af..9b04b655aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
index a6c3641462..b584502080 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    true,
+    false,
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
index 4664327cae..b77d5ceaf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
+    true,
     false,
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
index f4a38dab8d..b4a55a585f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
index d8ddfbb5d7..7d2ed485ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
     true,
     false,
     false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
index f45d7495fb..8ff66d0b0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -8,9 +8,10 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
index 440c1b41ab..ba4dee3e87 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
index cc2945436b..9f968835e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
similarity index 83%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
index 00b2f08d63..bea50e4e63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -8,8 +8,9 @@
 
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dispatch<
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    true,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..ee30cdf9f8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..68996ba94d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..90e9244101
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..dca1cfdaef
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..0da0b4fd47
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..5fb6beace0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..84478d9321
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..574a1271b9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..534684ec41
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..a70c75ccfe
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..62437cb366
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..d91b9c6489
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    true,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..cc82da7efa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..7a389f87d4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..2bac6d9f8f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
new file mode 100644
index 0000000000..cff4bd1388
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
new file mode 100644
index 0000000000..1173b72927
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
new file mode 100644
index 0000000000..8159058ba8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
@@ -0,0 +1,17 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <ck/ck.hpp>
+
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck::half_t,
+    false,
+    false,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);

From 51ca91bba0d56f3f2cb31d48159f664104a93a82 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Apr 2024 11:02:19 +0000
Subject: [PATCH 534/837] Position the composable_kernel_tiled to
 ck_tile/opt_padding_fa_train branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 325ca5fbfd..e2435dd051 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel-internal.git
-	branch = ck_tile/opt_padding_fa_train_pr2
+	branch = ck_tile/opt_padding_fa_train
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index f949afaea4..6c886a030d 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit f949afaea4abfc426676b7b9cb7e931664f9b5e8
+Subproject commit 6c886a030d1763660f8c519ee28990c3cc3067ae

From 16936839ffa0e4a246153364e276692beca5945e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Apr 2024 15:06:38 +0000
Subject: [PATCH 535/837] Update to synchronize with the latest commits in
 ck_tile/opt_padding_fa_train

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 31 ++++-----
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 69 +++++++++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 31 ++++-----
 4 files changed, 79 insertions(+), 54 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 6c886a030d..7192a46c65 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 6c886a030d1763660f8c519ee28990c3cc3067ae
+Subproject commit 7192a46c65056b34d436bb74045db36f47aac05c
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 28cddb133e..4c979ecc23 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -15,7 +15,6 @@
 
 #include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dot_do_o.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_dispatcher.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_problem.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
@@ -41,8 +40,6 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
       typename FmhaBwdTypeConfig<ScalarType>::VGradDataType>>;
 
-  using FmhaBwdLoadStrategy_ = typename FmhaBwdLoadStrategy<MaxK>::type;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaBwdPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaBwdPipelineProblem<
@@ -145,17 +142,19 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           using FmhaBwdPipelineProblem =
               FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
 
-          using FmhaBwdPipeline_ =
-              typename ck::tile_program::block::BlockFmhaBwdPipelineDispatcher<
-                  FmhaBwdLoadStrategy_,
-                  FmhaBwdPipelineProblem>::BlockPipeline;
+          constexpr auto FmhaBwdPipelineEnum_ =
+              FmhaBwdPipelineEnumSelector<MaxK>::value;
+
+          using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
+              FmhaBwdPipelineEnum_,
+              FmhaBwdPipelineProblem>::pipeline;
 
-          using FmhaBwdQKVGradKernel_ = FmhaBwdQKVGradKernel<
+          using FmhaBwdDQDKDVKernel_ = FmhaBwdDQDKDVKernel<
               FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
               FmhaBwdEpilogue_>;
 
-          RunWithBwdQKVGradKernel<FmhaBwdQKVGradKernel_>(param, stream);
+          RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
         });
       });
     };
@@ -197,12 +196,12 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         kargs);
   }
 
-  template <typename FmhaBwdQKVGradKernel>
-  static void RunWithBwdQKVGradKernel(
+  template <typename FmhaBwdDQDKDVKernel>
+  static void RunWithBwdDQDKDVKernel(
       BatchedBackwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaBwdQKVGradKernel::MakeKargs(
+      return FmhaBwdDQDKDVKernel::MakeKargs(
           param.q_ptr,
           param.k_ptr,
           param.v_ptr,
@@ -264,13 +263,13 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           {param.philox_seed, param.philox_offset});
     }();
 
-    dim3 kGridSize = FmhaBwdQKVGradKernel::GridSize(param.B, param.Hq, param.N);
-    constexpr dim3 kBlockSize = FmhaBwdQKVGradKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdQKVGradKernel::kBlockPerCu;
+    dim3 kGridSize = FmhaBwdDQDKDVKernel::GridSize(param.B, param.Hq, param.N);
+    constexpr dim3 kBlockSize = FmhaBwdDQDKDVKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdDQDKDVKernel::kBlockPerCu;
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
-        FmhaBwdQKVGradKernel{},
+        FmhaBwdDQDKDVKernel{},
         kGridSize,
         kBlockSize,
         0,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 1d004dc8a9..08cb7ba2b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -6,6 +6,10 @@
  */
 #pragma once
 
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dq_dk_dv_pipeline_ks_kts_vr.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dq_dk_dv_pipeline_ks_vr.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dq_dk_dv_pipeline_qs_ks_vr_dos.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_enum.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 
 template <typename DataType>
@@ -49,24 +53,6 @@ struct FmhaBwdTypeConfig<ck::bhalf_t> {
   using BiasGradDataType = ck::bhalf_t;
 };
 
-template <ck::index_t MaxK>
-struct FmhaBwdLoadStrategy;
-
-template <>
-struct FmhaBwdLoadStrategy<32> {
-  using type = ck::Sequence<true, false, true, false, true, true, false>;
-};
-
-template <>
-struct FmhaBwdLoadStrategy<64> {
-  using type = ck::Sequence<false, false, true, true, true, false, false>;
-};
-
-template <>
-struct FmhaBwdLoadStrategy<128> {
-  using type = ck::Sequence<false, false, true, false, true, false, false>;
-};
-
 template <ck::index_t MaxK>
 struct FmhaBwdBlockTile;
 
@@ -96,7 +82,6 @@ struct FmhaBwdShape;
 template <>
 struct FmhaBwdShape<32> : ck::tile_program::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<32>::type,
-                              typename FmhaBwdLoadStrategy<32>::type,
                               FmhaBwdBlockWarps0,
                               FmhaBwdWarpTile,
                               FmhaBwdBlockWarps1,
@@ -111,7 +96,6 @@ struct FmhaBwdShape<32> : ck::tile_program::TileFmhaBwdShape<
 template <>
 struct FmhaBwdShape<64> : ck::tile_program::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<64>::type,
-                              typename FmhaBwdLoadStrategy<64>::type,
                               FmhaBwdBlockWarps0,
                               FmhaBwdWarpTile,
                               FmhaBwdBlockWarps1,
@@ -126,7 +110,6 @@ struct FmhaBwdShape<64> : ck::tile_program::TileFmhaBwdShape<
 template <>
 struct FmhaBwdShape<128> : ck::tile_program::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<128>::type,
-                               typename FmhaBwdLoadStrategy<128>::type,
                                FmhaBwdBlockWarps0,
                                FmhaBwdWarpTile,
                                FmhaBwdBlockWarps1,
@@ -137,3 +120,47 @@ struct FmhaBwdShape<128> : ck::tile_program::TileFmhaBwdShape<
                                FmhaBwdWarpTile,
                                FmhaBwdBlockWarps2,
                                FmhaBwdWarpTile> {};
+
+template <ck::index_t MaxK>
+struct FmhaBwdPipelineEnumSelector;
+
+template <>
+struct FmhaBwdPipelineEnumSelector<32> {
+  static constexpr ck::BlockFmhaBwdPipelineEnum value =
+      ck::BlockFmhaBwdPipelineEnum::QSKSVROGradS;
+};
+
+template <>
+struct FmhaBwdPipelineEnumSelector<64> {
+  static constexpr ck::BlockFmhaBwdPipelineEnum value =
+      ck::BlockFmhaBwdPipelineEnum::KSKTSVR;
+};
+
+template <>
+struct FmhaBwdPipelineEnumSelector<128> {
+  static constexpr ck::BlockFmhaBwdPipelineEnum value =
+      ck::BlockFmhaBwdPipelineEnum::KSVR;
+};
+
+template <ck::BlockFmhaBwdPipelineEnum value, typename problem>
+struct FmhaBwdPipelineMaker;
+
+template <typename problem>
+struct FmhaBwdPipelineMaker<
+    ck::BlockFmhaBwdPipelineEnum::QSKSVROGradS,
+    problem> {
+  using pipeline =
+      ck::tile_program::block::BlockFmhaBwdDQDKDVPipelineQSKSVROGradS<problem>;
+};
+
+template <typename problem>
+struct FmhaBwdPipelineMaker<ck::BlockFmhaBwdPipelineEnum::KSKTSVR, problem> {
+  using pipeline =
+      ck::tile_program::block::BlockFmhaBwdDQDKDVPipelineKSKTSVR<problem>;
+};
+
+template <typename problem>
+struct FmhaBwdPipelineMaker<ck::BlockFmhaBwdPipelineEnum::KSVR, problem> {
+  using pipeline =
+      ck::tile_program::block::BlockFmhaBwdDQDKDVPipelineKSVR<problem>;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 45d3859a64..881f07b521 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -15,7 +15,6 @@
 
 #include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dot_do_o.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_dispatcher.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_problem.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
@@ -41,8 +40,6 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
       typename FmhaBwdTypeConfig<ScalarType>::VGradDataType>>;
 
-  using FmhaBwdLoadStrategy_ = typename FmhaBwdLoadStrategy<MaxK>::type;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaBwdPipelineProblemTemp =
       ck::tile_program::block::BlockFmhaBwdPipelineProblem<
@@ -144,17 +141,19 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           using FmhaBwdPipelineProblem =
               FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
 
-          using FmhaBwdPipeline_ =
-              typename ck::tile_program::block::BlockFmhaBwdPipelineDispatcher<
-                  FmhaBwdLoadStrategy_,
-                  FmhaBwdPipelineProblem>::BlockPipeline;
+          constexpr auto FmhaBwdPipelineEnum_ =
+              FmhaBwdPipelineEnumSelector<MaxK>::value;
+
+          using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
+              FmhaBwdPipelineEnum_,
+              FmhaBwdPipelineProblem>::pipeline;
 
-          using FmhaBwdQKVGradKernel_ = FmhaBwdQKVGradKernel<
+          using FmhaBwdDQDKDVKernel_ = FmhaBwdDQDKDVKernel<
               FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
               FmhaBwdEpilogue_>;
 
-          RunWithBwdQKVGradKernel<FmhaBwdQKVGradKernel_>(param, stream);
+          RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
         });
       });
     };
@@ -194,12 +193,12 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         kargs);
   }
 
-  template <typename FmhaBwdQKVGradKernel>
-  static void RunWithBwdQKVGradKernel(
+  template <typename FmhaBwdDQDKDVKernel>
+  static void RunWithBwdDQDKDVKernel(
       GroupedBackwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaBwdQKVGradKernel::MakeKargs(
+      return FmhaBwdDQDKDVKernel::MakeKargs(
           param.q_ptr,
           param.k_ptr,
           param.v_ptr,
@@ -251,14 +250,14 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           {param.philox_seed, param.philox_offset});
     }();
 
-    dim3 kGridSize = FmhaBwdQKVGradKernel::GridSize(
+    dim3 kGridSize = FmhaBwdDQDKDVKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_k);
-    constexpr dim3 kBlockSize = FmhaBwdQKVGradKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdQKVGradKernel::kBlockPerCu;
+    constexpr dim3 kBlockSize = FmhaBwdDQDKDVKernel::BlockSize();
+    constexpr ck::index_t kBlockPerCu = FmhaBwdDQDKDVKernel::kBlockPerCu;
 
     (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
         StreamConfig{stream, false},
-        FmhaBwdQKVGradKernel{},
+        FmhaBwdDQDKDVKernel{},
         kGridSize,
         kBlockSize,
         0,

From b7aa908348e6e453a0c713ec518cd9647047441d Mon Sep 17 00:00:00 2001
From: carlushuang <carlus.huang@amd.com>
Date: Fri, 26 Apr 2024 05:44:41 +0000
Subject: [PATCH 536/837] update submodule to public

---
 .gitmodules | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.gitmodules b/.gitmodules
index e2435dd051..e761e75987 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -6,5 +6,5 @@
 	url = https://github.com/Dao-AILab/flash-attention.git
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
-	url = https://github.com/ROCm/composable_kernel-internal.git
+	url = https://github.com/ROCm/composable_kernel.git
 	branch = ck_tile/opt_padding_fa_train

From b4fa26da052397a37ff4b4542a01438906467ca4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 6 May 2024 08:52:02 +0000
Subject: [PATCH 537/837] Update to the criteria for padding seqlen_k in
 batched infer/forward

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h    | 3 ++-
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 3 ++-
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index a0151b9794..501f0c6757 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -69,7 +69,8 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
       const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
-      const bool pad_seqlen_k = !(param.N % FmhaFwdShape_::kN0 == 0);
+      const bool pad_seqlen_k =
+          (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
       const bool pad_headdim_q =
           !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index f67d266c14..acd967f14c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -70,7 +70,8 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
       const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-      const bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
+      const bool pad_seqlen_k =
+          (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
       const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 

From ee7950f5708f3237c7fcea46d22551cc11b4d946 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 6 May 2024 18:05:51 +0000
Subject: [PATCH 538/837] Keep latest track of ck-tile commits

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 7192a46c65..d1da1e3118 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 7192a46c65056b34d436bb74045db36f47aac05c
+Subproject commit d1da1e311891243948c51ea6b58861ceadfd4000

From 74dfdfec159ec55f6f226836342914dee52afadc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 8 May 2024 08:43:45 +0000
Subject: [PATCH 539/837] Tiny fixing to the decoder including

---
 xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h | 2 +-
 .../attention/hip_fmha/ck_attention_forward_decoder_splitk.h    | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 57d54eda2f..cc6cdebbc3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -6,7 +6,7 @@
  */
 #pragma once
 
-#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
 #include <ck/stream_config.hpp>
 #include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 3efe1385cc..6d18846e79 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -1,6 +1,6 @@
 #pragma once
 
-#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/host_utility/kernel_launch.hpp>
 #include <ck/stream_config.hpp>
 #include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>

From 410757e79eb2904e5c1d8b90e8d1a6a21190d930 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 9 May 2024 08:34:06 +0000
Subject: [PATCH 540/837] Position the ck-tiled to ck_tile/opt_padding branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index e761e75987..f9d0b39796 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = ck_tile/opt_padding_fa_train
+	branch = ck_tile/opt_padding
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index d1da1e3118..dca9abd86e 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit d1da1e311891243948c51ea6b58861ceadfd4000
+Subproject commit dca9abd86e6c601792f9ce704b6b2c18de081cb1

From 92924d4e8b60b5b19ec5a9e37ca3888db703f0b5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 11 May 2024 14:14:40 +0000
Subject: [PATCH 541/837] Enable some attn_bias types which were previously
 disabled by old-ck in ck.py

---
 xformers/ops/fmha/ck.py | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index acc06f4386..9a2330f493 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -365,16 +365,14 @@ class BwOp(AttentionBwOpBase):
         type(None),
         torch.Tensor,
         LowerTriangularMask,
-        # LowerTriangularFromBottomRightMask,
-        # TODO: Still some infs/nans in the BW pass for
-        # local + causal
-        # LowerTriangularFromBottomRightLocalAttentionMask,
+        LowerTriangularFromBottomRightMask,
+        LowerTriangularFromBottomRightLocalAttentionMask,
         # TODO: Fix handling of gradient through the fMHA autograd function
         # LowerTriangularMaskWithTensorBias,
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        # attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        attn_bias.BlockDiagonalCausalLocalAttentionMask,
     }
     SUPPORTS_ATTN_BIAS_GRAD = True
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT

From 23f64bd0ae6e06296d570f08d1d52bf1bed2ad56 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 14 May 2024 15:07:45 +0000
Subject: [PATCH 542/837] Add script generate_instances.py which helps to
 generate instances

---
 .../attention/hip_fmha/generate_instances.py  | 192 ++++++++++++++++++
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   7 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   9 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   9 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   9 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   7 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   9 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   9 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   9 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   9 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   9 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   9 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   9 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   9 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   9 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   7 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   7 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   7 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   9 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   9 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   9 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   7 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   9 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   9 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   9 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   9 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   9 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   9 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   9 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   9 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   9 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   7 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   7 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   7 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   7 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   7 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   7 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   5 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   5 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   5 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   7 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   7 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   7 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   5 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   5 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   5 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   5 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   5 +-
 401 files changed, 1998 insertions(+), 606 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/generate_instances.py
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (89%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (88%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (88%)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
new file mode 100644
index 0000000000..f835ad82f2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -0,0 +1,192 @@
+# Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+#
+
+import os
+from pathlib import Path
+
+FMHA_INSTANCE_HEADER = """
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+"""
+
+FMHA_INFER_INSTANCE_TEMPLATE="""
+#include <ck/ck.hpp>
+#include \"ck_tiled_fmha_{mode}_infer.h\"
+
+template void run_{mode}_infer_causalmask_bias_dropout_dispatch<
+    {dtype},
+    {has_causalmask},
+    {has_bias},
+    {has_dropout},
+    {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
+"""
+
+FMHA_INFER_INSTANCE_FNAME="fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+
+FMHA_FORWARD_INSTANCE_TEMPLATE="""
+#include <ck/ck.hpp>
+#include \"ck_tiled_fmha_{mode}_forward.h\"
+
+template void run_{mode}_forward_causalmask_bias_dropout_dispatch<
+    {dtype},
+    {has_causalmask},
+    {has_bias},
+    {has_dropout},
+    {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
+"""
+
+FMHA_FORWARD_INSTANCE_FNAME="fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+
+FMHA_BACKWARD_INSTANCE_TEMPLATE="""
+#include <ck/ck.hpp>
+#include \"ck_tiled_fmha_{mode}_backward.h\"
+
+template void run_{mode}_backward_causalmask_bias_dropout_dispatch<
+    {dtype},
+    {has_causalmask},
+    {has_bias},
+    {has_bias_grad},
+    {has_dropout},
+    {max_k}>({cap_mode}BackwardParams& param, hipStream_t stream);
+"""
+
+FMHA_BACKWARD_INSTANCE_FNAME="fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+
+BOOL_MAP = {
+    True : "true",
+    False : "false"
+}
+
+BOOL_MAP_CAUSALMASK = {
+    True : "has_causalmask",
+    False : "no_causalmask",
+}
+
+BOOL_MAP_BIAS = {
+    True :  "has_bias",
+    False : "no_bias", 
+}
+
+BOOL_MAP_BIASGRAD = {
+    True : "has_biasgrad", 
+    False : "no_biasgrad",
+}
+
+BOOL_MAP_DROPOUT = {
+    True : "has_dropout", 
+    False : "no_dropout",
+}
+
+INT_MAP_MAX_K = {
+    32 : "maxk_32",
+    64 : "maxk_64",
+    128 : "maxk_128",
+    256 : "maxk_256",
+}
+
+TYPE_CTYPE_MAP = {
+   "fp16" : "ck::half_t", 
+   "bp16" : "ck::bhalf_t",
+}
+
+MODE_NAME_MAP = {
+    "batched" : "Batched",
+    "grouped" : "Grouped", 
+}
+
+def create_infer_instances(instance_dir: Path) -> None:
+     for mode in ["batched", "grouped"]: 
+         for dtype in ["fp16", "bp16"]: 
+             for has_causalmask in [True, False]: 
+                 for has_bias in [True, False]:
+                     for has_dropout in [True, False]:
+                         for max_k in [32, 64, 128, 256]: 
+                              fname = FMHA_INFER_INSTANCE_FNAME.format(
+                                      mode=mode,
+                                      dtype_str=dtype, 
+                                      has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                      has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
+                                      has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
+                                      max_k_str=INT_MAP_MAX_K[max_k],
+                                      )
+                              infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
+                                      mode=mode,
+                                      dtype=TYPE_CTYPE_MAP[dtype], 
+                                      has_causalmask=BOOL_MAP[has_causalmask],
+                                      has_bias=BOOL_MAP[has_bias],
+                                      has_dropout=BOOL_MAP[has_dropout],
+                                      max_k=max_k,
+                                      cap_mode=MODE_NAME_MAP[mode], 
+                                      )
+                              (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance) 
+
+def create_forward_instances(instance_dir: Path) -> None:
+     for mode in ["batched", "grouped"]:
+         for dtype in ["fp16", "bp16"]:
+             for has_causalmask in [True, False]:
+                 for has_bias in [True, False]:
+                     for has_dropout in [True, False]:
+                         for max_k in [32, 64, 128, 256]:
+                              fname = FMHA_FORWARD_INSTANCE_FNAME.format(
+                                      mode=mode,
+                                      dtype_str=dtype,
+                                      has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                      has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
+                                      has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
+                                      max_k_str=INT_MAP_MAX_K[max_k],
+                                      )
+                              infer_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
+                                      mode=mode,
+                                      dtype=TYPE_CTYPE_MAP[dtype],
+                                      has_causalmask=BOOL_MAP[has_causalmask],
+                                      has_bias=BOOL_MAP[has_bias],
+                                      has_dropout=BOOL_MAP[has_dropout],
+                                      max_k=max_k,
+                                      cap_mode=MODE_NAME_MAP[mode],
+                                      )
+                              (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+
+def create_backward_instances(instance_dir: Path) -> None:
+     for mode in ["batched", "grouped"]:
+         for dtype in ["fp16", "bp16"]:
+             for has_causalmask in [True, False]:
+                 for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
+                     for has_dropout in [True, False]:
+                         for max_k in [32, 64, 128]:
+                              fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
+                                      mode=mode,
+                                      dtype_str=dtype,
+                                      has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                      has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
+                                      has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
+                                      has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
+                                      max_k_str=INT_MAP_MAX_K[max_k],
+                                      )
+                              infer_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
+                                      mode=mode,
+                                      dtype=TYPE_CTYPE_MAP[dtype],
+                                      has_causalmask=BOOL_MAP[has_causalmask],
+                                      has_bias=BOOL_MAP[has_bias],
+                                      has_bias_grad=BOOL_MAP[has_bias_grad],
+                                      has_dropout=BOOL_MAP[has_dropout],
+                                      max_k=max_k,
+                                      cap_mode=MODE_NAME_MAP[mode],
+                                      )
+                              (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+
+if __name__ == "__main__":
+    this_dir = os.path.dirname(__file__)
+    output_dir = Path(this_dir) / "instances"
+    output_dir.mkdir(parents=True, exist_ok=True)
+    create_infer_instances(output_dir)
+    create_forward_instances(output_dir)
+    create_backward_instances(output_dir)
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 53ab69fc27..f47ea89138 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 17e2eef9a8..80872bc87c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index e5903a2626..1b7eb3fa13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 6d1a95675b..fbcbc8673e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
     true,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 7c827865f6..b7183ced42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 46de1be238..0a51355813 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
-    false,
     true,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 0f2ad6e782..70d77321ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 2c227abf21..946da70a25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 34e32791ed..a10d6a1bc4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
-    true,
     false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 6186abdf8f..74a45b99b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     false,
-    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 5619a50296..002b30ee5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 6b04d766af..0c4b5c1b60 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index afe52ab8b2..b3a40e957a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 175fbaf4db..25b8ae47d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 62f5b6e56e..ac8b00115e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 693ac4f26e..f4ab60aedb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 74e6105e7d..40a92b384c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index fa3b403a35..aac83e1bbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 3d93e9168b..752e5a5353 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
     true,
-    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 746539438a..2296da150f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 7375b1aca8..68876d1ee0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index fea36c72b2..dcb2b06967 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
     false,
-    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 9cf279c5bd..1c7f28a08b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index c8e379d59b..5100ac96b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
-    false,
     false,
     true,
+    true,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d987a2516b..489bdd9a5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
     true,
-    true,
     false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f570c926e8..27ab35a1b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 463aa81de2..d2508d9939 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 2a535ec0c2..795744d655 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
+    true,
     false,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index aa754420b9..7a45b95db0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 04badab083..f98cac80bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 366e6a68e8..5d626588b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 0f0c587435..babf146051 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2a8279443e..47eed928b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index c943f2ea38..de13cdfa09 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 6cfe5c349d..ffaf66bdf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 4c2d55d062..53446d60e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index c7c2bf0209..78e737557a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 970c63e143..6253cb013d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index cbde5ad7fa..0d4a368233 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index b382ff62f6..0075f69c49 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index d7b02b3c2c..7988f3f3ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 490fe4261f..a873606054 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 9b50b4648d..2dd378e562 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index acce3f8243..5882f0f74a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index bf3c4e2bb7..4e8f745793 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 878d2b9682..56f4ef2312 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 5dea3b92d9..3fe2317532 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 614dc4af56..ea591609a7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 4fc4e8bbde..465e3974e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 82ec79aca9..cf441573af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2d9fb867a8..5bca9b8ae7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index fae40a708c..6312622ff9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1bee92536b..dc425e9db7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
     false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index fe583539d1..3fbea87eed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
     false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 54b193591a..ce9e7d2572 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index acc06d6639..f93820dbb7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 349ef31900..07dabfa5f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 1dc265944b..852b0339d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    false,
     true,
     true,
     false,
-    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index d6c19a81b9..4874e14aa8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    false,
     true,
     true,
     false,
-    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 290b1c60da..0036596a56 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    false,
     true,
     true,
     false,
-    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index f97b3829dd..eea9ea7765 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 42a2945dd6..070ddddd6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index dd60fbab57..ad72c8f1a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index dc07dbddf8..99a3acd4fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 0800dd7ca8..89e517e75a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d0ea35d545..9120025dd0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 0da1f95e40..419a240bd2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 01c8505095..d9d4eaba93 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index b85f2ac56e..a1bcfbd2bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index dd77dc88ce..d86f207d90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 30fc3c1dd3..2fa1e64936 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index e6184baf5a..2b9e3daef6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index dbf8459d27..2237719c19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 0bc2865fc1..24b717342b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 9390f08a43..d9333c0dcf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index dea796009f..2fbb4d47c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index c2a2db5862..5b609eb20f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 0c4156fafa..6d08b4bb72 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index dfd1278399..6daa3edac8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 95731a02ea..728b653c6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 18ace4cc5d..6af1255c30 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    true,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index bc20e97bde..66c4450b6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index d6709f88e1..8d6bc812fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 3b52555be3..cd43accf23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index a4ca78d9e8..8d3003cde5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index e515cfbb5b..f28877eebd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 7f573e21ec..49108e76df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 6980a41413..ffc65eed81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 3c274c3d63..1d79adfb8a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     true,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 1dc1c67ed8..6fe3e9c9a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 16f51cf1ac..90d4de433f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 95eb46660a..2e654d8a13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index a6784236f5..1c620930e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index df6c6c72de..5dd1493035 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 775c6c1b15..32c7ea50fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
+    true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index b2ef9186f2..8f41bf550c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 657a998653..0633597559 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 263d46e27a..2a32075549 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 394728af12..3da70de620 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 4a6a7ee895..4e19f3be9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 4abe212c7c..4a4f300521 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index bab70f8142..436b9099f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 8b8cc0a16b..5ab62c09b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index c2f4badc4c..f1c11f4245 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 249c4f425f..db8135481a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 33ea7c25a1..814b9d8ead 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index fcc6ac1533..6576c4e2d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index f7547b5772..4bf477d19c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index dd28c7c871..310a034207 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 808d4e7100..fda6ea6147 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 72c6714a58..121d264a35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index f0c6d5967a..ca98bf25a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 5f0d702390..a4881489df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 0ac3953bc5..7a8d21150b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index f40ba4ec37..2d8c78b9e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 8ea49cdfd9..db9d24e33e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index bd319545a0..e917e4574f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 97f7fbd46c..170647a654 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 5edd0cd404..acdb267fd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 4e0f85734c..14c01441b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index ca332b921c..c87a853a44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 2791fc6ff6..62d6f3f146 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 22586dc956..73dc87fc12 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
     true,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 03a78009e5..dacb7ed77e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 505d4d0482..f535ef4f6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index a438cca43e..de1bbe73f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 96fd2bbb25..ad9d397937 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 4a51059964..5f040fa031 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index da15841a32..c6171c3503 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index f2ba8c9114..5518daba3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 93ef1d810e..0607c23252 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index ab6382b622..e0e156802a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 84deea900f..22082a993b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index cf24162f41..e52ed1a52b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 392151f6d3..37bee29739 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 2960c998bc..3deec3078a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 936789b59e..8923f40086 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 26454ef59b..c21f4dcddd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 97272b0323..40483eab70 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 913afceaf6..3196483754 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index d3d4f08235..b0928ecfc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 152c34e568..990cc05ce2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index ace85cec2e..f15d45e695 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 632fb07946..640f9fe2d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index b8a1fde666..9597383c93 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 76b569cff0..fe8993be48 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 2db0507bd3..164c454054 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 3f1df08f68..7f7f9af7dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 5a19fe4693..a73c01e2e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 0d9edb15dc..e7234ebc2d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 25928ff520..64dbc70493 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 823e9e1d17..5a609eaf0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 6b547e34e8..c101ff149a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index a11984f7ab..98f6d67238 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 1712a317d3..627f4ea617 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index f9b0d15190..c7263bc266 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 109a6e9148..fabe895041 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index b278bde420..ca31525f0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 23f5e10f74..59474b1915 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 7e62dfe1f1..802214815b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index eafa8238e5..9bc0561025 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 5528f22dd0..001805e8a9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index ceaa26f4d0..3384be9d38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index e87f2672b6..be5ece1fd7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 6fda3ae541..ccf7cb80b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index fcc5a2bd88..4d13af6bcd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index cd7c4681bf..2b8202b539 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index a2510ef7dc..38fe474db1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 91fa9cfb8d..3a03e2ed10 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index a8db3c21e0..74cf62de8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index cf70efd4eb..3d17dc729c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 2699d7a96a..49ef6a3eda 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 98cdea4045..6e9e3b2ab2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 10444d7d86..1980128a2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index d703893734..cefda72084 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index a6d22c6669..718293285d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 6ba251a1a0..f45e10da90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 8da1f1e387..8c8d08f522 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index bb22a42a08..59ac4bc28a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index ff98dd5555..edff64b7b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index ae7739be4b..b27270cc42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 3594e81fd0..34a7b746f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index e4fb8dbad6..c8d2c42e1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index a15494b0fe..747ad6cf29 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 2d60996b87..83cdbd0e32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 3a39fb4aea..e72ef8963a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 1951d311c7..1269c0e743 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 4557fe7aa5..55a152e436 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index b310ad71f2..a348774eb1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 4e0ab2c07e..95a57bb7de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 4e3d7c989b..5573f81b1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index e619bcb8d1..c8eaea6a66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 81607aa687..3471207787 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 86e5b5a660..b3542bbf90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 07d487f6e0..829f610297 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 83043e1c59..a5c71f3a2a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index f6ffe49631..51dd2f78f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 3b57b10ce6..51c34e651d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 00872610fb..700f9acfdd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 0d69fcda01..4d43ed9b53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 529a8931ce..f6d0af7175 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index eca64f3829..a73f1e9e93 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 03de226681..2e186f3bab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 9cf7db73fe..5ebed8c733 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
     true,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index eac3e148d3..9e278d05df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 1d0d05754f..452f5ac0ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
-    false,
     true,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 3b24da32a1..120ced112d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index a8d69e6192..cbdac868f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index bd0ce8e791..95cd673006 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
     true,
-    true,
     false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 4f39ed2537..8da955f156 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
+    true,
     false,
     false,
-    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 305697e7bb..c77696023b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index ad7cdd7037..4527adc288 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 1483143567..3e125e542a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 0f586cdc40..4323e29023 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 4a3d28b51f..eb4713c433 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index fff043eb01..35041c0020 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 8721df90eb..a4fe43dd56 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 08646ecca3..d875a8cb9a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index be2d548367..307acb781f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
     true,
-    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index ec9f2db83e..875c365545 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 4391d4d7d7..d5e242fec6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 7028cb7dc2..fc0636bb76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
     false,
-    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index a67bb299df..adaee823c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 88ac4b243c..1228d91c3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
-    false,
     false,
     true,
+    true,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 5343b0c3a6..42be3cb812 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
     true,
-    true,
     false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 0a15c5dad3..7cf70379fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 01d422c007..d47bb845b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index d1d05d05a8..87da662764 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
+    true,
     false,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index b15836d17e..1a67c23b7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index e671f3ca21..bd7697091e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index e9f870c4c9..115f80da58 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 66fc7c9b3c..31ee39fb20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 5001ac06e6..258db9fcef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 98836e82a0..b848cecf72 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 696e14ca3d..89da82e0fe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 1e1226c574..41d42b992b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 9b75204111..cde7b8f085 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 40c3e25664..c2298cb862 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 4c1939000c..8342afa379 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index c259e3b896..834b1d6252 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 8e6d377fc8..0656ea175d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index c5ec3f4fb0..6bb731da42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index bfc021bc9c..fb458f74c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 76d4ae7198..9536035d63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a3b402dfa5..666ae62429 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 84478d9321..d24d3d0f9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 574a1271b9..82740f8dd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 534684ec41..7cfa9ecab7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
-    false,
     true,
+    false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index dca1cfdaef..0f12efbedf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 0da0b4fd47..88d34ede5a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 5fb6beace0..ed0c9af4d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a70c75ccfe..597c93939b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 62437cb366..0fe702a090 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
     false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d91b9c6489..e5ab9b62cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
     false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index ee30cdf9f8..582dd07ae6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 68996ba94d..4cf3d362e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 90e9244101..3c0e08ef55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_attnbias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 9b04b655aa..be449dddb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    false,
     true,
     true,
     false,
-    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index b584502080..8e56f25d37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    false,
     true,
     true,
     false,
-    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index b77d5ceaf5..c4ed120c07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_attnbias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
+    false,
     true,
     true,
     false,
-    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index b4a55a585f..05ccb961bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 7d2ed485ab..ab7a421fcd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 8ff66d0b0d..810225ab71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index ba4dee3e87..2f5ad17f53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 9f968835e4..590b229878 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index bea50e4e63..07d372940f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,17 +1,20 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index cc82da7efa..c65c96f5d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 7a389f87d4..e4aa0ac8a9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2bac6d9f8f..63d619d8d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index cff4bd1388..905448129a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1173b72927..a5c107a932 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 89%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 8159058ba8..a9245471c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index e801c3f93c..780d6bc5dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index da3f9451c0..597de45439 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 097cc7bf6e..5608da950d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 26f0cb5ec4..e67cfe5165 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index ec2af1f104..70657a16ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 9a7c28fb5b..e62a0cdfc7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index e8e1a889f8..1378e8bbea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index a402d98059..2532a00745 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 48887ba1b8..f404b2974b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    true,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 44f5e1e413..c027178b7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 498e15bcdd..0f01746533 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index cf02458332..1ce86be185 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index ccf7b1e1f1..6ef0db7165 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 1c0dee6a39..1da1957969 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index d7fdf67893..5cd3ef7d99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index b91e4a3ea4..13cae6aea9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index d5f2785d78..809a3597b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     true,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 8b49d8374a..ecfe07e638 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 49402375a9..4a1b10da68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index e08bd87d21..3015904333 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 4a208cf12f..6a65e56bb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 07b92f6fbb..95fc499b1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 533d97a531..e898330a92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
+    true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 21a57dfca6..f6ebe82284 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index ba58b2a3ad..cf15fa390a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 3f472877db..5677ead04e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index d561c4e086..53c4b4f847 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 48672f2e0f..70f34bc040 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 7088d0d9d4..c74bdd1da7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index f4cc5ac8f3..79ad692cec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 2f8b750df4..c44fe5e4e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index ac9d81f958..151d072b26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index c9b178a761..3cbe181172 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 82533dfa98..65fd33d2d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 090d3465dc..cb94984015 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 99bf4bee6f..7ddd09ca5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 2290c94108..1c5e308f67 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index a685ec502e..1a674ad119 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 22e90a4ccf..60d724d37b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index b44e850899..9c12682110 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index c9742c9702..0972c088b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index dab84d1f53..c7bee6428f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 686f65bca4..0dfdb53bc0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 79a9ecc5ef..bb1cf00324 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 6b851c95d5..c9d7245e94 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 83b4ca32ed..13cf18b744 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 35472c1e81..1d10b19348 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index c4f645028d..239cfdcb7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 5fe2e08fc1..0417713d57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index f645e14734..917fee0d43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 109bf6cdcf..45c72d3118 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
     true,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index f7aa2630bf..11ef78e80d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index c6d8e12e24..9d258a09ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index cdd4a6b4f0..63c04b1638 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 7e1478866a..38c0fdfb7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index a98daba6c0..7620830c33 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 72022fb987..ca03aa0a8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 48d249424b..0f8d631d1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 0207a2691e..9aca2c81e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 8cdf116457..f61fe5eeb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 137412fd92..a6523f6fd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index a1fccefe05..c45de9a85d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 273593b9de..aa482cddcd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 8b638fa324..32c319a50d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 32a098714c..018cb72be9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index b67cc8ca61..faabed60aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 77ecf2f4a1..c920dff22a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index efae07d30f..4e8d812c8e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index b8221e5000..06e096f9d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 47c79b1af3..bdee87bc76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 9c3081f7ae..489521a757 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     true,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 078c81ca0b..93211cdd1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 13205e8c4a..e3a6587488 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index e399bfbce7..3fa6d85bd7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 463a621af2..3b5614f0e1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 60e847191e..b332218349 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index e25c9ece72..0af311aa84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 093395947a..d68e89d55f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 3724a2886c..ea765be5e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index a96ab0ce5d..ee1dbceea8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 5b000a6284..055c3ddf68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 8f5458f9a3..f2611fd2c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index d64878a934..4909cfa453 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
+    false,
     true,
     true,
-    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index f53906c824..4705a9d4e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index f18bf1e8fa..ad7ce669e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index cd0336e0da..83e19ecfc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index baf202b497..a1c40a7f29 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 65c0c923d4..37b634b550 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
     false,
-    false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index f030cbb003..85f34fba84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index efc5b625ae..69835203f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 0b7037cec5..7fa0776991 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 7301fdb10a..dc34c1a04c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::bhalf_t,
-    true,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index c9c1b385b6..5d75d94376 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 4a5e084d9c..9af2dd0ac9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index ae7440bf99..92bc89ea5f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 5f6048cbb5..a2b3fd2a35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 0ea9c2176a..916786bffb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index bc668d784b..dac24a5334 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index f2375b0a79..c99321f42a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 66de4bf3de..306b2de2ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index dce9620da8..5a8431fe59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index eaa255d2af..29d76c352a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 1c1cee3708..9475e9edd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 53434b15a5..adb2f5ad1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 5a2c266d66..524a21c343 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index e8f0b69089..12eb1d0e58 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index b316aa818d..26f6190d83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 3cc34095ba..111473c7e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 1c9c324f6d..9adb10a8cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index e08afd8c06..6b7f35fa47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 3289a3109f..e89cffda50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 1c6cd7d3e9..7b4552d93f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 886537fadd..734b7e5a05 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 3d72a59090..2644e47964 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 822dabaddd..cba7af09dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 8ad64cd697..1755388bb7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 069aa9ed68..24074346e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index d09b9b0c0a..609ee02ecf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 64d6034b49..56debfe4d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index fac8e1cfa6..454733419d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,16 +1,19 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck::half_t,
-    true,
     false,
+    true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index fbf764fc53..de325b10cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 5fed583d57..40754cdd36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 1825795eb3..9e27756bf1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 45b21a50c4..4000c08c5a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index e6a42bcc41..089d461915 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 592ad3232d..6a6e96ff8c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index af45ae2228..fb8604451f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 88%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 03b28b79d3..6a1ae56495 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_attnbias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,11 +1,14 @@
+
 /*
  * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
  */
-#include <ck/ck.hpp>
 
+#include <ck/ck.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<

From d94b2c1d8251b29e16fd61bceb9a0a6deab4be8c Mon Sep 17 00:00:00 2001
From: Xiaodong Wang <xw285@cornell.edu>
Date: Wed, 15 May 2024 00:27:18 -0700
Subject: [PATCH 543/837] Simplify logic for seqstart_q/k

https://github.com/ROCm/xformers/commit/566d26ff8009bf27535fa0798763fd1fdb271087 has put the seqstart_k/q on device. So simplify the logic here.

The upstream xformers don't have this optmization and is copying the seqstart_q/k every iterations. We'd like this change to get in and then merge to upstream.
---
 .../attention_forward_generic_ck_tiled.cpp    | 42 +++----------------
 1 file changed, 6 insertions(+), 36 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index de1e65dc29..b78da0d4b0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -95,6 +95,8 @@ efficient_attention_forward_ck(
     TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
     TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
     TORCH_CHECK(max_seqlen_q_.has_value());
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
+    CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
   };
 
   // last dim is contiguous, device is kCUDA
@@ -290,48 +292,16 @@ efficient_attention_forward_ck(
     at::Tensor dev_seqstart_k;
     at::Tensor dev_seqlen_k;
 
-    if (seqstart_q->is_cpu()) {
-      dev_seqstart_q = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-      p.seqstart_q_dev_ptr = dev_seqstart_q.data_ptr();
-      HIP_CALL_CHECK(hipMemcpyAsync(
-          p.seqstart_q_dev_ptr,
-          seqstart_q->data_ptr(),
-          (p.num_batches + 1) * sizeof(int),
-          hipMemcpyHostToDevice,
-          stream));
-    } else
-      p.seqstart_q_dev_ptr = seqstart_q->data_ptr();
-
-    if (seqstart_k->is_cpu()) {
-      dev_seqstart_k = at::empty({p.num_batches + 1}, opts.dtype(at::kInt));
-
-      p.seqstart_k_dev_ptr = dev_seqstart_k.data_ptr();
-      HIP_CALL_CHECK(hipMemcpyAsync(
-          p.seqstart_k_dev_ptr,
-          seqstart_k->data_ptr(),
-          (p.num_batches + 1) * sizeof(int),
-          hipMemcpyHostToDevice,
-          stream));
-    } else
-      p.seqstart_k_dev_ptr = seqstart_k->data_ptr();
+    p.seqstart_q_dev_ptr = seqstart_q->data_ptr();
+    p.seqstart_k_dev_ptr = seqstart_k->data_ptr();
 
     if (seqlen_k.has_value()) {
       TORCH_CHECK(seqlen_k->scalar_type() == at::ScalarType::Int);
       TORCH_CHECK(seqlen_k->dim() == 1);
       TORCH_CHECK(seqlen_k->size(0) == p.num_batches)
+      CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqlen_k));
 
-      if (seqlen_k->is_cpu()) {
-        dev_seqlen_k = at::empty({p.num_batches}, opts.dtype(at::kInt));
-
-        p.seqlen_k_dev_ptr = dev_seqlen_k.data_ptr();
-        HIP_CALL_CHECK(hipMemcpyAsync(
-            p.seqlen_k_dev_ptr,
-            seqlen_k->data_ptr(),
-            p.num_batches * sizeof(int),
-            hipMemcpyHostToDevice,
-            stream));
-      } else
-        p.seqlen_k_dev_ptr = seqlen_k->data_ptr();
+      p.seqlen_k_dev_ptr = seqlen_k->data_ptr();
     } else
       p.seqlen_k_dev_ptr = nullptr;
 

From 2486b568f701c1f4e3371edcad18bf2cde6c5307 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 15 May 2024 14:50:00 +0000
Subject: [PATCH 544/837] Add Async pipeline to grouped mode inference path

---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 100 ++++++++++++------
 1 file changed, 68 insertions(+), 32 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 2a1c02b4e5..901fff588f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -16,6 +16,7 @@
 #include <ck/tile_program/block_tile/block_masking.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
 #include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
+#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
 #include <ck/tile_program/tile/tile_fmha_shape.hpp>
 #include <ck/tile_program/tile/tile_fmha_traits.hpp>
 
@@ -73,38 +74,73 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
 
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-
-      BOOL_SWITCH_2(
-          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-            using FmhaTraits = ck::tile_program::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDimQ,
-                kPadHeadDimV,
-                kHasBias,
-                false, // kHasBiasGrad place-holder
-                false, // kStoreLSE
-                kHasDropout,
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-            using FmhaPipeline =
-                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-            using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                kPadSeqLenQ,
-                kPadHeadDimV>>;
-
-            using FmhaKernel =
-                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          });
+      const bool use_async_pipeline =
+          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+
+      if (!use_async_pipeline) {
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kHasBias,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  kHasDropout,
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+              using FmhaKernel = FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        using FmhaTraits = ck::tile_program::TileFmhaTraits<
+            kPadSeqLenQ,
+            kPadSeqLenK,
+            true,
+            true,
+            kHasBias,
+            false, // kHasBiasGrad place-holder
+            false, // kStoreLSE
+            kHasDropout,
+            occupancy>;
+
+        using FmhaPipelineProblem =
+            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+        using FmhaPipeline =
+            ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
+                FmhaPipelineProblem>;
+
+        using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
+            typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+            typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+            kPadSeqLenQ,
+            true>>;
+
+        using FmhaKernel =
+            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+        RunWithKernel<FmhaKernel>(param, stream);
+      }
     });
   };
 

From 18b43c930502d65b623d7a03457952050362b5cb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 15 May 2024 15:10:50 +0000
Subject: [PATCH 545/837] Use explict true for
 kPadSeqLenQ/kPadHeadDimQ/kPadHeadDimV templates for the Async pipeline

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 901fff588f..e269375767 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -113,10 +113,10 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
             });
       } else {
         using FmhaTraits = ck::tile_program::TileFmhaTraits<
-            kPadSeqLenQ,
+            true, // kPadSeqLenQ,
             kPadSeqLenK,
-            true,
-            true,
+            true, // kPadHeadDimQ,
+            true, // kPadHeadDimV,
             kHasBias,
             false, // kHasBiasGrad place-holder
             false, // kStoreLSE
@@ -133,7 +133,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
         using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
             typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
             typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-            kPadSeqLenQ,
+            true,
             true>>;
 
         using FmhaKernel =

From 14f7abe0d100a87ea58f790e3fae6aeb8c2c39df Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 21 May 2024 14:30:53 +0000
Subject: [PATCH 546/837] Synchronize to the update of composable_kernel_tiled
 for better performance

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index dca9abd86e..b79327f6ee 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit dca9abd86e6c601792f9ce704b6b2c18de081cb1
+Subproject commit b79327f6eead6c71bb7f85954516198a2b7b6a6f

From ee4aa871b31641691c8e7cd4ed42ea2a108d558a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 23 May 2024 11:25:38 -0700
Subject: [PATCH 547/837] Update rocm_ci.yml - clean up dangling images after
 ci run

---
 .github/workflows/rocm_ci.yml | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index fc6946a9c6..9042345055 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -81,4 +81,11 @@ jobs:
     - name: Process test results
       run: |
         echo "Processing test results TBD"
-      
+
+  clean:
+    runs-on: self-hosted
+    needs: [build]
+    steps:
+      - name: Remove dangling Docker images
+        run: |
+          docker images -q -f dangling=true | xargs --no-run-if-empty docker rmi

From b0b5547a594bb0f1c652a98e6e7889bf3573bea1 Mon Sep 17 00:00:00 2001
From: Xiaodong Wang <xw285@cornell.edu>
Date: Sat, 25 May 2024 13:52:30 -0700
Subject: [PATCH 548/837] Avoid unused-const-variable warning

Our compiler will error on unused-const-variable warning. So just fix this
---
 .../csrc/attention/hip_fmha/attention_forward_decoder.cpp     | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 6fe0137b03..567a7bb5f9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -57,7 +57,7 @@ template <
     int32_t ThreadsPerWavefront,
     int32_t WavefrontsPerBlock,
     int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = 256>
+    int32_t K_MAX = K_MAX>
 at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
     const at::Tensor& XQ, // [B, 1, G, H, D]
     const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
@@ -330,4 +330,4 @@ int main(int argc, char** argv) {
   return 0;
 }
 
-#endif // MAIN
\ No newline at end of file
+#endif // MAIN

From dfc196d6162ccf9918ed4b599fd978699915d7e4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 29 May 2024 14:34:55 +0000
Subject: [PATCH 549/837] Tiny change in the BlockTile/Shape setting
 overriddings

---
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 42 +++++++++++--------
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 25 +++++++----
 2 files changed, 40 insertions(+), 27 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 08cb7ba2b5..910b25f8fc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -59,21 +59,27 @@ struct FmhaBwdBlockTile;
 template <>
 struct FmhaBwdBlockTile<32> {
   using type = ck::Sequence<128, 128, 32, 32, 32, 32, 32, 32, 32>;
+  using gemm02_warps = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck::Sequence<4, 1, 1>; // default for gemm4
 };
 
 template <>
 struct FmhaBwdBlockTile<64> {
   using type = ck::Sequence<64, 128, 32, 32, 32, 32, 32, 64, 64>;
+  using gemm02_warps = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck::Sequence<2, 2, 1>; // default for gemm4
 };
 
 template <>
 struct FmhaBwdBlockTile<128> {
   using type = ck::Sequence<64, 128, 32, 32, 32, 32, 32, 128, 128>;
+  using gemm02_warps = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck::Sequence<2, 2, 1>; // default for gemm4
 };
 
-using FmhaBwdBlockWarps0 = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
-using FmhaBwdBlockWarps1 = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
-using FmhaBwdBlockWarps2 = ck::Sequence<2, 2, 1>; // default for gemm4
 using FmhaBwdWarpTile = ck::Sequence<32, 32, 16>;
 
 template <ck::index_t MaxK>
@@ -82,43 +88,43 @@ struct FmhaBwdShape;
 template <>
 struct FmhaBwdShape<32> : ck::tile_program::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<32>::type,
-                              FmhaBwdBlockWarps0,
+                              typename FmhaBwdBlockTile<32>::gemm02_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps1,
+                              typename FmhaBwdBlockTile<32>::gemm13_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps0,
+                              typename FmhaBwdBlockTile<32>::gemm02_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps1,
+                              typename FmhaBwdBlockTile<32>::gemm13_warps,
                               FmhaBwdWarpTile,
-                              ck::Sequence<4, 1, 1>,
+                              typename FmhaBwdBlockTile<32>::gemm4_warps,
                               FmhaBwdWarpTile> {};
 
 template <>
 struct FmhaBwdShape<64> : ck::tile_program::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<64>::type,
-                              FmhaBwdBlockWarps0,
+                              typename FmhaBwdBlockTile<64>::gemm02_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps1,
+                              typename FmhaBwdBlockTile<64>::gemm13_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps0,
+                              typename FmhaBwdBlockTile<64>::gemm02_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps1,
+                              typename FmhaBwdBlockTile<64>::gemm13_warps,
                               FmhaBwdWarpTile,
-                              FmhaBwdBlockWarps2,
+                              typename FmhaBwdBlockTile<64>::gemm4_warps,
                               FmhaBwdWarpTile> {};
 
 template <>
 struct FmhaBwdShape<128> : ck::tile_program::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<128>::type,
-                               FmhaBwdBlockWarps0,
+                               typename FmhaBwdBlockTile<128>::gemm02_warps,
                                FmhaBwdWarpTile,
-                               FmhaBwdBlockWarps1,
+                               typename FmhaBwdBlockTile<128>::gemm13_warps,
                                FmhaBwdWarpTile,
-                               FmhaBwdBlockWarps0,
+                               typename FmhaBwdBlockTile<128>::gemm02_warps,
                                FmhaBwdWarpTile,
-                               FmhaBwdBlockWarps1,
+                               typename FmhaBwdBlockTile<128>::gemm13_warps,
                                FmhaBwdWarpTile,
-                               FmhaBwdBlockWarps2,
+                               typename FmhaBwdBlockTile<128>::gemm4_warps,
                                FmhaBwdWarpTile> {};
 
 template <ck::index_t MaxK>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 3810bd3d04..364226ebee 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -49,24 +49,31 @@ struct FmhaFwdBlockTile;
 template <>
 struct FmhaFwdBlockTile<32> {
   using type = ck::Sequence<128, 64, 16, 32, 32, 32>;
+  using gemm0_warps = ck::Sequence<2, 1, 1>;
+  using gemm1_warps = ck::Sequence<2, 1, 1>;
 };
 
 template <>
 struct FmhaFwdBlockTile<64> {
   using type = ck::Sequence<128, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck::Sequence<4, 1, 1>;
+  using gemm1_warps = ck::Sequence<4, 1, 1>;
 };
 
 template <>
 struct FmhaFwdBlockTile<128> {
   using type = ck::Sequence<128, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck::Sequence<4, 1, 1>;
+  using gemm1_warps = ck::Sequence<4, 1, 1>;
 };
 
 template <>
 struct FmhaFwdBlockTile<256> {
   using type = ck::Sequence<128, 128, 32, 256, 32, 256>;
+  using gemm0_warps = ck::Sequence<4, 1, 1>;
+  using gemm1_warps = ck::Sequence<4, 1, 1>;
 };
 
-using FmhaFwdBlockWarps = ck::Sequence<4, 1, 1>;
 using FmhaFwdWarpTile = ck::Sequence<32, 32, 16>;
 
 static constexpr bool IsVLayoutRowMajor = true;
@@ -77,35 +84,35 @@ struct FmhaFwdShape;
 template <>
 struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<
                               typename FmhaFwdBlockTile<32>::type,
-                              ck::Sequence<2, 1, 1>,
+                              typename FmhaFwdBlockTile<32>::gemm0_warps,
                               FmhaFwdWarpTile,
-                              ck::Sequence<2, 1, 1>,
+                              typename FmhaFwdBlockTile<32>::gemm1_warps,
                               FmhaFwdWarpTile,
                               IsVLayoutRowMajor> {};
 
 template <>
 struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<
                               typename FmhaFwdBlockTile<64>::type,
-                              FmhaFwdBlockWarps,
+                              typename FmhaFwdBlockTile<64>::gemm0_warps,
                               FmhaFwdWarpTile,
-                              FmhaFwdBlockWarps,
+                              typename FmhaFwdBlockTile<64>::gemm1_warps,
                               FmhaFwdWarpTile,
                               IsVLayoutRowMajor> {};
 
 template <>
 struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<
                                typename FmhaFwdBlockTile<128>::type,
-                               FmhaFwdBlockWarps,
+                               typename FmhaFwdBlockTile<128>::gemm0_warps,
                                FmhaFwdWarpTile,
-                               FmhaFwdBlockWarps,
+                               typename FmhaFwdBlockTile<128>::gemm1_warps,
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
 
 template <>
 struct FmhaFwdShape<256> : ck::tile_program::TileFmhaShape<
                                typename FmhaFwdBlockTile<256>::type,
-                               FmhaFwdBlockWarps,
+                               typename FmhaFwdBlockTile<256>::gemm0_warps,
                                FmhaFwdWarpTile,
-                               FmhaFwdBlockWarps,
+                               typename FmhaFwdBlockTile<256>::gemm1_warps,
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};

From f50861a58381bf74af761d922ed77c175cb830bd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 12 Jun 2024 21:54:23 +0000
Subject: [PATCH 550/837] try to align fmha C++ extension to the ck_tile in ck
 develop branch

---
 .gitmodules                                   |   2 +-
 setup.py                                      |  11 +-
 third_party/composable_kernel_tiled           |   2 +-
 .../attention_backward_generic_ck_tiled.cpp   |   8 +-
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  22 +-
 .../attention_forward_generic_ck_tiled.cpp    |  16 +-
 .../hip_fmha/ck_attention_forward_decoder.h   |   5 +-
 .../ck_attention_forward_decoder_splitk.h     |   5 +-
 .../hip_fmha/ck_attention_inner_product.h     | 351 +++++++++++++++++
 .../hip_fmha/ck_attention_math_ext.h          |  29 ++
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  48 ---
 .../attention/hip_fmha/ck_tiled_bool_switch.h |  69 +++-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 157 ++++----
 ...> ck_tiled_fmha_batched_backward_bf16.cpp} |  81 ++--
 .../ck_tiled_fmha_batched_backward_fp16.cpp   |  79 ++--
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 145 +++----
 ...=> ck_tiled_fmha_batched_forward_bf16.cpp} |  73 ++--
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |  71 ++--
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 130 +++----
 ...p => ck_tiled_fmha_batched_infer_bf16.cpp} |  73 ++--
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  71 ++--
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 124 +++---
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      |  69 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 157 ++++----
 ...> ck_tiled_fmha_grouped_backward_bf16.cpp} |  81 ++--
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   |  79 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 109 +++---
 ...=> ck_tiled_fmha_grouped_forward_bf16.cpp} |  73 ++--
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |  71 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 130 +++----
 ...p => ck_tiled_fmha_grouped_infer_bf16.cpp} |  73 ++--
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  71 ++--
 .../hip_fmha/ck_tiled_headdim_switch.h        |  15 +-
 .../hip_fmha/ck_tiled_rand_uniform_kernel.h   | 354 ++++++++++++++++++
 .../attention/hip_fmha/generate_instances.py  |  26 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   8 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   8 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   8 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |  10 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |  10 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   8 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |  10 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   6 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   8 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   8 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |  10 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   8 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |  10 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |  10 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   8 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   8 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   8 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |  10 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |  10 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   8 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |  10 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   6 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   8 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   8 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |  10 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   8 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |  10 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |  10 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   8 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |   6 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |   6 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |   6 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |   6 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...salmask_has_bias_has_dropout_maxk_128.cpp} |   6 +-
 ...salmask_has_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...usalmask_has_bias_has_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_no_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_has_bias_no_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_has_bias_no_dropout_maxk_64.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_128.cpp} |   8 +-
 ...usalmask_no_bias_has_dropout_maxk_256.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_32.cpp} |   8 +-
 ...ausalmask_no_bias_has_dropout_maxk_64.cpp} |   8 +-
 ...ausalmask_no_bias_no_dropout_maxk_128.cpp} |   6 +-
 ...ausalmask_no_bias_no_dropout_maxk_256.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_32.cpp} |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_64.cpp} |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |   6 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |   6 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |   6 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |   6 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |   6 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |   6 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |   6 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |   6 +-
 435 files changed, 3086 insertions(+), 2438 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_attention_inner_product.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_attention_math_ext.h
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_batched_backward_bp16.cpp => ck_tiled_fmha_batched_backward_bf16.cpp} (71%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_batched_forward_bp16.cpp => ck_tiled_fmha_batched_forward_bf16.cpp} (73%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_batched_infer_bp16.cpp => ck_tiled_fmha_batched_infer_bf16.cpp} (73%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_grouped_backward_bp16.cpp => ck_tiled_fmha_grouped_backward_bf16.cpp} (71%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_grouped_forward_bp16.cpp => ck_tiled_fmha_grouped_forward_bf16.cpp} (73%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_grouped_infer_bp16.cpp => ck_tiled_fmha_grouped_infer_bf16.cpp} (73%)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (75%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp} (74%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp} (74%)

diff --git a/.gitmodules b/.gitmodules
index f9d0b39796..6e56bcb9c9 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = ck_tile/opt_padding
+	branch = develop-xformers-test 
diff --git a/setup.py b/setup.py
index 9053e6dd2c..07661243eb 100644
--- a/setup.py
+++ b/setup.py
@@ -351,15 +351,6 @@ def get_extensions():
             Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha"
         ]
 
-        include_dirs += [
-            Path(this_dir)
-            / "third_party"
-            / "composable_kernel_tiled"
-            / "example"
-            / "91_tile_program"
-            / "fmha"
-        ]
-
         include_dirs += [
             Path(this_dir) / "third_party" / "composable_kernel_tiled" / "include"
         ]
@@ -377,7 +368,7 @@ def get_extensions():
                 "-U__CUDA_NO_HALF_CONVERSIONS__",
                 "-DCK_FMHA_FWD_FAST_EXP2=1",
                 "-fgpu-flush-denormals-to-zero",
-                "-Rpass-analysis=kernel-resource-usage",
+                ##"-Rpass-analysis=kernel-resource-usage",
             ]
             + generator_flag
             + cc_flag,
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index b79327f6ee..ed3a957f1c 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit b79327f6eead6c71bb7f85954516198a2b7b6a6f
+Subproject commit ed3a957f1c49b6ac280e52d96dcceac920e582d9
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 2fe1150dc6..c9494060b8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -20,13 +20,13 @@
 extern void batched_backward_fp16(
     BatchedBackwardParams& param,
     hipStream_t stream);
-extern void batched_backward_bp16(
+extern void batched_backward_bf16(
     BatchedBackwardParams& param,
     hipStream_t stream);
 extern void grouped_backward_fp16(
     GroupedBackwardParams& param,
     hipStream_t stream);
-extern void grouped_backward_bp16(
+extern void grouped_backward_bf16(
     GroupedBackwardParams& param,
     hipStream_t stream);
 
@@ -492,7 +492,7 @@ efficient_attention_backward_ck(
     if (inDataType == at::ScalarType::Half) {
       batched_backward_fp16(batched_backward_params, stream);
     } else if (inDataType == at::ScalarType::BFloat16) {
-      batched_backward_bp16(batched_backward_params, stream);
+      batched_backward_bf16(batched_backward_params, stream);
     } else
       throw std::runtime_error("input data-type is not supported");
   } else { // input is grouped
@@ -503,7 +503,7 @@ efficient_attention_backward_ck(
     if (inDataType == at::ScalarType::Half) {
       grouped_backward_fp16(grouped_backward_params, stream);
     } else if (inDataType == at::ScalarType::BFloat16) {
-      grouped_backward_bp16(grouped_backward_params, stream);
+      grouped_backward_bf16(grouped_backward_params, stream);
     } else
       throw std::runtime_error("input data-type is not supported");
   }
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index b3e2418442..94a7250a6d 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -13,10 +13,10 @@
 #include <torch/types.h>
 #include <ATen/cuda/CUDAGraphsUtils.cuh>
 
-#include <ck/ck.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
+#include <ck_tile/core.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
 
-#include "fmha_rand_uniform_kernel.hpp"
+#include "ck_tiled_rand_uniform_kernel.h"
 
 namespace {
 
@@ -76,15 +76,13 @@ at::Tensor rand_uniform_int(
 
     dim3 kGridSize = FmhaRandUniformKernel_::GridSize(B, num_heads, M, N);
     constexpr dim3 kBlockSize = FmhaRandUniformKernel_::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaRandUniformKernel_::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaRandUniformKernel_{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaRandUniformKernel_::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaRandUniformKernel_{}, kGridSize, kBlockSize, 0, kargs));
   }
 
   (void)hipStreamSynchronize(stream);
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index b78da0d4b0..fb29c7d219 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -24,20 +24,20 @@
 extern void batched_forward_fp16(
     BatchedForwardParams& param,
     hipStream_t stream);
-extern void batched_forward_bp16(
+extern void batched_forward_bf16(
     BatchedForwardParams& param,
     hipStream_t stream);
 extern void grouped_forward_fp16(
     GroupedForwardParams& param,
     hipStream_t stream);
-extern void grouped_forward_bp16(
+extern void grouped_forward_bf16(
     GroupedForwardParams& param,
     hipStream_t stream);
 
 extern void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream);
-extern void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream);
+extern void batched_infer_bf16(BatchedForwardParams& param, hipStream_t stream);
 extern void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream);
-extern void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream);
+extern void grouped_infer_bf16(GroupedForwardParams& param, hipStream_t stream);
 
 namespace {
 
@@ -342,14 +342,14 @@ efficient_attention_forward_ck(
       if (inDataType == at::ScalarType::Half) {
         batched_infer_fp16(batched_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_infer_bp16(batched_forward_params, stream);
+        batched_infer_bf16(batched_forward_params, stream);
       } else
         throw std::runtime_error("input data-type is not supported!");
     } else {
       if (inDataType == at::ScalarType::Half) {
         batched_forward_fp16(batched_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
-        batched_forward_bp16(batched_forward_params, stream);
+        batched_forward_bf16(batched_forward_params, stream);
       } else
         throw std::runtime_error("input data-type is not supported!");
     };
@@ -362,14 +362,14 @@ efficient_attention_forward_ck(
       if (inDataType == at::ScalarType::Half) {
         grouped_infer_fp16(grouped_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_infer_bp16(grouped_forward_params, stream);
+        grouped_infer_bf16(grouped_forward_params, stream);
       } else
         throw std::runtime_error("input data-type is not supported!");
     } else {
       if (inDataType == at::ScalarType::Half) {
         grouped_forward_fp16(grouped_forward_params, stream);
       } else if (inDataType == at::ScalarType::BFloat16) {
-        grouped_forward_bp16(grouped_forward_params, stream);
+        grouped_forward_bf16(grouped_forward_params, stream);
       } else
         throw std::runtime_error("input data-type is not supported!");
     };
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index cc6cdebbc3..741eda2ef5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -10,9 +10,10 @@
 #include <ck/stream_config.hpp>
 #include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>
-#include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
-#include <ck/utility/math_v2.hpp>
+
+#include "ck_attention_inner_product.h"
+#include "ck_attention_math_ext.h"
 
 namespace {
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index 6d18846e79..bb45f37968 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -4,9 +4,10 @@
 #include <ck/stream_config.hpp>
 #include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>
-#include <ck/utility/inner_product.hpp>
 #include <ck/utility/math.hpp>
-#include <ck/utility/math_v2.hpp>
+
+#include "ck_attention_inner_product.h"
+#include "ck_attention_math_ext.h"
 
 namespace {
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_inner_product.h b/xformers/csrc/attention/hip_fmha/ck_attention_inner_product.h
new file mode 100644
index 0000000000..ec97bfdd04
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_inner_product.h
@@ -0,0 +1,351 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/ck.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/type_convert.hpp>
+
+namespace ck {
+
+template <typename TA, typename TB, typename TC>
+__device__ void inner_product(const TA& a, const TB& b, TC& c);
+
+template <>
+__device__ void inner_product<float, float, float>(
+    const float& a,
+    const float& b,
+    float& c) {
+#if CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_MAC_F32)
+  asm volatile(
+      "\n \
+            v_mac_f32 %0, %1, %2 \n \
+            "
+      : "=v"(c)
+      : "v"(a), "v"(b), "0"(c));
+#elif CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_FMAC_F32)
+  asm volatile(
+      "\n \
+            v_fmac_f32 %0, %1, %2 \n \
+            "
+      : "=v"(c)
+      : "v"(a), "v"(b), "0"(c));
+#else
+  c += a * b;
+#endif
+}
+
+template <>
+__device__ void inner_product<float2_t, float2_t, float>(
+    const float2_t& a,
+    const float2_t& b,
+    float& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+
+  inner_product(
+      vector_type<float, 2>{a}.AsType<float>()[I0],
+      vector_type<float, 2>{b}.AsType<float>()[I0],
+      c);
+
+  inner_product(
+      vector_type<float, 2>{a}.AsType<float>()[I1],
+      vector_type<float, 2>{b}.AsType<float>()[I1],
+      c);
+}
+
+template <>
+__device__ void inner_product<float4_t, float4_t, float>(
+    const float4_t& a,
+    const float4_t& b,
+    float& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+  constexpr auto I2 = Number<2>{};
+  constexpr auto I3 = Number<3>{};
+
+  inner_product(
+      vector_type<float, 4>{a}.AsType<float>()[I0],
+      vector_type<float, 4>{b}.AsType<float>()[I0],
+      c);
+
+  inner_product(
+      vector_type<float, 4>{a}.AsType<float>()[I1],
+      vector_type<float, 4>{b}.AsType<float>()[I1],
+      c);
+
+  inner_product(
+      vector_type<float, 4>{a}.AsType<float>()[I2],
+      vector_type<float, 4>{b}.AsType<float>()[I2],
+      c);
+
+  inner_product(
+      vector_type<float, 4>{a}.AsType<float>()[I3],
+      vector_type<float, 4>{b}.AsType<float>()[I3],
+      c);
+}
+
+template <>
+__device__ void inner_product<bhalf_t, bhalf_t, float>(
+    const bhalf_t& a,
+    const bhalf_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<half_t, half_t, float>(
+    const half_t& a,
+    const half_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<half2_t, half2_t, float>(
+    const half2_t& a,
+    const half2_t& b,
+    float& c) {
+#if defined(CK_USE_AMD_V_DOT2_F32_F16)
+#if CK_USE_AMD_V_DOT_INLINE_ASM
+  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
+  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
+  // ) s_nop with parameter 2 is equal to 3 x s_nop
+  asm volatile(
+      "\n \
+            v_dot2_f32_f16 %0, %1, %2, %0\n \
+            s_nop 2 \n \
+            "
+      : "=v"(c)
+      : "v"(a), "v"(b), "0"(c));
+#else
+  c = __builtin_amdgcn_fdot2(a, b, c, false);
+#endif
+#else
+  const vector_type<half_t, 2> a_vector{a};
+  const vector_type<half_t, 2> b_vector{b};
+
+  static_for<0, 2, 1>{}([&](auto i) {
+    c += type_convert<float>(a_vector.AsType<half_t>()[i]) *
+        type_convert<float>(b_vector.AsType<half_t>()[i]);
+  });
+#endif
+}
+
+template <>
+__device__ void inner_product<half4_t, half4_t, float>(
+    const half4_t& a,
+    const half4_t& b,
+    float& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+
+  inner_product(
+      vector_type<half_t, 4>{a}.AsType<half2_t>()[I0],
+      vector_type<half_t, 4>{b}.AsType<half2_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<half_t, 4>{a}.AsType<half2_t>()[I1],
+      vector_type<half_t, 4>{b}.AsType<half2_t>()[I1],
+      c);
+}
+
+template <>
+__device__ void inner_product<half8_t, half8_t, float>(
+    const half8_t& a,
+    const half8_t& b,
+    float& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+  constexpr auto I2 = Number<2>{};
+  constexpr auto I3 = Number<3>{};
+
+  inner_product(
+      vector_type<half_t, 8>{a}.AsType<half2_t>()[I0],
+      vector_type<half_t, 8>{b}.AsType<half2_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<half_t, 8>{a}.AsType<half2_t>()[I1],
+      vector_type<half_t, 8>{b}.AsType<half2_t>()[I1],
+      c);
+
+  inner_product(
+      vector_type<half_t, 8>{a}.AsType<half2_t>()[I2],
+      vector_type<half_t, 8>{b}.AsType<half2_t>()[I2],
+      c);
+
+  inner_product(
+      vector_type<half_t, 8>{a}.AsType<half2_t>()[I3],
+      vector_type<half_t, 8>{b}.AsType<half2_t>()[I3],
+      c);
+}
+
+template <>
+__device__ void inner_product<bhalf2_t, bhalf2_t, float>(
+    const bhalf2_t& a,
+    const bhalf2_t& b,
+    float& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+
+  inner_product(
+      vector_type<bhalf_t, 2>{a}.AsType<bhalf_t>()[I0],
+      vector_type<bhalf_t, 2>{b}.AsType<bhalf_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<bhalf_t, 2>{a}.AsType<bhalf_t>()[I1],
+      vector_type<bhalf_t, 2>{b}.AsType<bhalf_t>()[I1],
+      c);
+}
+
+template <>
+__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
+    const bhalf4_t& a,
+    const bhalf4_t& b,
+    float& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+  constexpr auto I2 = Number<2>{};
+  constexpr auto I3 = Number<3>{};
+
+  inner_product(
+      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I0],
+      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I1],
+      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I1],
+      c);
+
+  inner_product(
+      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I2],
+      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I2],
+      c);
+
+  inner_product(
+      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I3],
+      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I3],
+      c);
+}
+
+template <>
+__device__ void inner_product<int8_t, int8_t, int32_t>(
+    const int8_t& a,
+    const int8_t& b,
+    int32_t& c) {
+  c += type_convert<int32_t>(a) * type_convert<int32_t>(b);
+}
+
+template <>
+__device__ void inner_product<int8x2_t, int8x2_t, int32_t>(
+    const int8x2_t& a,
+    const int8x2_t& b,
+    int32_t& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+
+  inner_product(
+      vector_type<int8_t, 2>{a}.AsType<int8_t>()[I0],
+      vector_type<int8_t, 2>{b}.AsType<int8_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<int8_t, 2>{a}.AsType<int8_t>()[I1],
+      vector_type<int8_t, 2>{b}.AsType<int8_t>()[I1],
+      c);
+}
+
+template <>
+__device__ void inner_product<int8x4_t, int8x4_t, int32_t>(
+    const int8x4_t& a,
+    const int8x4_t& b,
+    int32_t& c) {
+#if defined(CK_USE_AMD_V_DOT4_I32_I8)
+#if CK_USE_AMD_V_DOT_INLINE_ASM
+  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
+  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
+  // ) s_nop with parameter 2 is equal to 3 x s_nop
+  asm volatile(
+      "\n \
+            v_dot4_i32_i8 %0, %1, %2, %0\n \
+            s_nop 2 \n \
+            "
+      : "=v"(c)
+      : "v"(bit_cast<int32_t>(a)), "v"(bit_cast<int32_t>(b)), "0"(c));
+#else
+  c = __builtin_amdgcn_sdot4(
+      bit_cast<int32_t>(a), bit_cast<int32_t>(b), c, false);
+#endif
+#elif defined(CK_USE_AMD_V_DOT4_I32_I8_GFX11)
+  c = __builtin_amdgcn_sudot4(
+      true, bit_cast<int32_t>(a), true, bit_cast<int32_t>(b), c, false);
+#else
+  const vector_type<int8_t, 4> a_vector{a};
+  const vector_type<int8_t, 4> b_vector{b};
+
+  static_for<0, 4, 1>{}([&](auto i) {
+    c += type_convert<int32_t>(a_vector.AsType<int8_t>()[i]) *
+        type_convert<int32_t>(b_vector.AsType<int8_t>()[i]);
+  });
+#endif
+}
+
+template <>
+__device__ void inner_product<int8x8_t, int8x8_t, int32_t>(
+    const int8x8_t& a,
+    const int8x8_t& b,
+    int32_t& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+
+  inner_product(
+      vector_type<int8_t, 8>{a}.AsType<int8x4_t>()[I0],
+      vector_type<int8_t, 8>{b}.AsType<int8x4_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<int8_t, 8>{a}.AsType<int8x4_t>()[I1],
+      vector_type<int8_t, 8>{b}.AsType<int8x4_t>()[I1],
+      c);
+}
+
+template <>
+__device__ void inner_product<int8x16_t, int8x16_t, int32_t>(
+    const int8x16_t& a,
+    const int8x16_t& b,
+    int32_t& c) {
+  constexpr auto I0 = Number<0>{};
+  constexpr auto I1 = Number<1>{};
+  constexpr auto I2 = Number<2>{};
+  constexpr auto I3 = Number<3>{};
+
+  inner_product(
+      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I0],
+      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I0],
+      c);
+
+  inner_product(
+      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I1],
+      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I1],
+      c);
+
+  inner_product(
+      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I2],
+      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I2],
+      c);
+
+  inner_product(
+      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I3],
+      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I3],
+      c);
+}
+
+} // namespace ck
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_math_ext.h b/xformers/csrc/attention/hip_fmha/ck_attention_math_ext.h
new file mode 100644
index 0000000000..2695a127f9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_math_ext.h
@@ -0,0 +1,29 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/type_convert.hpp>
+
+namespace ck {
+namespace math {
+template <typename T>
+inline __device__ T exp(T x) {
+  return ck::type_convert<T>(__expf(ck::type_convert<float>(x)));
+};
+
+template <>
+inline __device__ float exp<float>(float x) {
+  return __expf(x);
+};
+
+template <>
+inline __device__ double exp<double>(double x) {
+  return exp(x);
+};
+} // namespace math
+} // namespace ck
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index a6ea50d780..b782f96ee0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -13,10 +13,6 @@
 
 #include <torch/torch.h>
 
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/sequence.hpp>
-
 #define XFORMERS_CHECK(COND, ERR)          \
   if (!(COND)) {                           \
     std::ostringstream ostr;               \
@@ -24,50 +20,6 @@
     throw std::runtime_error(ostr.str());  \
   }
 
-#define DISPATCH_TYPES(InDataType, func)                                 \
-  {                                                                      \
-    if (InDataType == at::ScalarType::Half) {                            \
-      using scalar_t = ck::half_t;                                       \
-      func();                                                            \
-    } else if (InDataType == at::ScalarType::BFloat16) {                 \
-      using scalar_t = ck::bhalf_t;                                      \
-      func();                                                            \
-    } else {                                                             \
-      XFORMERS_CHECK(                                                    \
-          false, "Only half & bf16 input type supported at the moment"); \
-    }                                                                    \
-  }
-
-template <typename scalar_t>
-struct CkToAtenDtype;
-
-template <>
-struct CkToAtenDtype<ck::half_t> {
-  using scalar_t = ck::half_t;
-
-  static constexpr __host__ at::ScalarType atScalarType() {
-    return at::ScalarType::Half;
-  }
-};
-
-template <>
-struct CkToAtenDtype<ck::bhalf_t> {
-  using scalar_t = ck::bhalf_t;
-
-  static constexpr __host__ at::ScalarType atScalarType() {
-    return at::ScalarType::BFloat16;
-  }
-};
-
-template <>
-struct CkToAtenDtype<float> {
-  using scalar_t = float;
-
-  static constexpr __host__ at::ScalarType atScalarType() {
-    return at::ScalarType::Float;
-  }
-};
-
 #define CHECK_NOSPARSE_CONTIGUOUS_CUDA(TENSOR)                            \
   XFORMERS_CHECK(TENSOR.is_cuda(), #TENSOR " must be a CUDA tensor");     \
   XFORMERS_CHECK(!TENSOR.is_sparse(), #TENSOR " must be a dense tensor"); \
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h
index c07559a3ca..a2bf752d8e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_bool_switch.h
@@ -4,6 +4,73 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
+
 #pragma once
 
-#include <ck/utility/static_switch.hpp>
+#define BOOL_SWITCH(COND1, CONST_NAME1, ...) \
+  [&] {                                      \
+    if (COND1) {                             \
+      constexpr bool CONST_NAME1 = true;     \
+      __VA_ARGS__();                         \
+    } else {                                 \
+      constexpr bool CONST_NAME1 = false;    \
+      __VA_ARGS__();                         \
+    }                                        \
+  }()
+
+#define BOOL_SWITCH_2(COND1, CONST_NAME1, COND2, CONST_NAME2, ...) \
+  [&] {                                                            \
+    if (COND1) {                                                   \
+      constexpr bool CONST_NAME1 = true;                           \
+      BOOL_SWITCH(COND2, CONST_NAME2, ##__VA_ARGS__);              \
+    } else {                                                       \
+      constexpr bool CONST_NAME1 = false;                          \
+      BOOL_SWITCH(COND2, CONST_NAME2, ##__VA_ARGS__);              \
+    }                                                              \
+  }()
+
+#define BOOL_SWITCH_3(                                                      \
+    COND1, CONST_NAME1, COND2, CONST_NAME2, COND3, CONST_NAME3, ...)        \
+  [&] {                                                                     \
+    if (COND1) {                                                            \
+      constexpr bool CONST_NAME1 = true;                                    \
+      BOOL_SWITCH_2(COND2, CONST_NAME2, COND3, CONST_NAME3, ##__VA_ARGS__); \
+    } else {                                                                \
+      constexpr bool CONST_NAME1 = false;                                   \
+      BOOL_SWITCH_2(COND2, CONST_NAME2, COND3, CONST_NAME3, ##__VA_ARGS__); \
+    }                                                                       \
+  }()
+
+#define BOOL_SWITCH_4(                    \
+    COND1,                                \
+    CONST_NAME1,                          \
+    COND2,                                \
+    CONST_NAME2,                          \
+    COND3,                                \
+    CONST_NAME3,                          \
+    COND4,                                \
+    CONST_NAME4,                          \
+    ...)                                  \
+  [&] {                                   \
+    if (COND1) {                          \
+      constexpr bool CONST_NAME1 = true;  \
+      BOOL_SWITCH_3(                      \
+          COND2,                          \
+          CONST_NAME2,                    \
+          COND3,                          \
+          CONST_NAME3,                    \
+          COND4,                          \
+          CONST_NAME4,                    \
+          ##__VA_ARGS__);                 \
+    } else {                              \
+      constexpr bool CONST_NAME1 = false; \
+      BOOL_SWITCH_3(                      \
+          COND2,                          \
+          CONST_NAME2,                    \
+          COND3,                          \
+          CONST_NAME3,                    \
+          COND4,                          \
+          CONST_NAME4,                    \
+          ##__VA_ARGS__);                 \
+    }                                     \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 4c979ecc23..4a535aa5a3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -6,66 +6,48 @@
  */
 #pragma once
 
-#include <ck/host_utility/device_prop.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tensor_description/cluster_descriptor.hpp>
-#include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dot_do_o.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_problem.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
-#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_bwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_bwd_epilogue.hpp"
-#include "fmha_bwd_kernel.hpp"
-#include "fmha_bwd_tile_partitioner.hpp"
-
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 struct batched_backward_causalmask_bias_dropout_dispatch {
-  using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaBwdPipelineProblemTemp = ck_tile::BlockFmhaBwdPipelineProblem<
+      typename FmhaBwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::GemmDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::LSEDataType,
       typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::DDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+      typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType>>;
-
-  template <typename FmhaTraits, typename FmhaMask>
-  using FmhaBwdPipelineProblemTemp =
-      ck::tile_program::block::BlockFmhaBwdPipelineProblem<
-          typename FmhaBwdTypeConfig<ScalarType>::QDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::KDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::VDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::GemmDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::LSEDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::DDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::BiasDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::RandValOutputDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::ODataType,
-          typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
-          FmhaBwdShape<MaxK>,
-          false, // kIsGroupMode
-          FmhaMask,
-          FmhaTraits>;
+      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
+      FmhaBwdShape<MaxK>,
+      false, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
 
   static void Run(BatchedBackwardParams& param, hipStream_t stream) {
     {
-      constexpr ck::index_t kBlockSize = 256;
+      constexpr ck_tile::index_t kBlockSize = 256;
 
       const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
       const bool pad_headdim_v =
@@ -73,16 +55,15 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
 
       BOOL_SWITCH_2(
           pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
-            constexpr ck::index_t occupancy = 2;
+            constexpr ck_tile::index_t occupancy = 2;
 
-            using FmhaOGradDotOTraits_ =
-                ck::tile_program::TileFmhaBwdOGradDotOTraits<
-                    kPadSeqLenQ,
-                    kPadHeadDimV,
-                    occupancy>;
+            using FmhaOGradDotOTraits_ = ck_tile::TileFmhaBwdOGradDotOTraits<
+                kPadSeqLenQ,
+                kPadHeadDimV,
+                occupancy>;
 
             using FmhaBwdOGradDotOPipelineProblem =
-                ck::tile_program::block::BlockFmhaBwdOGradDotOPipelineProblem<
+                ck_tile::BlockFmhaBwdOGradDotOPipelineProblem<
                     typename FmhaBwdTypeConfig<ScalarType>::ODataType,
                     typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
                     typename FmhaBwdTypeConfig<ScalarType>::DDataType,
@@ -92,11 +73,11 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
                     FmhaOGradDotOTraits_>;
 
             using FmhaBwdOGradDotOPipeline =
-                typename ck::tile_program::block::BlockFmhaBwdOGradDotO<
+                typename ck_tile::BlockFmhaBwdOGradDotO<
                     FmhaBwdOGradDotOPipelineProblem>;
 
-            using FmhaBwdOGradDotOKernel_ = FmhaBwdOGradDotOKernel<
-                FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
+            using FmhaBwdOGradDotOKernel_ = ck_tile::FmhaBwdOGradDotOKernel<
+                ck_tile::FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
                 FmhaBwdOGradDotOPipeline>;
 
             RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
@@ -107,15 +88,18 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       const bool has_local_attention = (param.window_size > 0) ? true : false;
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck::index_t occupancy = 1;
+        constexpr ck_tile::index_t occupancy = 1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
-        using FmhaMask =
-            ck::tile_program::block::SimplifiedGenericAttentionMask<
-                has_masking>;
+        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
         using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
-        using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
+        using FmhaBwdTilePartitioner_ =
+            ck_tile::FmhaBwdTilePartitioner<FmhaBwdShape_>;
+
+        constexpr auto kBiasEnum = kHasBias
+            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
@@ -128,15 +112,16 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
-          using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
+          using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
               kPadHeadDim, // kPadHeadDimQ,
               kPadHeadDim, // kPadHeadDimV,
-              kHasBias,
+              kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
               kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
           using FmhaBwdPipelineProblem =
@@ -149,10 +134,25 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
               FmhaBwdPipelineEnum_,
               FmhaBwdPipelineProblem>::pipeline;
 
-          using FmhaBwdDQDKDVKernel_ = FmhaBwdDQDKDVKernel<
+          using FmhaBwdKGradEpilogue_ =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                  typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+                  kPadSeqLenK,
+                  kPadHeadDim>>;
+
+          using FmhaBwdVGradEpilogue_ =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                  typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+                  kPadSeqLenK,
+                  kPadHeadDim>>;
+
+          using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
               FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
-              FmhaBwdEpilogue_>;
+              FmhaBwdKGradEpilogue_,
+              FmhaBwdVGradEpilogue_>;
 
           RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
         });
@@ -185,15 +185,13 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
     dim3 kGridSize =
         FmhaBwdOGradDotOKernel::GridSize(param.B, param.Hq, param.M);
     constexpr dim3 kBlockSize = FmhaBwdOGradDotOKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdOGradDotOKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaBwdOGradDotOKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaBwdOGradDotOKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaBwdOGradDotOKernel{}, kGridSize, kBlockSize, 0, kargs));
   }
 
   template <typename FmhaBwdDQDKDVKernel>
@@ -265,15 +263,12 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
 
     dim3 kGridSize = FmhaBwdDQDKDVKernel::GridSize(param.B, param.Hq, param.N);
     constexpr dim3 kBlockSize = FmhaBwdDQDKDVKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdDQDKDVKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaBwdDQDKDVKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu = FmhaBwdDQDKDVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaBwdDQDKDVKernel{}, kGridSize, kBlockSize, 0, kargs));
   }
 };
 
@@ -283,7 +278,7 @@ template <
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 void run_batched_backward_causalmask_bias_dropout_dispatch(
     BatchedBackwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
similarity index 71%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
index 87f4ad1073..a9e17ee73a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,86 +12,86 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
+void batched_backward_bf16(BatchedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_3(
       param.has_attn_bias,
@@ -106,7 +105,7 @@ void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_batched_backward_causalmask_bias_dropout_dispatch<
-                  ck::bhalf_t,
+                  ck_tile::bf16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
@@ -114,7 +113,7 @@ void batched_backward_bp16(BatchedBackwardParams& param, hipStream_t stream) {
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_batched_backward_causalmask_bias_dropout_dispatch<
-                  ck::bhalf_t,
+                  ck_tile::bf16_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index ed39b5a891..17c4aa9d33 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,82 +12,82 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 32>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 32>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 64>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 64>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 128>(
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -106,7 +105,7 @@ void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_batched_backward_causalmask_bias_dropout_dispatch<
-                  ck::half_t,
+                  ck_tile::fp16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
@@ -114,7 +113,7 @@ void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_batched_backward_causalmask_bias_dropout_dispatch<
-                  ck::half_t,
+                  ck_tile::fp16_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 501f0c6757..20c1b2c3ef 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -6,53 +6,39 @@
  */
 #pragma once
 
-#include <ck/host_utility/device_prop.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tensor_description/cluster_descriptor.hpp>
-#include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
-#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_fwd_epilogue.hpp"
-#include "fmha_fwd_kernel.hpp"
-#include "fmha_fwd_tile_partitioner.hpp"
-
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 struct batched_forward_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-          FmhaFwdShape<MaxK>,
-          false, // kIsGroupMode
-          FmhaMask,
-          FmhaTraits>;
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      false, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
@@ -60,14 +46,18 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
-      using FmhaMask =
-          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-      using FmhaFwdTilePartitioner_ = FmhaFwdTilePartitioner<FmhaFwdShape_>;
-      constexpr ck::index_t occupancy =
+      using FmhaFwdTilePartitioner_ =
+          ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
+      constexpr ck_tile::index_t occupancy =
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
       const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
       const bool pad_seqlen_k =
           (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
@@ -82,7 +72,6 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
       const bool use_async_pipeline =
           ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
-      /*      if (!use_async_pipeline) { */
       BOOL_SWITCH_3(
           pad_seqlen_q,
           kPadSeqLenQ,
@@ -91,69 +80,38 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           pad_headdim,
           kPadHeadDim,
           [&] {
-            using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
+            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
                 kPadHeadDim, // kPadHeadDimQ
                 kPadHeadDim, // kPadHeadDimV
-                kHasBias,
+                kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
                 kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 
             using FmhaPipelineProblem =
                 FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
             using FmhaFwdPipeline_ =
-                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                    FmhaPipelineProblem>;
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
 
-            using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                kPadSeqLenQ,
-                kPadHeadDim>>;
+            using FmhaFwdEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDim>>;
 
-            using FmhaFwdKernel_ = FmhaFwdKernel<
+            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
                 FmhaFwdTilePartitioner_,
                 FmhaFwdPipeline_,
                 FmhaFwdEpilogue_>;
 
             RunWithKernel<FmhaFwdKernel_>(param, stream);
           });
-      /*
-            } else {
-              BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK,
-         [&] { using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits< true, //
-         kPadSeqLenQ, kPadSeqLenK, true, // kPadHeadDimQ true, // kPadHeadDimV
-                    kHasBias,
-                    true, // kStoreLSE
-                    kHasDropout,
-                    occupancy>;
-
-                using FmhaPipelineProblem =
-                    FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-                using FmhaFwdPipeline_ =
-                    ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                        FmhaPipelineProblem>;
-
-                using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    true,
-                    true>>;
-
-                using FmhaFwdKernel_ = FmhaFwdKernel<
-                    FmhaFwdTilePartitioner_,
-                    FmhaFwdPipeline_,
-                    FmhaFwdEpilogue_>;
-
-                RunWithKernel<FmhaFwdKernel_>(param, stream);
-              });
-            };
-      */
     });
   };
 
@@ -175,6 +133,8 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
           param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[1],
@@ -187,7 +147,7 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           param.k_strides[2],
           param.v_strides[2],
           param.attn_bias_strides[1],
-          0, // nhead_randval
+          0, // nhead_randva
           param.lse_strides[1], // nhead_stride_lse
           param.out_strides[2],
           param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
@@ -202,8 +162,6 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
-          1.0f, // descale_qk, not used
-          1.0f, // descale_sv, not used
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
@@ -212,15 +170,12 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
     dim3 kGridSize =
         FmhaFwdKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
     constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaFwdKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdKernel{}, kGridSize, kBlockSize, 0, kargs));
   };
 };
 
@@ -229,7 +184,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 void run_batched_forward_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
similarity index 73%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
index 80ba53eb4a..e27552d3ef 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,93 +12,93 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_forward_bp16(BatchedForwardParams& param, hipStream_t stream) {
+void batched_forward_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_forward_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_forward_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 450a70de2a..a65f6a2a27 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,76 +12,76 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -92,14 +91,14 @@ void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_forward_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_forward_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index acd967f14c..05d654dc31 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -6,54 +6,40 @@
  */
 #pragma once
 
-#include <ck/host_utility/device_prop.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tensor_description/cluster_descriptor.hpp>
-#include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
-#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "fmha_fwd_epilogue.hpp"
-#include "fmha_fwd_kernel.hpp"
-#include "fmha_fwd_tile_partitioner.hpp"
-
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 struct batched_infer_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-          FmhaFwdShape<MaxK>,
-          false, // kIsGroupMode
-          FmhaMask,
-          FmhaTraits>;
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      false, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
@@ -61,14 +47,17 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
-      using FmhaMask =
-          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck::index_t occupancy =
+      using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck_tile::index_t occupancy =
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
       const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
       const bool pad_seqlen_k =
           (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
@@ -91,31 +80,32 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
             pad_headdim,
             kPadHeadDim,
             [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+              using FmhaTraits = ck_tile::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
                   kPadHeadDim, // kPadHeadDimQ,
                   kPadHeadDim, // kPadHeadDimV,
-                  kHasBias,
+                  kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
                   kHasDropout,
+                  false, // kDoFp8StaticQuant place-holder
                   occupancy>;
 
               using FmhaPipelineProblem =
                   FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
               using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
+                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
 
-              using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                  kPadSeqLenQ,
-                  kPadHeadDim>>;
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                      kPadSeqLenQ,
+                      kPadHeadDim>>;
 
-              using FmhaKernel = FmhaFwdKernel<
+              using FmhaKernel = ck_tile::FmhaFwdKernel<
                   FmhaTilePartitioner,
                   FmhaPipeline,
                   FmhaEpilogue>;
@@ -124,31 +114,32 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
             });
       } else {
         BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-          using FmhaTraits = ck::tile_program::TileFmhaTraits<
+          using FmhaTraits = ck_tile::TileFmhaTraits<
               true, // kPadSeqLenQ,
               kPadSeqLenK,
               true, // kPadHeadDimQ,
               true, // kPadHeadDimV,
-              kHasBias,
+              kBiasEnum,
               false, // kHasBiasGrad place-holder
               false, // kStoreLSE
               kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
           using FmhaPipeline =
-              ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                  FmhaPipelineProblem>;
+              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
 
-          using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-              typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-              true,
-              true>>;
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  true,
+                  true>>;
 
-          using FmhaKernel =
+          using FmhaKernel = ck_tile::
               FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
           RunWithKernel<FmhaKernel>(param, stream);
@@ -175,6 +166,8 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
           param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
           param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[1],
@@ -202,8 +195,6 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
-          1.0f, // descale_qk, not used
-          1.0f, // descale_sv, not used
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
@@ -211,15 +202,12 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
 
     dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
     constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
   };
 };
 
@@ -228,7 +216,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 void run_batched_infer_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
similarity index 73%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
index cf7bacbe44..b362a780f6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
@@ -4,101 +4,100 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
 // clang-format off
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void batched_infer_bp16(BatchedForwardParams& param, hipStream_t stream) {
+void batched_infer_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_infer_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_infer_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 533b86109a..e55003c60f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -4,84 +4,83 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
 // clang-format off
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
     BatchedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -91,14 +90,14 @@ void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_batched_infer_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_batched_infer_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 910b25f8fc..4ef24248a4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -6,87 +6,84 @@
  */
 #pragma once
 
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dq_dk_dv_pipeline_ks_kts_vr.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dq_dk_dv_pipeline_ks_vr.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dq_dk_dv_pipeline_qs_ks_vr_dos.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_enum.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck_tile/core.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 template <typename DataType>
 struct FmhaBwdTypeConfig;
 
 template <>
-struct FmhaBwdTypeConfig<ck::half_t> {
-  using QDataType = ck::half_t;
-  using KDataType = ck::half_t;
-  using VDataType = ck::half_t;
-  using GemmDataType = ck::half_t;
-  using BiasDataType = ck::half_t;
+struct FmhaBwdTypeConfig<ck_tile::fp16_t> {
+  using QDataType = ck_tile::fp16_t;
+  using KDataType = ck_tile::fp16_t;
+  using VDataType = ck_tile::fp16_t;
+  using GemmDataType = ck_tile::fp16_t;
+  using BiasDataType = ck_tile::fp16_t;
   using RandValOutputDataType = unsigned short;
   using LSEDataType = float;
   using AccDataType = float; // data type for gemm accumulation
   using DDataType = float;
-  using ODataType = ck::half_t;
-  using OGradDataType = ck::half_t;
-  using QGradDataType = ck::half_t;
-  using KGradDataType = ck::half_t;
-  using VGradDataType = ck::half_t;
-  using BiasGradDataType = ck::half_t;
+  using ODataType = ck_tile::fp16_t;
+  using OGradDataType = ck_tile::fp16_t;
+  using QGradDataType = ck_tile::fp16_t;
+  using KGradDataType = ck_tile::fp16_t;
+  using VGradDataType = ck_tile::fp16_t;
+  using BiasGradDataType = ck_tile::fp16_t;
 };
 
 template <>
-struct FmhaBwdTypeConfig<ck::bhalf_t> {
-  using QDataType = ck::bhalf_t;
-  using KDataType = ck::bhalf_t;
-  using VDataType = ck::bhalf_t;
-  using GemmDataType = ck::bhalf_t;
-  using BiasDataType = ck::bhalf_t;
+struct FmhaBwdTypeConfig<ck_tile::bf16_t> {
+  using QDataType = ck_tile::bf16_t;
+  using KDataType = ck_tile::bf16_t;
+  using VDataType = ck_tile::bf16_t;
+  using GemmDataType = ck_tile::bf16_t;
+  using BiasDataType = ck_tile::bf16_t;
   using RandValOutputDataType = unsigned short;
   using LSEDataType = float;
   using AccDataType = float; // data type for gemm accumulation
   using DDataType = float;
-  using ODataType = ck::bhalf_t;
-  using OGradDataType = ck::bhalf_t;
-  using QGradDataType = ck::bhalf_t;
-  using KGradDataType = ck::bhalf_t;
-  using VGradDataType = ck::bhalf_t;
-  using BiasGradDataType = ck::bhalf_t;
+  using ODataType = ck_tile::bf16_t;
+  using OGradDataType = ck_tile::bf16_t;
+  using QGradDataType = ck_tile::bf16_t;
+  using KGradDataType = ck_tile::bf16_t;
+  using VGradDataType = ck_tile::bf16_t;
+  using BiasGradDataType = ck_tile::bf16_t;
 };
 
-template <ck::index_t MaxK>
+template <ck_tile::index_t MaxK>
 struct FmhaBwdBlockTile;
 
 template <>
 struct FmhaBwdBlockTile<32> {
-  using type = ck::Sequence<128, 128, 32, 32, 32, 32, 32, 32, 32>;
-  using gemm02_warps = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
-  using gemm13_warps = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck::Sequence<4, 1, 1>; // default for gemm4
+  using type = ck_tile::sequence<128, 128, 32, 32, 32, 32, 32, 32, 32>;
+  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<4, 1, 1>; // default for gemm4
 };
 
 template <>
 struct FmhaBwdBlockTile<64> {
-  using type = ck::Sequence<64, 128, 32, 32, 32, 32, 32, 64, 64>;
-  using gemm02_warps = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
-  using gemm13_warps = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck::Sequence<2, 2, 1>; // default for gemm4
+  using type = ck_tile::sequence<64, 128, 32, 32, 32, 32, 32, 64, 64>;
+  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<2, 2, 1>; // default for gemm4
 };
 
 template <>
 struct FmhaBwdBlockTile<128> {
-  using type = ck::Sequence<64, 128, 32, 32, 32, 32, 32, 128, 128>;
-  using gemm02_warps = ck::Sequence<1, 4, 1>; // default for gemm0/gemm2
-  using gemm13_warps = ck::Sequence<4, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck::Sequence<2, 2, 1>; // default for gemm4
+  using type = ck_tile::sequence<64, 128, 32, 32, 32, 32, 32, 128, 128>;
+  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<2, 2, 1>; // default for gemm4
 };
 
-using FmhaBwdWarpTile = ck::Sequence<32, 32, 16>;
+using FmhaBwdWarpTile = ck_tile::sequence<32, 32, 16>;
 
-template <ck::index_t MaxK>
+template <ck_tile::index_t MaxK>
 struct FmhaBwdShape;
 
 template <>
-struct FmhaBwdShape<32> : ck::tile_program::TileFmhaBwdShape<
+struct FmhaBwdShape<32> : ck_tile::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<32>::type,
                               typename FmhaBwdBlockTile<32>::gemm02_warps,
                               FmhaBwdWarpTile,
@@ -100,7 +97,7 @@ struct FmhaBwdShape<32> : ck::tile_program::TileFmhaBwdShape<
                               FmhaBwdWarpTile> {};
 
 template <>
-struct FmhaBwdShape<64> : ck::tile_program::TileFmhaBwdShape<
+struct FmhaBwdShape<64> : ck_tile::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<64>::type,
                               typename FmhaBwdBlockTile<64>::gemm02_warps,
                               FmhaBwdWarpTile,
@@ -114,7 +111,7 @@ struct FmhaBwdShape<64> : ck::tile_program::TileFmhaBwdShape<
                               FmhaBwdWarpTile> {};
 
 template <>
-struct FmhaBwdShape<128> : ck::tile_program::TileFmhaBwdShape<
+struct FmhaBwdShape<128> : ck_tile::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<128>::type,
                                typename FmhaBwdBlockTile<128>::gemm02_warps,
                                FmhaBwdWarpTile,
@@ -127,46 +124,45 @@ struct FmhaBwdShape<128> : ck::tile_program::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<128>::gemm4_warps,
                                FmhaBwdWarpTile> {};
 
-template <ck::index_t MaxK>
+template <ck_tile::index_t MaxK>
 struct FmhaBwdPipelineEnumSelector;
 
 template <>
 struct FmhaBwdPipelineEnumSelector<32> {
-  static constexpr ck::BlockFmhaBwdPipelineEnum value =
-      ck::BlockFmhaBwdPipelineEnum::QSKSVROGradS;
+  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
+      ck_tile::BlockFmhaBwdPipelineEnum::QSKSVROGradS;
 };
 
 template <>
 struct FmhaBwdPipelineEnumSelector<64> {
-  static constexpr ck::BlockFmhaBwdPipelineEnum value =
-      ck::BlockFmhaBwdPipelineEnum::KSKTSVR;
+  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
+      ck_tile::BlockFmhaBwdPipelineEnum::KSKTSVR;
 };
 
 template <>
 struct FmhaBwdPipelineEnumSelector<128> {
-  static constexpr ck::BlockFmhaBwdPipelineEnum value =
-      ck::BlockFmhaBwdPipelineEnum::KSVR;
+  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
+      ck_tile::BlockFmhaBwdPipelineEnum::KSVR;
 };
 
-template <ck::BlockFmhaBwdPipelineEnum value, typename problem>
+template <ck_tile::BlockFmhaBwdPipelineEnum value, typename problem>
 struct FmhaBwdPipelineMaker;
 
 template <typename problem>
 struct FmhaBwdPipelineMaker<
-    ck::BlockFmhaBwdPipelineEnum::QSKSVROGradS,
+    ck_tile::BlockFmhaBwdPipelineEnum::QSKSVROGradS,
     problem> {
-  using pipeline =
-      ck::tile_program::block::BlockFmhaBwdDQDKDVPipelineQSKSVROGradS<problem>;
+  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineQSKSVROGradS<problem>;
 };
 
 template <typename problem>
-struct FmhaBwdPipelineMaker<ck::BlockFmhaBwdPipelineEnum::KSKTSVR, problem> {
-  using pipeline =
-      ck::tile_program::block::BlockFmhaBwdDQDKDVPipelineKSKTSVR<problem>;
+struct FmhaBwdPipelineMaker<
+    ck_tile::BlockFmhaBwdPipelineEnum::KSKTSVR,
+    problem> {
+  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKSKTSVR<problem>;
 };
 
 template <typename problem>
-struct FmhaBwdPipelineMaker<ck::BlockFmhaBwdPipelineEnum::KSVR, problem> {
-  using pipeline =
-      ck::tile_program::block::BlockFmhaBwdDQDKDVPipelineKSVR<problem>;
+struct FmhaBwdPipelineMaker<ck_tile::BlockFmhaBwdPipelineEnum::KSVR, problem> {
+  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKSVR<problem>;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 364226ebee..662703b7e7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -6,83 +6,84 @@
  */
 #pragma once
 
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
+#include <ck_tile/core.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 template <typename DataType>
 struct FmhaFwdTypeConfig;
 
 template <>
-struct FmhaFwdTypeConfig<ck::half_t> {
-  using QDataType = ck::half_t;
-  using KDataType = ck::half_t;
-  using VDataType = ck::half_t;
-  using BiasDataType = ck::half_t;
+struct FmhaFwdTypeConfig<ck_tile::fp16_t> {
+  using QDataType = ck_tile::fp16_t;
+  using KDataType = ck_tile::fp16_t;
+  using VDataType = ck_tile::fp16_t;
+  using BiasDataType = ck_tile::fp16_t;
   using RandValOutputDataType = unsigned short;
   using LSEDataType =
       float; // data type for lse(logsumexp L_j = max_j + log(l_j))
   using SaccDataType = float; // data type for first gemm accumulation
   using SMPLComputeDataType = float; // data type for reduction, softmax
-  using PDataType = ck::half_t; // data type for A matrix of second gemm
+  using PDataType = ck_tile::fp16_t; // data type for A matrix of second gemm
   using OaccDataType = float; // data type for second gemm accumulation
-  using ODataType = ck::half_t;
+  using ODataType = ck_tile::fp16_t;
 };
 
 template <>
-struct FmhaFwdTypeConfig<ck::bhalf_t> {
-  using QDataType = ck::bhalf_t;
-  using KDataType = ck::bhalf_t;
-  using VDataType = ck::bhalf_t;
-  using BiasDataType = ck::bhalf_t;
+struct FmhaFwdTypeConfig<ck_tile::bf16_t> {
+  using QDataType = ck_tile::bf16_t;
+  using KDataType = ck_tile::bf16_t;
+  using VDataType = ck_tile::bf16_t;
+  using BiasDataType = ck_tile::bf16_t;
   using RandValOutputDataType = unsigned short;
   using LSEDataType =
       float; // data type for lse(logsumexp L_j = max_j + log(l_j))
   using SaccDataType = float; // data type for first gemm accumulation
   using SMPLComputeDataType = float; // data type for reduction, softmax
-  using PDataType = ck::bhalf_t; // data type for A matrix of second gemm
+  using PDataType = ck_tile::bf16_t; // data type for A matrix of second gemm
   using OaccDataType = float; // data type for second gemm accumulation
-  using ODataType = ck::bhalf_t;
+  using ODataType = ck_tile::bf16_t;
 };
 
-template <ck::index_t MaxK>
+template <ck_tile::index_t MaxK>
 struct FmhaFwdBlockTile;
 
 template <>
 struct FmhaFwdBlockTile<32> {
-  using type = ck::Sequence<128, 64, 16, 32, 32, 32>;
-  using gemm0_warps = ck::Sequence<2, 1, 1>;
-  using gemm1_warps = ck::Sequence<2, 1, 1>;
+  using type = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
 
 template <>
 struct FmhaFwdBlockTile<64> {
-  using type = ck::Sequence<128, 64, 32, 64, 32, 64>;
-  using gemm0_warps = ck::Sequence<4, 1, 1>;
-  using gemm1_warps = ck::Sequence<4, 1, 1>;
+  using type = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
 template <>
 struct FmhaFwdBlockTile<128> {
-  using type = ck::Sequence<128, 128, 32, 128, 32, 128>;
-  using gemm0_warps = ck::Sequence<4, 1, 1>;
-  using gemm1_warps = ck::Sequence<4, 1, 1>;
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
 template <>
 struct FmhaFwdBlockTile<256> {
-  using type = ck::Sequence<128, 128, 32, 256, 32, 256>;
-  using gemm0_warps = ck::Sequence<4, 1, 1>;
-  using gemm1_warps = ck::Sequence<4, 1, 1>;
+  using type = ck_tile::sequence<128, 128, 32, 256, 32, 256>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
-using FmhaFwdWarpTile = ck::Sequence<32, 32, 16>;
+using FmhaFwdWarpTile = ck_tile::sequence<32, 32, 16>;
 
 static constexpr bool IsVLayoutRowMajor = true;
 
-template <ck::index_t MaxK>
+template <ck_tile::index_t MaxK>
 struct FmhaFwdShape;
 
 template <>
-struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<
+struct FmhaFwdShape<32> : ck_tile::TileFmhaShape<
                               typename FmhaFwdBlockTile<32>::type,
                               typename FmhaFwdBlockTile<32>::gemm0_warps,
                               FmhaFwdWarpTile,
@@ -91,7 +92,7 @@ struct FmhaFwdShape<32> : ck::tile_program::TileFmhaShape<
                               IsVLayoutRowMajor> {};
 
 template <>
-struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<
+struct FmhaFwdShape<64> : ck_tile::TileFmhaShape<
                               typename FmhaFwdBlockTile<64>::type,
                               typename FmhaFwdBlockTile<64>::gemm0_warps,
                               FmhaFwdWarpTile,
@@ -100,7 +101,7 @@ struct FmhaFwdShape<64> : ck::tile_program::TileFmhaShape<
                               IsVLayoutRowMajor> {};
 
 template <>
-struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<
+struct FmhaFwdShape<128> : ck_tile::TileFmhaShape<
                                typename FmhaFwdBlockTile<128>::type,
                                typename FmhaFwdBlockTile<128>::gemm0_warps,
                                FmhaFwdWarpTile,
@@ -109,7 +110,7 @@ struct FmhaFwdShape<128> : ck::tile_program::TileFmhaShape<
                                IsVLayoutRowMajor> {};
 
 template <>
-struct FmhaFwdShape<256> : ck::tile_program::TileFmhaShape<
+struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                typename FmhaFwdBlockTile<256>::type,
                                typename FmhaFwdBlockTile<256>::gemm0_warps,
                                FmhaFwdWarpTile,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 881f07b521..b5038fdfea 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -6,81 +6,62 @@
  */
 #pragma once
 
-#include <ck/host_utility/device_prop.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tensor_description/cluster_descriptor.hpp>
-#include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_dot_do_o.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_bwd_pipeline_problem.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
-#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_bwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_bwd_epilogue.hpp"
-#include "fmha_bwd_kernel.hpp"
-#include "fmha_bwd_tile_partitioner.hpp"
-
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 struct grouped_backward_causalmask_bias_dropout_dispatch {
-  using FmhaBwdEpilogue_ = FmhaBwdEpilogue<FmhaBwdEpilogueProblem<
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaBwdPipelineProblemTemp = ck_tile::BlockFmhaBwdPipelineProblem<
+      typename FmhaBwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::GemmDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::LSEDataType,
       typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::DDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+      typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
       typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType>>;
-
-  template <typename FmhaTraits, typename FmhaMask>
-  using FmhaBwdPipelineProblemTemp =
-      ck::tile_program::block::BlockFmhaBwdPipelineProblem<
-          typename FmhaBwdTypeConfig<ScalarType>::QDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::KDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::VDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::GemmDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::LSEDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::DDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::BiasDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::RandValOutputDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::ODataType,
-          typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
-          typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
-          FmhaBwdShape<MaxK>,
-          true, // kIsGroupMode
-          FmhaMask,
-          FmhaTraits>;
+      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+      typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
+      FmhaBwdShape<MaxK>,
+      true, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
 
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     {
-      constexpr ck::index_t kBlockSize = 256;
+      constexpr ck_tile::index_t kBlockSize = 256;
       bool pad_seqlen_q = !(param.M % kBlockSize == 0);
       bool pad_headdim_v = !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
       BOOL_SWITCH_2(
           pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
-            constexpr ck::index_t occupancy = 2;
+            constexpr ck_tile::index_t occupancy = 2;
 
-            using FmhaOGradDotOTraits_ =
-                ck::tile_program::TileFmhaBwdOGradDotOTraits<
-                    kPadSeqLenQ,
-                    kPadHeadDimV,
-                    occupancy>;
+            using FmhaOGradDotOTraits_ = ck_tile::TileFmhaBwdOGradDotOTraits<
+                kPadSeqLenQ,
+                kPadHeadDimV,
+                occupancy>;
 
             using FmhaBwdOGradDotOPipelineProblem =
-                ck::tile_program::block::BlockFmhaBwdOGradDotOPipelineProblem<
+                ck_tile::BlockFmhaBwdOGradDotOPipelineProblem<
                     typename FmhaBwdTypeConfig<ScalarType>::ODataType,
                     typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
                     typename FmhaBwdTypeConfig<ScalarType>::DDataType,
@@ -90,11 +71,11 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
                     FmhaOGradDotOTraits_>;
 
             using FmhaBwdOGradDotOPipeline_ =
-                typename ck::tile_program::block::BlockFmhaBwdOGradDotO<
+                typename ck_tile::BlockFmhaBwdOGradDotO<
                     FmhaBwdOGradDotOPipelineProblem>;
 
-            using FmhaBwdOGradDotOKernel_ = FmhaBwdOGradDotOKernel<
-                FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
+            using FmhaBwdOGradDotOKernel_ = ck_tile::FmhaBwdOGradDotOKernel<
+                ck_tile::FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
                 FmhaBwdOGradDotOPipeline_>;
 
             RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
@@ -105,16 +86,19 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       const bool has_local_attention = (param.window_size > 0) ? true : false;
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck::index_t occupancy = 1;
+        constexpr ck_tile::index_t occupancy = 1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 
-        using FmhaMask =
-            ck::tile_program::block::SimplifiedGenericAttentionMask<
-                has_masking>;
+        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
         using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
-        using FmhaBwdTilePartitioner_ = FmhaBwdTilePartitioner<FmhaBwdShape_>;
+        using FmhaBwdTilePartitioner_ =
+            ck_tile::FmhaBwdTilePartitioner<FmhaBwdShape_>;
+
+        constexpr auto kBiasEnum = kHasBias
+            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
@@ -127,15 +111,16 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
-          using FmhaBwdTraits_ = ck::tile_program::TileFmhaTraits<
+          using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
               kPadHeadDim, // kPadHeadDimQ,
               kPadHeadDim, // kPadHeadDimV,
-              kHasBias,
+              kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
               kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
           using FmhaBwdPipelineProblem =
@@ -148,10 +133,25 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
               FmhaBwdPipelineEnum_,
               FmhaBwdPipelineProblem>::pipeline;
 
-          using FmhaBwdDQDKDVKernel_ = FmhaBwdDQDKDVKernel<
+          using FmhaBwdKGradEpilogue_ =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                  typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+                  kPadSeqLenK,
+                  kPadHeadDim>>;
+
+          using FmhaBwdVGradEpilogue_ =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                  typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+                  kPadSeqLenK,
+                  kPadHeadDim>>;
+
+          using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
               FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
-              FmhaBwdEpilogue_>;
+              FmhaBwdKGradEpilogue_,
+              FmhaBwdVGradEpilogue_>;
 
           RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
         });
@@ -182,15 +182,13 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaBwdOGradDotOKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_q);
     constexpr dim3 kBlockSize = FmhaBwdOGradDotOKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdOGradDotOKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaBwdOGradDotOKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaBwdOGradDotOKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaBwdOGradDotOKernel{}, kGridSize, kBlockSize, 0, kargs));
   }
 
   template <typename FmhaBwdDQDKDVKernel>
@@ -253,15 +251,12 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaBwdDQDKDVKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_k);
     constexpr dim3 kBlockSize = FmhaBwdDQDKDVKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaBwdDQDKDVKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaBwdDQDKDVKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu = FmhaBwdDQDKDVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaBwdDQDKDVKernel{}, kGridSize, kBlockSize, 0, kargs));
   }
 };
 
@@ -271,7 +266,7 @@ template <
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 void run_grouped_backward_causalmask_bias_dropout_dispatch(
     GroupedBackwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
similarity index 71%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
index 6db5544051..5d08a4d72d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,86 +12,86 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
+void grouped_backward_bf16(GroupedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_3(
       param.has_attn_bias,
@@ -106,7 +105,7 @@ void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_grouped_backward_causalmask_bias_dropout_dispatch<
-                  ck::bhalf_t,
+                  ck_tile::bf16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
@@ -114,7 +113,7 @@ void grouped_backward_bp16(GroupedBackwardParams& param, hipStream_t stream) {
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_grouped_backward_causalmask_bias_dropout_dispatch<
-                  ck::bhalf_t,
+                  ck_tile::bf16_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index 3dfc6f7f15..266cd0ad19 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,82 +12,82 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 32>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 32>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 64>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 64>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, true, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, false, 128>(
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -106,7 +105,7 @@ void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
             if (param.custom_mask_type == 0)
               run_grouped_backward_causalmask_bias_dropout_dispatch<
-                  ck::half_t,
+                  ck_tile::fp16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
@@ -114,7 +113,7 @@ void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
                   MaxK>(param, stream);
             else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
               run_grouped_backward_causalmask_bias_dropout_dispatch<
-                  ck::half_t,
+                  ck_tile::fp16_t,
                   true,
                   kHasBias,
                   kHasBiasGrad,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 0b348bd0ec..55609fd9fb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -6,52 +6,39 @@
  */
 #pragma once
 
-#include <ck/host_utility/device_prop.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tensor_description/cluster_descriptor.hpp>
-#include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
-#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 
-#include "fmha_fwd_epilogue.hpp"
-#include "fmha_fwd_kernel.hpp"
-#include "fmha_fwd_tile_partitioner.hpp"
-
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 struct grouped_forward_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-          FmhaFwdShape<MaxK>,
-          true, // kIsGroupMode
-          FmhaMask,
-          FmhaTraits>;
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      true, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
@@ -59,14 +46,18 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
-      using FmhaMask =
-          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-      using FmhaFwdTilePartitioner_ = FmhaFwdTilePartitioner<FmhaFwdShape_>;
-      constexpr ck::index_t occupancy =
+      using FmhaFwdTilePartitioner_ =
+          ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
+      constexpr ck_tile::index_t occupancy =
           (MaxK == 64) ? 3 : (MaxK == 256) ? 1 : 2;
 
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
 
@@ -76,31 +67,32 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
 
       BOOL_SWITCH_2(
           pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-            using FmhaFwdTraits_ = ck::tile_program::TileFmhaTraits<
+            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
-                kHasBias,
+                kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
                 kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 
             using FmhaPipelineProblem =
                 FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
             using FmhaFwdPipeline_ =
-                ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                    FmhaPipelineProblem>;
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
 
-            using FmhaFwdEpilogue_ = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                kPadSeqLenQ,
-                kPadHeadDimV>>;
+            using FmhaFwdEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDimV>>;
 
-            using FmhaFwdKernel_ = FmhaFwdKernel<
+            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
                 FmhaFwdTilePartitioner_,
                 FmhaFwdPipeline_,
                 FmhaFwdEpilogue_>;
@@ -129,6 +121,8 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
           param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
           param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[0],
@@ -149,8 +143,6 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
-          1.0f, // descale_qk, not used
-          1.0f, // descale_sv, not used
           param.dropout_prob,
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
@@ -159,15 +151,12 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaFwdKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
     constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaFwdKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdKernel{}, kGridSize, kBlockSize, 0, kargs));
   };
 };
 
@@ -176,7 +165,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 void run_grouped_forward_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
similarity index 73%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
index f9d768c8c2..e04af2e8a3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,93 +12,93 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_forward_bp16(GroupedForwardParams& param, hipStream_t stream) {
+void grouped_forward_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_forward_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_forward_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index abeba91f6f..13276415e8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -4,8 +4,7 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
@@ -13,76 +12,76 @@
 #include "ck_tiled_headdim_switch.h"
 
 // clang-format off
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -92,14 +91,14 @@ void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_forward_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_forward_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index e269375767..f66eeb4360 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -6,54 +6,40 @@
  */
 #pragma once
 
-#include <ck/host_utility/device_prop.hpp>
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/tensor/tensor_view.hpp>
-#include <ck/tensor_description/cluster_descriptor.hpp>
-#include <ck/tensor_description/tensor_descriptor_helper.hpp>
-#include <ck/utility/common_header.hpp>
-
-#include <ck/tile_program/block_tile/block_masking.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_problem.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs.hpp>
-#include <ck/tile_program/block_tile_pipeline/block_fmha_pipeline_qr_ks_vs_async.hpp>
-#include <ck/tile_program/tile/tile_fmha_shape.hpp>
-#include <ck/tile_program/tile/tile_fmha_traits.hpp>
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "fmha_fwd_epilogue.hpp"
-#include "fmha_fwd_kernel.hpp"
-#include "fmha_fwd_tile_partitioner.hpp"
-
 template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 struct grouped_infer_causalmask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp =
-      ck::tile_program::block::BlockFmhaPipelineProblem<
-          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-          FmhaFwdShape<MaxK>,
-          true, // kIsGroupMode
-          FmhaMask,
-          FmhaTraits>;
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      true, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     const bool has_local_attention = (param.window_size > 0) ? true : false;
@@ -61,14 +47,17 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
     BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
       constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
-      using FmhaMask =
-          ck::tile_program::block::SimplifiedGenericAttentionMask<has_masking>;
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck::index_t occupancy =
+      using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck_tile::index_t occupancy =
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
 
@@ -80,31 +69,32 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       if (!use_async_pipeline) {
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck::tile_program::TileFmhaTraits<
+              using FmhaTraits = ck_tile::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
                   kPadHeadDimQ,
                   kPadHeadDimV,
-                  kHasBias,
+                  kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
                   kHasDropout,
+                  false, // kDoFp8StaticQuant place-holder
                   occupancy>;
 
               using FmhaPipelineProblem =
                   FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
               using FmhaPipeline =
-                  ck::tile_program::block::BlockFmhaPipelineQRKSVS<
-                      FmhaPipelineProblem>;
+                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
 
-              using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                  kPadSeqLenQ,
-                  kPadHeadDimV>>;
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                      kPadSeqLenQ,
+                      kPadHeadDimV>>;
 
-              using FmhaKernel = FmhaFwdKernel<
+              using FmhaKernel = ck_tile::FmhaFwdKernel<
                   FmhaTilePartitioner,
                   FmhaPipeline,
                   FmhaEpilogue>;
@@ -112,31 +102,32 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
               RunWithKernel<FmhaKernel>(param, stream);
             });
       } else {
-        using FmhaTraits = ck::tile_program::TileFmhaTraits<
+        using FmhaTraits = ck_tile::TileFmhaTraits<
             true, // kPadSeqLenQ,
             kPadSeqLenK,
             true, // kPadHeadDimQ,
             true, // kPadHeadDimV,
-            kHasBias,
+            kBiasEnum,
             false, // kHasBiasGrad place-holder
             false, // kStoreLSE
             kHasDropout,
+            false, // kDoFp8StaticQuant place-holder
             occupancy>;
 
         using FmhaPipelineProblem =
             FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
         using FmhaPipeline =
-            ck::tile_program::block::BlockFmhaPipelineQRKSVSAsync<
-                FmhaPipelineProblem>;
+            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
 
-        using FmhaEpilogue = FmhaFwdEpilogue<FmhaFwdEpilogueProblem<
-            typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-            typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-            true,
-            true>>;
+        using FmhaEpilogue =
+            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                true,
+                true>>;
 
-        using FmhaKernel =
+        using FmhaKernel = ck_tile::
             FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
 
         RunWithKernel<FmhaKernel>(param, stream);
@@ -163,6 +154,8 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
           param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
           param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[0],
@@ -183,8 +176,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
-          1.0f, // descale_qk, not used
-          1.0f, // descale_sv, not used
           param.dropout_prob,
           false, // is_store_randval
           {param.philox_seed, param.philox_offset});
@@ -193,15 +184,12 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaKernel::GridSize(
         param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
     constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-    constexpr ck::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-    (void)launch_kernel<kBlockSize.x, kBlockPerCu>(
-        StreamConfig{stream, false},
-        FmhaKernel{},
-        kGridSize,
-        kBlockSize,
-        0,
-        kargs);
+    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
   };
 };
 
@@ -210,7 +198,7 @@ template <
     bool kHasCausalMask,
     bool kHasBias,
     bool kHasDropout,
-    ck::index_t MaxK>
+    ck_tile::index_t MaxK>
 void run_grouped_infer_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
similarity index 73%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
index 80ef8a396f..5b0fb5b371 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
@@ -4,101 +4,100 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
 // clang-format off
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, false, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::bhalf_t, true, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
-void grouped_infer_bp16(GroupedForwardParams& param, hipStream_t stream) {
+void grouped_infer_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_infer_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_infer_causalmask_bias_dropout_dispatch<
-            ck::bhalf_t,
+            ck_tile::bf16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 73103a0e8a..fa0a407f19 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -4,84 +4,83 @@
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
  */
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
 // clang-format off
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 32>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 64>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 128>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, true, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, false, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, true, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck::half_t, true, false, false, 256>(
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
     GroupedForwardParams& param, hipStream_t stream);
 // clang-format on
 
@@ -91,14 +90,14 @@ void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
       if (param.custom_mask_type == 0)
         run_grouped_infer_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
       else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
         run_grouped_infer_causalmask_bias_dropout_dispatch<
-            ck::half_t,
+            ck_tile::fp16_t,
             true,
             kHasBias,
             kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index ccc8ae0ca6..18814324b6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -6,21 +6,22 @@
  */
 #pragma once
 
+#include <ck_tile/core.hpp>
 #include <stdexcept>
 
 #define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
   [&] {                                                                \
     if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
-      constexpr ck::index_t CONST_NAME = 32;                           \
+      constexpr ck_tile::index_t CONST_NAME = 32;                      \
       __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
-      constexpr ck::index_t CONST_NAME = 64;                           \
+      constexpr ck_tile::index_t CONST_NAME = 64;                      \
       __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
-      constexpr ck::index_t CONST_NAME = 128;                          \
+      constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256) {                 \
-      constexpr ck::index_t CONST_NAME = 256;                          \
+      constexpr ck_tile::index_t CONST_NAME = 256;                     \
       __VA_ARGS__();                                                   \
     } else {                                                           \
       throw std::runtime_error("Head-dim sizes not supported!");       \
@@ -30,13 +31,13 @@
 #define FMHA_BWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
   [&] {                                                                \
     if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
-      constexpr ck::index_t CONST_NAME = 32;                           \
+      constexpr ck_tile::index_t CONST_NAME = 32;                      \
       __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
-      constexpr ck::index_t CONST_NAME = 64;                           \
+      constexpr ck_tile::index_t CONST_NAME = 64;                      \
       __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
-      constexpr ck::index_t CONST_NAME = 128;                          \
+      constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
     } else {                                                           \
       throw std::runtime_error("Head-dim sizes not supported!");       \
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
new file mode 100644
index 0000000000..e930e0b82c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
@@ -0,0 +1,354 @@
+// SPDX-License-Identifier: MIT
+// Copyright (c) 2018-2024, Advanced Micro Devices, Inc. All rights reserved.
+
+#pragma once
+
+#include <ck_tile/core.hpp>
+#include <ck_tile/ops/fmha.hpp>
+#include <ck_tile/ops/gemm/block/block_gemm_areg_bsmem_creg_v2.hpp>
+#include <ck_tile/ops/gemm/pipeline/block_gemm_pipeline_problem.hpp>
+
+template <
+    ck_tile::index_t MPerBlockTile,
+    ck_tile::index_t NPerBlockTile,
+    ck_tile::index_t KPerBlockTile,
+    typename RandValOutputDataType,
+    bool kIsGroupMode>
+struct FmhaRandUniformKernel {
+  static constexpr ck_tile::index_t kBlockSize = 256;
+  static constexpr ck_tile::index_t kBlockPerCu = 1;
+
+  __device__ static constexpr auto GetBlockGemm() {
+    using namespace ck_tile;
+
+    using BlockGemmProblem_ = ck_tile::BlockGemmPipelineProblem<
+        ck_tile::fp16_t,
+        ck_tile::fp16_t,
+        float,
+        kBlockSize,
+        ck_tile::TileGemmShape<MPerBlockTile, NPerBlockTile, KPerBlockTile>>;
+
+    // using the default policy, which use M32xN32xK8 warp_tile
+    return ck_tile::BlockGemmARegBSmemCRegV2<BlockGemmProblem_>{};
+  };
+
+  using BlockGemm = decltype(GetBlockGemm());
+
+  static constexpr bool kPadSeqLenQ = true;
+  static constexpr bool kPadSeqLenK = true;
+
+  using BlockGemmShape =
+      ck_tile::remove_cvref_t<typename BlockGemm::BlockGemmShape>;
+  static constexpr ck_tile::index_t kMPerBlock = BlockGemmShape::kM;
+  static constexpr ck_tile::index_t kNPerBlock = BlockGemmShape::kN;
+
+  // kargs use aggregate initializer, so no constructor will provided
+  // use inheritance to minimize karg size
+  // user need to use MakeKargs() function to create kargs.
+  struct FmhaRandUniformCommonKargs {
+    void* rand_val_ptr;
+
+    ck_tile::index_t seqlen_q;
+    ck_tile::index_t seqlen_k;
+
+    ck_tile::index_t num_heads;
+    ck_tile::index_t num_batches;
+
+    ck_tile::index_t stride_seqlen_q;
+    ck_tile::index_t stride_seqlen_k;
+
+    ck_tile::index_t stride_nhead;
+
+    uint64_t seed = 1;
+    uint64_t offset = 0;
+  };
+
+  struct FmhaRandUniformBatchModeKargs : FmhaRandUniformCommonKargs {
+    ck_tile::index_t stride_batch;
+  };
+
+  struct FmhaRandUniformGroupModeKargs : FmhaRandUniformCommonKargs {
+    const int32_t* seqstart_q_ptr;
+    const int32_t* seqstart_k_ptr;
+    const int32_t* seqlen_k_ptr;
+  };
+
+  using Kargs = std::conditional_t<
+      kIsGroupMode,
+      FmhaRandUniformGroupModeKargs,
+      FmhaRandUniformBatchModeKargs>;
+
+  template <bool Cond = !kIsGroupMode>
+  __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(
+      void* rand_val_ptr,
+      ck_tile::index_t seqlen_q,
+      ck_tile::index_t seqlen_k,
+      ck_tile::index_t num_heads,
+      ck_tile::index_t num_batches,
+      ck_tile::index_t stride_seqlen_q,
+      ck_tile::index_t stride_seqlen_k,
+      ck_tile::index_t stride_nhead,
+      ck_tile::index_t stride_batch,
+      std::tuple<uint64_t, uint64_t> drop_seed_offset) {
+    Kargs kargs{
+        {rand_val_ptr,
+         seqlen_q,
+         seqlen_k,
+         num_heads,
+         num_batches,
+         stride_seqlen_q,
+         stride_seqlen_k,
+         stride_nhead,
+         std::get<0>(drop_seed_offset),
+         std::get<1>(drop_seed_offset)},
+        stride_batch};
+
+    return kargs;
+  }
+
+  template <bool Cond = kIsGroupMode>
+  __host__ static constexpr std::enable_if_t<Cond, Kargs> MakeKargs(
+      void* rand_val_ptr,
+      ck_tile::index_t seqlen_q,
+      ck_tile::index_t seqlen_k,
+      ck_tile::index_t num_heads,
+      ck_tile::index_t num_batches,
+      ck_tile::index_t stride_seqlen_q,
+      ck_tile::index_t stride_seqlen_k,
+      ck_tile::index_t stride_nhead,
+      const void* seqstart_q_ptr,
+      const void* seqstart_k_ptr,
+      const void* seqlen_k_ptr,
+      std::tuple<uint64_t, uint64_t> drop_seed_offset) {
+    Kargs kargs{
+        {rand_val_ptr,
+         seqlen_q,
+         seqlen_k,
+         num_heads,
+         num_batches,
+         stride_seqlen_q,
+         stride_seqlen_k,
+         stride_nhead,
+         std::get<0>(drop_seed_offset),
+         std::get<1>(drop_seed_offset)},
+        reinterpret_cast<const int32_t*>(seqstart_q_ptr),
+        reinterpret_cast<const int32_t*>(seqstart_k_ptr),
+        reinterpret_cast<const int32_t*>(seqlen_k_ptr)};
+
+    return kargs;
+  }
+
+  __host__ static constexpr auto GridSize(
+      ck_tile::index_t batch_size_,
+      ck_tile::index_t nhead_,
+      ck_tile::index_t seqlen_q_,
+      ck_tile::index_t seqlen_k_) {
+    (void)seqlen_k_; // not used at present
+
+    // at present, seqlen_k is not splitted by thread-groups
+    return dim3(
+        ck_tile::integer_divide_ceil(seqlen_q_, kMPerBlock),
+        nhead_,
+        batch_size_);
+  }
+
+  __device__ static constexpr auto GetTileIndex(
+      ck_tile::index_t seqlen_q_,
+      ck_tile::index_t seqlen_k_) {
+    (void)seqlen_q_; // not used at present
+    (void)seqlen_k_; // not used at present
+
+    const ck_tile::index_t i_block = blockIdx.x;
+    const ck_tile::index_t i_nhead = blockIdx.y;
+    const ck_tile::index_t i_batch = blockIdx.z;
+
+    return ck_tile::make_tuple(i_block, i_nhead, i_batch);
+  }
+
+  __host__ static constexpr auto BlockSize() {
+    return dim3(kBlockSize);
+  }
+
+  __device__ static constexpr ck_tile::index_t GetSmemSize() {
+    return ck_tile::BlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>()
+        .get_element_space_size();
+  }
+
+  template <typename RandValDramBlockWindowTmp>
+  __device__ void main_loop(
+      const Kargs& kargs,
+      const ck_tile::philox& ph,
+      void* randval_smem_ptr,
+      RandValDramBlockWindowTmp& randval_dram_block_window_tmp) const {
+    using namespace ck_tile;
+
+    auto randval_dram_window = BlockDropout::MakeRandvalDramWindow<BlockGemm>(
+        randval_dram_block_window_tmp, 0);
+
+    const auto num_total_loop =
+        ck_tile::integer_divide_ceil(kargs.seqlen_k, kNPerBlock);
+    index_t i_total_loops = 0;
+
+    do {
+      constexpr auto config = BlockGemm::Policy::template GetWarpGemmMWarpNWarp<
+          typename BlockGemm::Problem>();
+      using WG = remove_cvref_t<decltype(config.template at<0>())>;
+      constexpr index_t MWarp = config.template at<1>();
+      constexpr index_t NWarp = config.template at<2>();
+      constexpr index_t kMPerStep = MWarp * WG::kM;
+      constexpr index_t kNPerStep = NWarp * WG::kN;
+
+      // randval tile in LDS
+      auto randval_lds = make_tensor_view<address_space_enum::lds>(
+          reinterpret_cast<uint8_t*>(randval_smem_ptr),
+          BlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>());
+
+      auto randval_lds_window = make_tile_window(
+          randval_lds,
+          BlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>()
+              .get_lengths(),
+          {0, 0});
+
+      // register distribute
+      auto randval_dist_generated = make_static_distributed_tensor<uint8_t>(
+          BlockDropout::MakeRandValTileDistribution<BlockGemm>());
+
+      static_assert(randval_dist_generated.kThreadElementSpaceSize == 16);
+
+      auto randval_lds_read_window = make_tile_window(
+          randval_lds_window.get_bottom_tensor_view(),
+          randval_lds_window.get_window_lengths(),
+          randval_lds_window.get_window_origin(),
+          BlockDropout::MakeRandValLdsShuffleTileDistribution<BlockGemm>());
+
+      const int start_m0_idx =
+          randval_dram_window.get_window_origin().at(number<0>{});
+      const int start_n0_idx = i_total_loops * kNPerBlock;
+
+      static_for<0, kMPerBlock / kMPerStep, 1>{}([&](auto i_m0) {
+        static_for<0, kNPerBlock / kNPerStep, 1>{}([&](auto i_n0) {
+          const auto [block_row_start, block_col_start] = [&]() {
+            if constexpr (MWarp > 1) {
+              int block_row_start_ =
+                  (start_m0_idx / WG::kM) + (i_m0 * MWarp) + get_warp_id();
+              int block_col_start_ = start_n0_idx / WG::kN + i_n0;
+              return make_tuple(block_row_start_, block_col_start_);
+            } else {
+              int block_row_start_ = (start_m0_idx / WG::kM) + i_m0;
+              int block_col_start_ =
+                  (start_n0_idx / WG::kN) + (i_n0 * NWarp) + get_warp_id();
+              return make_tuple(block_row_start_, block_col_start_);
+            };
+          }();
+
+          uint2 rowcol = make_uint2(block_row_start, block_col_start);
+
+          // generate random number
+          uint8_t random_uint8_t[16];
+          ph.get_random_16x8(
+              random_uint8_t, reinterpret_cast<unsigned long long&>(rowcol));
+
+          constexpr auto randval_dist_generated_spans =
+              decltype(randval_dist_generated)::get_distributed_spans();
+          int i_random_idx = 0;
+          sweep_tile_span(
+              randval_dist_generated_spans[number<0>{}], [&](auto idx0) {
+                sweep_tile_span(
+                    randval_dist_generated_spans[number<1>{}], [&](auto idx1) {
+                      constexpr auto i_j_idx = make_tuple(idx0, idx1);
+                      randval_dist_generated(i_j_idx) =
+                          random_uint8_t[i_random_idx++];
+                    });
+              });
+          // save to LDS
+          store_tile(randval_lds_window, randval_dist_generated);
+          block_sync_lds();
+          // read from LDS to register
+          auto randval = load_tile(randval_lds_read_window);
+          // save to Global
+          const auto randval_store = cast_tile<RandValOutputDataType>(randval);
+          store_tile(randval_dram_window, randval_store);
+          move_tile_window(randval_dram_window, {0, kNPerStep});
+        });
+        move_tile_window(randval_dram_window, {kMPerStep, -kNPerBlock});
+      });
+
+      move_tile_window(randval_dram_window, {-kMPerBlock, kNPerBlock});
+
+    } while (++i_total_loops < num_total_loop);
+  }
+
+  __device__ void operator()(Kargs kargs) const {
+    using namespace ck_tile;
+
+    // allocate LDS
+    __shared__ char smem_ptr[GetSmemSize()];
+
+    // divide problem
+    const auto [i_tile_m, i_nhead, i_batch] =
+        GetTileIndex(kargs.seqlen_q, kargs.seqlen_k);
+
+    const index_t i_m0 = __builtin_amdgcn_readfirstlane(i_tile_m * kMPerBlock);
+
+    long_index_t batch_offset_randval = 0;
+
+    if constexpr (kIsGroupMode) {
+      // get starting offset for each batch
+      const long_index_t query_start = kargs.seqstart_q_ptr[i_batch];
+
+      batch_offset_randval = query_start * kargs.stride_seqlen_q;
+
+      // get real # queries & # keys under group mode
+      const auto adjusted_seqstart_q_ptr = kargs.seqstart_q_ptr + i_batch;
+      kargs.seqlen_q = adjusted_seqstart_q_ptr[1] - adjusted_seqstart_q_ptr[0];
+
+      if (kargs.seqlen_q <= i_m0) {
+        return;
+      }
+
+      if (kargs.seqlen_k_ptr != nullptr) {
+        kargs.seqlen_k = kargs.seqlen_k_ptr[i_batch];
+      } else {
+        const auto adjusted_seqstart_k_ptr = kargs.seqstart_k_ptr + i_batch;
+        kargs.seqlen_k =
+            adjusted_seqstart_k_ptr[1] - adjusted_seqstart_k_ptr[0];
+      }
+    } else {
+      batch_offset_randval =
+          static_cast<long_index_t>(i_batch) * kargs.stride_batch;
+    }
+
+    constexpr auto randval_dram_window_lengths =
+        make_tuple(number<kMPerBlock>{}, number<kNPerBlock>{});
+
+    RandValOutputDataType* rand_val_ptr =
+        reinterpret_cast<RandValOutputDataType*>(kargs.rand_val_ptr) +
+        static_cast<long_index_t>(i_nhead) * kargs.stride_nhead +
+        batch_offset_randval;
+
+    const auto randval_dram = [&]() {
+      const auto randval_dram_naive =
+          make_naive_tensor_view<address_space_enum::global>(
+              rand_val_ptr,
+              make_tuple(kargs.seqlen_q, kargs.seqlen_k),
+              make_tuple(kargs.stride_seqlen_q, kargs.stride_seqlen_k),
+              number<1>{},
+              number<1>{});
+
+      return pad_tensor_view(
+          randval_dram_naive,
+          randval_dram_window_lengths,
+          ck_tile::sequence<kPadSeqLenQ, kPadSeqLenK>{});
+    }();
+
+    auto randval_dram_block_window_tmp =
+        make_tile_window(randval_dram, randval_dram_window_lengths, {i_m0, 0});
+
+    ck_tile::philox ph(
+        kargs.seed,
+        kargs.offset + (i_batch * kargs.num_heads + i_nhead) * get_warp_size() +
+            get_lane_id());
+
+    main_loop(kargs, ph, smem_ptr, randval_dram_block_window_tmp);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index f835ad82f2..9640752fa2 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -9,7 +9,7 @@
 
 FMHA_INSTANCE_HEADER = """
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -19,7 +19,7 @@
 """
 
 FMHA_INFER_INSTANCE_TEMPLATE="""
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_infer.h\"
 
 template void run_{mode}_infer_causalmask_bias_dropout_dispatch<
@@ -33,7 +33,7 @@
 FMHA_INFER_INSTANCE_FNAME="fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
 FMHA_FORWARD_INSTANCE_TEMPLATE="""
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_forward.h\"
 
 template void run_{mode}_forward_causalmask_bias_dropout_dispatch<
@@ -47,7 +47,7 @@
 FMHA_FORWARD_INSTANCE_FNAME="fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
 FMHA_BACKWARD_INSTANCE_TEMPLATE="""
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_backward.h\"
 
 template void run_{mode}_backward_causalmask_bias_dropout_dispatch<
@@ -94,8 +94,13 @@
 }
 
 TYPE_CTYPE_MAP = {
-   "fp16" : "ck::half_t", 
-   "bp16" : "ck::bhalf_t",
+   "fp16" : "ck_tile::fp16_t", 
+   "bf16" : "ck_tile::bf16_t",
+}
+
+TYPE_FNAME_MAP = {
+   "fp16" : "half", 
+   "bf16" : "bfloat16",
 }
 
 MODE_NAME_MAP = {
@@ -105,7 +110,7 @@
 
 def create_infer_instances(instance_dir: Path) -> None:
      for mode in ["batched", "grouped"]: 
-         for dtype in ["fp16", "bp16"]: 
+         for dtype in ["fp16", "bf16"]: 
              for has_causalmask in [True, False]: 
                  for has_bias in [True, False]:
                      for has_dropout in [True, False]:
@@ -120,6 +125,7 @@ def create_infer_instances(instance_dir: Path) -> None:
                                       )
                               infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
                                       mode=mode,
+                                      dtype_file=TYPE_FNAME_MAP[dtype],
                                       dtype=TYPE_CTYPE_MAP[dtype], 
                                       has_causalmask=BOOL_MAP[has_causalmask],
                                       has_bias=BOOL_MAP[has_bias],
@@ -131,7 +137,7 @@ def create_infer_instances(instance_dir: Path) -> None:
 
 def create_forward_instances(instance_dir: Path) -> None:
      for mode in ["batched", "grouped"]:
-         for dtype in ["fp16", "bp16"]:
+         for dtype in ["fp16", "bf16"]:
              for has_causalmask in [True, False]:
                  for has_bias in [True, False]:
                      for has_dropout in [True, False]:
@@ -146,6 +152,7 @@ def create_forward_instances(instance_dir: Path) -> None:
                                       )
                               infer_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
                                       mode=mode,
+                                      dtype_file=TYPE_FNAME_MAP[dtype],
                                       dtype=TYPE_CTYPE_MAP[dtype],
                                       has_causalmask=BOOL_MAP[has_causalmask],
                                       has_bias=BOOL_MAP[has_bias],
@@ -157,7 +164,7 @@ def create_forward_instances(instance_dir: Path) -> None:
 
 def create_backward_instances(instance_dir: Path) -> None:
      for mode in ["batched", "grouped"]:
-         for dtype in ["fp16", "bp16"]:
+         for dtype in ["fp16", "bf16"]:
              for has_causalmask in [True, False]:
                  for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
                      for has_dropout in [True, False]:
@@ -173,6 +180,7 @@ def create_backward_instances(instance_dir: Path) -> None:
                                       )
                               infer_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
                                       mode=mode,
+                                      dtype_file=TYPE_FNAME_MAP[dtype],
                                       dtype=TYPE_CTYPE_MAP[dtype],
                                       has_causalmask=BOOL_MAP[has_causalmask],
                                       has_bias=BOOL_MAP[has_bias],
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index f47ea89138..97f209cb64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 80872bc87c..5c0e89e217 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 1b7eb3fa13..5e33924930 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 752e5a5353..ae9158e219 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
     true,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index b7183ced42..dfc929276c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index a10d6a1bc4..a915f8aa50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 70d77321ee..7e17c92982 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 2296da150f..8d980af345 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
+    false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 0a51355813..be31aa59b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     true,
     true,
     false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b3a40e957a..7ea9cb0a90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    true,
     true,
     false,
     false,
-    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 27ab35a1b1..a2a9dd4d6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d2508d9939..594a62ff50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 489bdd9a5b..0307f9ab2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 25b8ae47d9..5a7cd479a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 5100ac96b3..e1280f6d28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
-    true,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 795744d655..04a107af45 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 40a92b384c..0a41a2f276 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index aac83e1bbc..49d6b9641f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index fbcbc8673e..f5ce7c5bbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
     true,
-    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 946da70a25..41ff265c73 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 68876d1ee0..f6b7766504 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 74a45b99b5..7f4013aaf1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
     false,
-    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 1c7f28a08b..5241a1b1f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index ac8b00115e..f5ee944ebf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    true,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index dcb2b06967..8ab3f930c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
-    true,
     false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 002b30ee5c..c757b7d353 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 0c4b5c1b60..4b3d9f2566 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index f4ab60aedb..03455ee6e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 7a45b95db0..48a5015399 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f98cac80bc..d73c780a6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 5d626588b6..c0636a9054 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index babf146051..3da3474df8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 47eed928b4..6ed11608db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index de13cdfa09..3cca920f5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index ffaf66bdf8..6383d494ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 53446d60e2..585dc69f34 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 78e737557a..6ca73178d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 6253cb013d..95218766ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 0d4a368233..bf092ff962 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 0075f69c49..394bbbe28f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 7988f3f3ab..ea38845571 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index a873606054..4596bfd7f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 2dd378e562..e1d72bc58f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 5882f0f74a..96f62e9ac9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 4e8f745793..dd72c62f2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 56f4ef2312..a0d7a83d9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 3fe2317532..e2d01f97ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index ea591609a7..d5378b3f3f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 465e3974e6..02c8c9bc52 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index cf441573af..8057c759e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 5bca9b8ae7..af6091b252 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 6312622ff9..3fc748ff2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index dc425e9db7..b9b6aacfe1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 3fbea87eed..8b667d2f7b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index ce9e7d2572..df1e6c3c0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index f93820dbb7..f415d94649 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 07dabfa5f5..ff8d33f214 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 852b0339d0..41da7ab903 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 4874e14aa8..340fb65eed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 0036596a56..be7f2144d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index eea9ea7765..0932fbb120 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 070ddddd6d..eaafd99490 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index ad72c8f1a2..02cf83abac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 99a3acd4fb..51bd8bedb2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 89e517e75a..7f999c203a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 9120025dd0..3ad4108615 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 419a240bd2..90572aabf7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index d9d4eaba93..9c00008201 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a1bcfbd2bc..13902640df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index d86f207d90..82849155ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 2fa1e64936..81636cea6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 2b9e3daef6..97775f0e26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 2237719c19..5a639ee11b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 24b717342b..29cf57025f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index d9333c0dcf..c60d415d4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 2fbb4d47c8..f6291e2db6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 1d79adfb8a..caec04c719 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 66c4450b6d..ae29f02a32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 8d6bc812fa..71eda93e90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 728b653c6f..aa31f0f845 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 5b609eb20f..551c4eb676 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     true,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 6fe3e9c9a5..1d6e78baf6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
+    false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 90d4de433f..278f6d358c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index cd43accf23..18e12c0a46 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 1c620930e9..d393e26c33 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 5dd1493035..e5e99ede06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 32c7ea50fb..672b58be14 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 8f41bf550c..ed42d7c0bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 6af1255c30..7e71f6b27b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     true,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 6d08b4bb72..5f0af8c18d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 6daa3edac8..3aac80d512 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 2e654d8a13..8018e467f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 0633597559..0266d3a367 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 2a32075549..d327faf638 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 49108e76df..af2c6e8de8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 4e19f3be9f..722dc77bb1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 8d3003cde5..9ab840b673 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index f28877eebd..6b6c4b6a1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 3da70de620..afd3bcfc3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index ffc65eed81..a349964c09 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 4a4f300521..03eb236cc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 436b9099f8..19dc010e44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 5ab62c09b4..14272770f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index f1c11f4245..bf7aefc53a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index db8135481a..6e2e94259e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 814b9d8ead..e08bb00a1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 6576c4e2d5..96de7b864a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 4bf477d19c..f82f2b4712 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 310a034207..60eda29ce7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index fda6ea6147..9cb7c591b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 121d264a35..effc47a630 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index ca98bf25a1..477ec5f36b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index a4881489df..b75a4f46f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 7a8d21150b..322d9c2e22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 2d8c78b9e4..77fb6a6042 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index db9d24e33e..57214e6f38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index e917e4574f..3b4f1be349 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 170647a654..afc858efb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index acdb267fd8..bdf207633e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 14c01441b5..ea656db19d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index c87a853a44..5d65d7ae79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 62d6f3f146..709138805f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 73dc87fc12..c50e52c865 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index dacb7ed77e..1808842fc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index f535ef4f6a..367c420a44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index de1bbe73f7..8f213bfef6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index ad9d397937..fd5da6b770 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 5f040fa031..70e0723bb6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index c6171c3503..4f8e39ac1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 5518daba3d..3d3be36e9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 0607c23252..21aae8f7cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index e0e156802a..514a01a39d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 22082a993b..c67d1c6532 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index e52ed1a52b..8100363256 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 37bee29739..7dda46c89e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 3deec3078a..2392b94989 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 8923f40086..74743b0244 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index c21f4dcddd..20290bab81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 40483eab70..ab3225bd44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 3196483754..3104427260 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index b0928ecfc1..af36d315e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 98f6d67238..b25e1be080 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 164c454054..5e660a8ea2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 640f9fe2d8..39153d92fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 9597383c93..bf3c3f21a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index fe8993be48..e9c1c05515 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 627f4ea617..e35a1e7a59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 7f7f9af7dc..577972843d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index fabe895041..bb48b49d25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index ca31525f0d..d13429529a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 59474b1915..5d44df43a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 802214815b..aadd0fcca8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index c101ff149a..034275f69a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 990cc05ce2..c922b00c0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index f15d45e695..8edd6fed56 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index c7263bc266..e2d8ba1013 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 9bc0561025..9e9adf31d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 001805e8a9..306829eaf4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 3384be9d38..8bfc621041 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index be5ece1fd7..fe81acab4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index a73c01e2e4..bcf5b783f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index e7234ebc2d..ba5a414507 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 64dbc70493..9cac1c3af7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 5a609eaf0d..e31ed43624 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index ccf7cb80b8..9f52f52bee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 4d13af6bcd..9ba93c82c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 2b8202b539..fec45193d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 38fe474db1..571f8ad489 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 3a03e2ed10..76447cfefc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 74cf62de8d..94e2e0dfc0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3d17dc729c..432d955b79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 49ef6a3eda..173d18aaf3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 6e9e3b2ab2..7661a50d3e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 1980128a2c..b3e43957f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index cefda72084..f54aa9ef4d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 718293285d..17f4018c3e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index f45e10da90..d5ea02d7c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 8c8d08f522..2e4a6769e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 59ac4bc28a..6caae1a75a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index edff64b7b4..c01f1105b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index b27270cc42..4e146ec417 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 34a7b746f7..e5bc54c2cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index c8d2c42e1d..ac3f5d0823 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 747ad6cf29..3f39b0323f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 83cdbd0e32..7440bc503a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index e72ef8963a..efaf984726 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 1269c0e743..0820075e55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 55a152e436..89dace1959 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index a348774eb1..95f57c0996 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 95a57bb7de..c8ac553296 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 5573f81b1c..10a261f3d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index c8eaea6a66..721145717a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 3471207787..be31000822 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index b3542bbf90..7c70e53b9a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 829f610297..75f733259f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index a5c71f3a2a..50507e69c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 51dd2f78f4..9310405485 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 51c34e651d..a1a08d4d51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 700f9acfdd..2007060668 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 4d43ed9b53..9db0403636 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index f6d0af7175..72fec28371 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index a73f1e9e93..5b3551d3ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 2e186f3bab..c9ca1a5594 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 307acb781f..09daabcfac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
     true,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 9e278d05df..0bc6056770 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 95cd673006..4896101714 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 120ced112d..3e9ba0cba0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 875c365545..3e13c1b17b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
+    false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 452f5ac0ca..b5023fdc82 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     true,
     true,
     false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 3e125e542a..7c3a7a165c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    true,
     true,
     false,
     false,
-    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 7cf70379fb..73cd48382e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d47bb845b5..f9163241f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 42be3cb812..55fa67c3d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 4323e29023..3549f1148a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 1228d91c3a..e8735e590b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
-    true,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 87da662764..43586d91c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a4fe43dd56..6e6e44a157 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d875a8cb9a..16c69fc8fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 5ebed8c733..c590ef5a43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
     true,
-    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index cbdac868f0..6e283c09fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index d5e242fec6..6d3aebee2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 8da955f156..62da5b2b37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
     false,
-    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index adaee823c7..28184d9191 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index eb4713c433..a1cdf5607b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    true,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index fc0636bb76..36a047ac75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
-    true,
     false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c77696023b..3930123b24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 4527adc288..60bd6d5c75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 35041c0020..549983dc43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,13 +8,13 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1a67c23b7f..8c32f736ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index bd7697091e..e4a8919ebe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 115f80da58..d88c4a1e08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 31ee39fb20..8aeb027879 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 258db9fcef..a41d5eacea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b848cecf72..324e1f0d0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 89da82e0fe..630e0f72cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 75%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 41d42b992b..b2b7066dfd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index cde7b8f085..9f75440383 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index c2298cb862..ab6c752ab7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 8342afa379..9881146056 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 834b1d6252..5393114240 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 0656ea175d..34dd664717 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 6bb731da42..88305d7de4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index fb458f74c4..4ff2f792b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 9536035d63..9534a7f50e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 666ae62429..906dcd51b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index d24d3d0f9f..926aadb7f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 82740f8dd1..5c29ff3c02 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 7cfa9ecab7..75684001ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 0f12efbedf..13e9959792 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 88d34ede5a..d41ee2d194 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index ed0c9af4d4..702a3bf4f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 597c93939b..b450ef78d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 0fe702a090..be18be1832 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index e5ab9b62cc..b93c052618 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 582dd07ae6..fc26a30255 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 4cf3d362e4..841cc31e53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 3c0e08ef55..f2865241c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index be449dddb3..35edebe380 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 8e56f25d37..8e0d32d5ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index c4ed120c07..573ec892b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 05ccb961bc..33f9cace9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index ab7a421fcd..683918a99d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 810225ab71..e0c419d2fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 2f5ad17f53..52e41c45d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 590b229878..acdf13265c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 07d372940f..6729d5917e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index c65c96f5d6..0721159033 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index e4aa0ac8a9..64ff3db39d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 63d619d8d6..f3acd7e173 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 905448129a..d78c567313 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a5c107a932..06dc769b9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index a9245471c0..63928f3a23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 780d6bc5dd..55e21c75a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 597de45439..7c1c89f54c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 5608da950d..9453c7d2c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index e67cfe5165..888c865cd2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 809a3597b5..1e12313707 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index c027178b7f..03625b7793 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 0f01746533..b99a04d7aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 2532a00745..12c1b6a90e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 70657a16ca..42a6cea301 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     true,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index ecfe07e638..81d679689b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
+    false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 4a1b10da68..e614abdaaa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 1ce86be185..339f992552 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 6a65e56bb0..64b61826f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 95fc499b1a..4983a4ac1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index e898330a92..fa7649deab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index f6ebe82284..3a24474ba5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index f404b2974b..57e895ae9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     true,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index e62a0cdfc7..b975fa34c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 1378e8bbea..3be314a738 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 3015904333..733debc015 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index cf15fa390a..b762d178c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 5677ead04e..7d8648a26d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 5cd3ef7d99..28a21d93fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
+    true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 70f34bc040..2fe0721c64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 6ef0db7165..159489e9d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 1da1957969..507aabe2d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 53c4b4f847..db7d8ed176 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 13cae6aea9..c95898882e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index c74bdd1da7..4c5395bed2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 79ad692cec..487acd8fa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index c44fe5e4e9..913d55757d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 151d072b26..137da7aaf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 3cbe181172..68a75552a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 65fd33d2d4..0603f0d1c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index cb94984015..2ba93fcc18 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 7ddd09ca5b..4f95470a50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 1c5e308f67..c12483acf2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 1a674ad119..d2bb3b0f28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 60d724d37b..76752b2e61 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 9c12682110..2658965bc7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 0972c088b8..3715f9e40c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index c7bee6428f..df210e2b1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 0dfdb53bc0..0acee77759 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index bb1cf00324..91e6d0778b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index c9d7245e94..4c2b6ca256 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 13cf18b744..5a2df731ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 1d10b19348..2492c47ea1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 239cfdcb7f..7cd86ff79c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 0417713d57..8924464591 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 917fee0d43..e6914af9d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 45c72d3118..3acb390fe8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 11ef78e80d..b395d5671e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 9d258a09ea..a65035381d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 63c04b1638..547fef8b14 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 38c0fdfb7d..8ec9165027 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 7620830c33..1f3195d6e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index ca03aa0a8b..1498a7d094 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 0f8d631d1c..858d55e001 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 9aca2c81e5..72b4db4f80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index f61fe5eeb3..237cbc71c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index a6523f6fd1..a40d4a3a30 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index c45de9a85d..9fb5462a06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index aa482cddcd..832ee6f82f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 32c319a50d..beaaaf75a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 018cb72be9..23927f8965 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index faabed60aa..7e0495247c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index c920dff22a..59224bc657 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 4e8d812c8e..2917ab5d0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 06e096f9d3..ea651303ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index f2611fd2c4..f1b6c27626 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 3b5614f0e1..631b007f7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 93211cdd1b..6bf62e163f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index e3a6587488..e9d80dcbac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 3fa6d85bd7..629111cc2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 4909cfa453..03a582a51d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index b332218349..8866842c56 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index ad7ce669e8..0fc722d97a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 83e19ecfc1..d7654bcdb1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index a1c40a7f29..aa8b341c51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 37b634b550..14d6da36b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 055c3ddf68..2f4a65c579 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index bdee87bc76..f7f7bde51d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 489521a757..3833d791c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 4705a9d4e9..b2c7d4be19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 85f34fba84..ab22cec477 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 69835203f0..198837822d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 7fa0776991..45d86f18ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index dc34c1a04c..be4cceb0c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    false,
+    ck_tile::bf16_t,
     false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 0af311aa84..af14ace8f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index d68e89d55f..00fbb2563c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index ea765be5e9..e7c4b053e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index ee1dbceea8..c9d263f8fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,12 +8,12 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
-    true,
+    ck_tile::bf16_t,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 5d75d94376..da5ce48b56 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 9af2dd0ac9..4cac3c509c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 92bc89ea5f..eacbac2876 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
similarity index 74%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index a2b3fd2a35..e33f527179 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::bhalf_t,
+    ck_tile::bf16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 916786bffb..c604204d20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index dac24a5334..f4623e6645 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index c99321f42a..cb44bd3e65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 306b2de2ad..0f0e5290d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 5a8431fe59..9b486ea34d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 29d76c352a..2154e1485d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 9475e9edd1..4d526353a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index adb2f5ad1c..bc14f586d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 524a21c343..98567089a7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 12eb1d0e58..26211bc694 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 26f6190d83..72722bcf8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 111473c7e6..c706a640cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 9adb10a8cf..58107a965e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 6b7f35fa47..2b2c794f59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index e89cffda50..e8e3110f91 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 7b4552d93f..c50ad6f4e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     true,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 734b7e5a05..60e20d7445 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 2644e47964..e4eeebfcbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index cba7af09dd..4b54aa5629 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 1755388bb7..66e02cd502 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 24074346e3..1c42f4206f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 609ee02ecf..46b4bd2884 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 56debfe4d3..2ec8996f45 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 454733419d..5e2a114a75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index de325b10cf..88ad1f8ddf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 40754cdd36..c536e0970e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 9e27756bf1..0c927196b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 4000c08c5a..e84f94f35d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 089d461915..94db8d5d9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 6a6e96ff8c..61abbbf366 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index fb8604451f..2a7b8f2566 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 6a1ae56495..d5b1bd1800 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -8,11 +8,11 @@
  * The file is automatically generated, don't modify!
  */
 
-#include <ck/ck.hpp>
+#include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
-    ck::half_t,
+    ck_tile::fp16_t,
     false,
     false,
     false,

From 76fb48524219d47190aefb8f814095e25a24a4a8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 13 Jun 2024 16:24:35 +0000
Subject: [PATCH 551/837] Synchronize composable_kernel_tiled to latest ck
 develop

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 6e56bcb9c9..b642ad5b97 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop-xformers-test 
+	branch = develop 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index ed3a957f1c..37a347e380 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit ed3a957f1c49b6ac280e52d96dcceac920e582d9
+Subproject commit 37a347e3807198400d6ee1c8401f7c2cbb1d426e

From 1f3add7f6b4cf6d7faf2111ca1870df2dd85775a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 14 Jun 2024 09:39:16 +0000
Subject: [PATCH 552/837] Use FmhaFwdTilePartitioner_HBS only with seqlen_k
 padded cases

---
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 29 ++++++++----
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 47 ++++++++++++++-----
 2 files changed, 57 insertions(+), 19 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 55609fd9fb..802d2faeaf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -49,8 +49,7 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-      using FmhaFwdTilePartitioner_ =
-          ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
+
       constexpr ck_tile::index_t occupancy =
           (MaxK == 64) ? 3 : (MaxK == 256) ? 1 : 2;
 
@@ -92,12 +91,26 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
                     kPadSeqLenQ,
                     kPadHeadDimV>>;
 
-            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                FmhaFwdTilePartitioner_,
-                FmhaFwdPipeline_,
-                FmhaFwdEpilogue_>;
-
-            RunWithKernel<FmhaFwdKernel_>(param, stream);
+            if (param.seqlen_k_dev_ptr !=
+                nullptr) { // seqlen_k of batches are padded
+              using FmhaTilePartitioner =
+                  ck_tile::FmhaFwdTilePartitioner_HBS<FmhaFwdShape_>;
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
+            } else {
+              using FmhaTilePartitioner =
+                  ck_tile::FmhaFwdTilePartitioner_SHB<FmhaFwdShape_>;
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
+            }
           });
     });
   };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index f66eeb4360..5197a6cb16 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -50,7 +50,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
       using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
       constexpr ck_tile::index_t occupancy =
           (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
@@ -94,12 +93,26 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
                       kPadSeqLenQ,
                       kPadHeadDimV>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
+              if (param.seqlen_k_dev_ptr !=
+                  nullptr) { // seqlen_k of batches are padded
+                using FmhaTilePartitioner =
+                    ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
+                using FmhaKernel = ck_tile::FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTilePartitioner =
+                    ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
+                using FmhaKernel = ck_tile::FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              }
             });
       } else {
         using FmhaTraits = ck_tile::TileFmhaTraits<
@@ -127,10 +140,22 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
                 true,
                 true>>;
 
-        using FmhaKernel = ck_tile::
-            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-        RunWithKernel<FmhaKernel>(param, stream);
+        if (param.seqlen_k_dev_ptr !=
+            nullptr) { // seqlen_k of batches are padded
+          using FmhaTilePartitioner =
+              ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
+          using FmhaKernel = ck_tile::
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        } else {
+          using FmhaTilePartitioner =
+              ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
+          using FmhaKernel = ck_tile::
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        }
       }
     });
   };

From 9df93e5ff8faa816b643326ab32f84add384e0f3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Jun 2024 19:06:20 +0000
Subject: [PATCH 553/837] Tiny fix/change to make
 test_forward/test_backward/test_dropout/test_dropout_backward_ck pass

---
 setup.py                        | 2 +-
 tests/test_mem_eff_attention.py | 8 ++++++--
 xformers/ops/fmha/ck.py         | 9 +++++----
 3 files changed, 12 insertions(+), 7 deletions(-)

diff --git a/setup.py b/setup.py
index 327e1f7df6..74d5b9cd73 100644
--- a/setup.py
+++ b/setup.py
@@ -434,7 +434,7 @@ def get_extensions():
                 "-DCK_FMHA_FWD_FAST_EXP2=1",
                 "-fgpu-flush-denormals-to-zero",
                 "-Werror",
-                "-Woverloaded-virtual",
+                ##"-Woverloaded-virtual",
             ]
             + generator_flag
             + cc_flag,
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index acfec797db..16a4b361c3 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -967,7 +967,7 @@ def test_backward(
     )
 
     if op_bw == fmha.ck.BwOp:
-        op_fwd = fmha.ck.FwOp
+        op_fw = fmha.ck.FwOp
         if dtype == torch.bfloat16:
             pytest.skip("CK Fmha backward for bfloat16 currently is not very accurate for some cases!")
         if grad_out_contiguous == False:
@@ -1170,7 +1170,11 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     torch.manual_seed(seed)
     mask = _get_drop_mask(op, batch_size, q_len, kv_len, p, device)
     ref = ref_attention_for_test(query, key, value, attn_bias, mask, p)
-    assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
+
+    if dtype is torch.float:
+        assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
+    else:
+        assert_allclose(out.float(), ref, atol=2.2e-2), f"{(out - ref).abs().max()}"
 
     num_trials = 1000
     p_val_tol = 1e-6
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 5046b7fc4f..79780e093c 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -15,6 +15,7 @@
 from . import attn_bias
 from .attn_bias import (
     AttentionBias,
+    AttentionBiasSubTensor,
     BlockDiagonalCausalLocalAttentionFromBottomRightMask,
     BlockDiagonalCausalLocalAttentionMask,
     BlockDiagonalCausalMask,
@@ -65,13 +66,13 @@ def _get_seqlen_info(
 def _get_tensor_bias(
     attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
 ) -> Optional[torch.Tensor]:
-    if isinstance(attn_bias, torch.Tensor):
+    if isinstance(attn_bias, AttentionBiasSubTensor):
+        if isinstance(attn_bias, LowerTriangularMaskWithTensorBias):
+            return attn_bias._subtensor
+    elif isinstance(attn_bias, torch.Tensor):
         return attn_bias
-    elif isinstance(attn_bias, LowerTriangularMaskWithTensorBias):
-        return attn_bias._subtensor
     return None
 
-
 def _check_bias_alignment(
     reasons: List[str], attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
 ) -> None:

From d6ccfa1a63a70f9ff0800d40e168cc9596121051 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Jun 2024 20:17:27 +0000
Subject: [PATCH 554/837] Fix compiling issue with regard to Invoker
 definitions in forward_decoder/forward_decoder_split operators

---
 .../hip_fmha/attention_forward_decoder.cpp    |  4 +-
 .../hip_fmha/attention_forward_splitk.cpp     |  4 +-
 .../hip_fmha/ck_attention_forward_decoder.h   | 56 ++++++-----
 .../ck_attention_forward_decoder_splitk.h     | 98 ++++++++++---------
 4 files changed, 83 insertions(+), 79 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 6fe0137b03..41a78f01df 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -149,7 +149,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
             lds_bytes);
 
         auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
+        (void)invoker.Run(&arg, {stream});
       });
 
   return O;
@@ -330,4 +330,4 @@ int main(int argc, char** argv) {
   return 0;
 }
 
-#endif // MAIN
\ No newline at end of file
+#endif // MAIN
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index 0c2740063e..bf4d3d7937 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -167,7 +167,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
             lds_bytes);
 
         auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
+        (void)invoker.Run(&arg, {stream});
       });
 
   return O;
@@ -1181,4 +1181,4 @@ int main(int argc, char** argv) {
 #endif // MAIN
 
 #undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
\ No newline at end of file
+#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index 741eda2ef5..fcd45dd5fb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -434,14 +434,16 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
   struct Invoker : public BaseInvoker {
     using Argument = DeviceOp::Argument;
     float Run(
-        const Argument& arg,
+        const BaseArgument* argp_,
         const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
+      const Argument* argp = dynamic_cast<const Argument*>(argp_);
+
+      auto threads_per_wavefront = argp->block_dim.x;
 
       auto Q_size_k_alignment_necessary = 0;
 
       for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
           Q_size_k_alignment_necessary = vec_size;
         }
       }
@@ -450,7 +452,7 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
         throw std::runtime_error("Unsupported Q_size_k");
       }
 
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
         throw std::runtime_error("Unsupported alignment for Q_size_k");
       }
 
@@ -465,29 +467,29 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
                             scalar_t,
                             1>
                       : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.O,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale);
+          argp->grid_dim,
+          argp->block_dim,
+          argp->lds_bytes,
+          argp->XQ,
+          argp->cache_K,
+          argp->cache_V,
+          argp->O,
+          argp->seq_kv_lens,
+          argp->XQ_stride_b,
+          argp->XQ_stride_m,
+          argp->XQ_stride_g,
+          argp->XQ_stride_h,
+          argp->K_stride_b,
+          argp->K_stride_m,
+          argp->K_stride_g,
+          argp->K_stride_h,
+          argp->Q_size_m,
+          argp->Q_size_g,
+          argp->Q_size_h,
+          argp->Q_size_k,
+          argp->K_size_m,
+          argp->multiquery,
+          argp->qk_scale);
     }
   };
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index bb45f37968..df329b20f8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -593,13 +593,15 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
   struct Invoker : public BaseInvoker {
     using Argument = DeviceOp::Argument;
     float Run(
-        const Argument& arg,
+        const BaseArgument* argp_,
         const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
+      const Argument* argp = dynamic_cast<const Argument*>(argp_);
+
+      auto threads_per_wavefront = argp->block_dim.x;
       auto Q_size_k_alignment_necessary = 0;
 
       for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
           Q_size_k_alignment_necessary = vec_size;
         }
       }
@@ -608,7 +610,7 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
         throw std::runtime_error("Unsupported Q_size_k");
       }
 
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
         throw std::runtime_error("Unsupported alignment for Q_size_k");
       }
 
@@ -639,36 +641,36 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                             KV_M_MAX,
                             compute_t>
                       : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
+          argp->grid_dim,
+          argp->block_dim,
+          argp->lds_bytes,
+          argp->XQ,
+          argp->cache_K,
+          argp->cache_V,
+          argp->split_O,
+          argp->split_max,
+          argp->split_sumexp,
+          argp->seq_kv_lens,
+          argp->XQ_stride_b,
+          argp->XQ_stride_m,
+          argp->XQ_stride_g,
+          argp->XQ_stride_h,
+          argp->K_stride_b,
+          argp->K_stride_m,
+          argp->K_stride_g,
+          argp->K_stride_h,
+          argp->O_stride_split,
+          argp->Q_size_m,
+          argp->Q_size_g,
+          argp->Q_size_h,
+          argp->Q_size_k,
+          argp->K_size_m,
+          argp->multiquery,
+          argp->qk_scale,
+          argp->split_k);
+
+      const dim3 reduce_gridsize = {argp->grid_dim.x};
+      const dim3 reduce_blocksize = {argp->block_dim.x};
       constexpr int32_t reduce_lds_bytes = 0;
       float reduce_result = launch_and_time_kernel(
           stream_config,
@@ -688,20 +690,20 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.O_stride_split,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.split_k);
+          argp->split_O,
+          argp->split_max,
+          argp->split_sumexp,
+          argp->O,
+          argp->Q_size_m,
+          argp->Q_size_g,
+          argp->Q_size_h,
+          argp->Q_size_k,
+          argp->O_stride_split,
+          argp->XQ_stride_b,
+          argp->XQ_stride_m,
+          argp->XQ_stride_g,
+          argp->XQ_stride_h,
+          argp->split_k);
       return split_attention_result + reduce_result;
     }
   };

From a7c74756c8da4495e41ae9155ab1c909fa78f653 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 18 Jun 2024 09:51:17 +0000
Subject: [PATCH 555/837] Keep using -Woverloaded-virtual

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 74d5b9cd73..327e1f7df6 100644
--- a/setup.py
+++ b/setup.py
@@ -434,7 +434,7 @@ def get_extensions():
                 "-DCK_FMHA_FWD_FAST_EXP2=1",
                 "-fgpu-flush-denormals-to-zero",
                 "-Werror",
-                ##"-Woverloaded-virtual",
+                "-Woverloaded-virtual",
             ]
             + generator_flag
             + cc_flag,

From b157b490f72b2328f02b4c57353f4543b1d8279b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 18 Jun 2024 10:23:02 +0000
Subject: [PATCH 556/837] Fix clang-format for headers and cpp files

---
 .../hip_fmha/attention_forward_decoder.cpp    |  6 +--
 .../hip_fmha/attention_forward_splitk.cpp     | 54 +++++++++----------
 .../hip_fmha/ck_attention_forward_decoder.h   | 10 ++--
 .../ck_attention_forward_decoder_splitk.h     | 48 ++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  5 +-
 5 files changed, 61 insertions(+), 62 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
index 41a78f01df..0cabf3f95e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
@@ -270,9 +270,9 @@ int main(int argc, char** argv) {
     const int32_t n_heads = std::stoi(args[3]);
     const int32_t n_groups = 1;
     const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32")
-        ? torch::kFloat32
-        : (args[5] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[6]);
 
     const int32_t dim_per_head = 4 * kThreadsPerWavefront;
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
index bf4d3d7937..fd70436a36 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
@@ -555,22 +555,22 @@ struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
                     kMaxKVSequenceLength,
                     compute_t>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        2,
-                        kLoopUnroll,
-                        kLoopUnrollTail,
-                        kMaxKVSequenceLength,
-                        compute_t>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            1,
-                            kLoopUnroll,
-                            kLoopUnrollTail,
-                            kMaxKVSequenceLength,
-                            compute_t>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : nullptr,
           arg.grid_dim,
           arg.block_dim,
           arg.lds_bytes,
@@ -728,14 +728,14 @@ struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : O_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                        scalar_t,
-                        2>
-                  : O_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
@@ -1114,9 +1114,9 @@ int main(int argc, char** argv) {
     const int32_t batch_size = std::stoi(args[1]);
     const int32_t nq_heads = std::stoi(args[2]);
     const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32")
-        ? torch::kFloat32
-        : (args[4] == "f16") ? torch::kFloat16 : torch::kBFloat16;
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
     const int32_t n_wavefronts_per_block = std::stoi(args[5]);
 
     auto [Q, K, V, seq] =
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
index fcd45dd5fb..c455f235ab 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
@@ -461,12 +461,10 @@ struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
           Q_size_k_alignment_necessary == 4
               ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+              : nullptr,
           argp->grid_dim,
           argp->block_dim,
           argp->lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
index df329b20f8..e4d575a588 100644
--- a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
@@ -625,22 +625,22 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     KV_M_MAX,
                     compute_t>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                        scalar_t,
-                        /* vec_size */ 2,
-                        n_loop_unroll,
-                        n_loop_unroll_tail,
-                        KV_M_MAX,
-                        compute_t>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                            scalar_t,
-                            /* vec_size */ 1,
-                            n_loop_unroll,
-                            n_loop_unroll_tail,
-                            KV_M_MAX,
-                            compute_t>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 2,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 1,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : nullptr,
           argp->grid_dim,
           argp->block_dim,
           argp->lds_bytes,
@@ -679,14 +679,14 @@ struct FMHADecoderSplitKDeviceOp : public BaseOperator {
                     scalar_t,
                     4>
               : Q_size_k_alignment_necessary == 2
-                  ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                        scalar_t,
-                        2>
-                  : Q_size_k_alignment_necessary == 1
-                      ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                            scalar_t,
-                            1>
-                      : nullptr,
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
           reduce_gridsize,
           reduce_blocksize,
           reduce_lds_bytes,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 802d2faeaf..2fa305e0ad 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -50,8 +50,9 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
 
       using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
 
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : (MaxK == 256) ? 1 : 2;
+      constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
+          : (MaxK == 256)                                 ? 1
+                                                          : 2;
 
       constexpr auto kBiasEnum = kHasBias
           ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS

From b2fb213edc59453df09d3318083c6f6e353ea5c0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 18 Jun 2024 03:09:26 +0000
Subject: [PATCH 557/837] Fix format in python scripts

---
 tests/test_mem_eff_attention.py               |  11 +-
 .../attention/hip_fmha/generate_instances.py  | 191 +++++++++---------
 xformers/ops/fmha/ck.py                       |   1 +
 xformers/ops/fmha/dispatch.py                 |   4 +-
 4 files changed, 109 insertions(+), 98 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 16a4b361c3..0bb112a6e0 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -266,6 +266,7 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
     **_generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(ALL_BW_OPS, max_shapes_per_op=1),
 )
 
+
 def ref_attention_splitk_bmhk(
     q, k, v, attn_bias, scale=None, split_k=None, dtype=None
 ) -> torch.Tensor:
@@ -970,7 +971,7 @@ def test_backward(
         op_fw = fmha.ck.FwOp
         if dtype == torch.bfloat16:
             pytest.skip("CK Fmha backward for bfloat16 currently is not very accurate for some cases!")
-        if grad_out_contiguous == False:
+        if grad_out_contiguous is False:
             pytest.skip("CK Fmha does not support contiguous layout for grad_out!")
         if k % 2 != 0:
             pytest.skip("CK Fmha currently requires the headdim size of query input be an even value!")
@@ -1142,9 +1143,9 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     device = "cuda"
     scale = 3
 
-    dtype=torch.float
+    dtype = torch.float
     if torch.version.hip and op == fmha.ck.FwOp:
-        dtype=torch.float16
+        dtype = torch.float16
 
     query = torch.randn((batch_size, q_len, k_len), device=device, dtype=dtype) * scale
     key = torch.randn((batch_size, kv_len, k_len), device=device, dtype=dtype) * scale
@@ -1294,7 +1295,8 @@ def test_dropout_backward_cutlass(dt, q_len, kv_len, batch_size, k, p):
         dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
     )
 
-cuda_only
+
+@cuda_only
 @pytest.mark.parametrize("p", [0.000001, 0.3, 0.7])
 @pytest.mark.parametrize("k", [16, 64, 128])
 @pytest.mark.parametrize("batch_size", [1, 2])
@@ -1312,6 +1314,7 @@ def test_dropout_backward_ck(dt, q_len, kv_len, batch_size, k, p):
         dtype={"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dt],
     )
 
+
 @cuda_only
 @disable_tf32
 @disable_on_rocm
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 9640752fa2..de304bf7c1 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -18,7 +18,7 @@
  */
 """
 
-FMHA_INFER_INSTANCE_TEMPLATE="""
+FMHA_INFER_INSTANCE_TEMPLATE = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_infer.h\"
 
@@ -30,9 +30,10 @@
     {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
 """
 
-FMHA_INFER_INSTANCE_FNAME="fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+FMHA_INFER_INSTANCE_FNAME = "fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_"\
+                            "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
-FMHA_FORWARD_INSTANCE_TEMPLATE="""
+FMHA_FORWARD_INSTANCE_TEMPLATE = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_forward.h\"
 
@@ -44,9 +45,10 @@
     {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
 """
 
-FMHA_FORWARD_INSTANCE_FNAME="fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+FMHA_FORWARD_INSTANCE_FNAME = "fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_"\
+                              "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
-FMHA_BACKWARD_INSTANCE_TEMPLATE="""
+FMHA_BACKWARD_INSTANCE_TEMPLATE = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_backward.h\"
 
@@ -59,7 +61,8 @@
     {max_k}>({cap_mode}BackwardParams& param, hipStream_t stream);
 """
 
-FMHA_BACKWARD_INSTANCE_FNAME="fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+FMHA_BACKWARD_INSTANCE_FNAME = "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"\
+                               "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
 BOOL_MAP = {
     True : "true",
@@ -72,17 +75,17 @@
 }
 
 BOOL_MAP_BIAS = {
-    True :  "has_bias",
-    False : "no_bias", 
+    True : "has_bias",
+    False : "no_bias",
 }
 
 BOOL_MAP_BIASGRAD = {
-    True : "has_biasgrad", 
+    True : "has_biasgrad",
     False : "no_biasgrad",
 }
 
 BOOL_MAP_DROPOUT = {
-    True : "has_dropout", 
+    True : "has_dropout",
     False : "no_dropout",
 }
 
@@ -94,102 +97,106 @@
 }
 
 TYPE_CTYPE_MAP = {
-   "fp16" : "ck_tile::fp16_t", 
-   "bf16" : "ck_tile::bf16_t",
+    "fp16" : "ck_tile::fp16_t",
+    "bf16" : "ck_tile::bf16_t",
 }
 
 TYPE_FNAME_MAP = {
-   "fp16" : "half", 
-   "bf16" : "bfloat16",
+    "fp16" : "half",
+    "bf16" : "bfloat16",
 }
 
 MODE_NAME_MAP = {
     "batched" : "Batched",
-    "grouped" : "Grouped", 
+    "grouped" : "Grouped",
 }
 
+
 def create_infer_instances(instance_dir: Path) -> None:
-     for mode in ["batched", "grouped"]: 
-         for dtype in ["fp16", "bf16"]: 
-             for has_causalmask in [True, False]: 
-                 for has_bias in [True, False]:
-                     for has_dropout in [True, False]:
-                         for max_k in [32, 64, 128, 256]: 
-                              fname = FMHA_INFER_INSTANCE_FNAME.format(
-                                      mode=mode,
-                                      dtype_str=dtype, 
-                                      has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
-                                      has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
-                                      has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
-                                      max_k_str=INT_MAP_MAX_K[max_k],
-                                      )
-                              infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
-                                      mode=mode,
-                                      dtype_file=TYPE_FNAME_MAP[dtype],
-                                      dtype=TYPE_CTYPE_MAP[dtype], 
-                                      has_causalmask=BOOL_MAP[has_causalmask],
-                                      has_bias=BOOL_MAP[has_bias],
-                                      has_dropout=BOOL_MAP[has_dropout],
-                                      max_k=max_k,
-                                      cap_mode=MODE_NAME_MAP[mode], 
-                                      )
-                              (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance) 
+    for mode in ["batched", "grouped"]:
+        for dtype in ["fp16", "bf16"]:
+            for has_causalmask in [True, False]:
+                for has_bias in [True, False]:
+                    for has_dropout in [True, False]:
+                        for max_k in [32, 64, 128, 256]:
+                            fname = FMHA_INFER_INSTANCE_FNAME.format(
+                                mode=mode,
+                                dtype_str=dtype,
+                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
+                                has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
+                                max_k_str=INT_MAP_MAX_K[max_k],
+                            )
+                            infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
+                                mode=mode,
+                                dtype_file=TYPE_FNAME_MAP[dtype],
+                                dtype=TYPE_CTYPE_MAP[dtype],
+                                has_causalmask=BOOL_MAP[has_causalmask],
+                                has_bias=BOOL_MAP[has_bias],
+                                has_dropout=BOOL_MAP[has_dropout],
+                                max_k=max_k,
+                                cap_mode=MODE_NAME_MAP[mode],
+                            )
+                            (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+
 
 def create_forward_instances(instance_dir: Path) -> None:
-     for mode in ["batched", "grouped"]:
-         for dtype in ["fp16", "bf16"]:
-             for has_causalmask in [True, False]:
-                 for has_bias in [True, False]:
-                     for has_dropout in [True, False]:
-                         for max_k in [32, 64, 128, 256]:
-                              fname = FMHA_FORWARD_INSTANCE_FNAME.format(
-                                      mode=mode,
-                                      dtype_str=dtype,
-                                      has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
-                                      has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
-                                      has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
-                                      max_k_str=INT_MAP_MAX_K[max_k],
-                                      )
-                              infer_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
-                                      mode=mode,
-                                      dtype_file=TYPE_FNAME_MAP[dtype],
-                                      dtype=TYPE_CTYPE_MAP[dtype],
-                                      has_causalmask=BOOL_MAP[has_causalmask],
-                                      has_bias=BOOL_MAP[has_bias],
-                                      has_dropout=BOOL_MAP[has_dropout],
-                                      max_k=max_k,
-                                      cap_mode=MODE_NAME_MAP[mode],
-                                      )
-                              (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+    for mode in ["batched", "grouped"]:
+        for dtype in ["fp16", "bf16"]:
+            for has_causalmask in [True, False]:
+                for has_bias in [True, False]:
+                    for has_dropout in [True, False]:
+                        for max_k in [32, 64, 128, 256]:
+                            fname = FMHA_FORWARD_INSTANCE_FNAME.format(
+                                mode=mode,
+                                dtype_str=dtype,
+                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
+                                has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
+                                max_k_str=INT_MAP_MAX_K[max_k],
+                            )
+                            infer_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
+                                mode=mode,
+                                dtype_file=TYPE_FNAME_MAP[dtype],
+                                dtype=TYPE_CTYPE_MAP[dtype],
+                                has_causalmask=BOOL_MAP[has_causalmask],
+                                has_bias=BOOL_MAP[has_bias],
+                                has_dropout=BOOL_MAP[has_dropout],
+                                max_k=max_k,
+                                cap_mode=MODE_NAME_MAP[mode],
+                            )
+                            (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+
 
 def create_backward_instances(instance_dir: Path) -> None:
-     for mode in ["batched", "grouped"]:
-         for dtype in ["fp16", "bf16"]:
-             for has_causalmask in [True, False]:
-                 for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
-                     for has_dropout in [True, False]:
-                         for max_k in [32, 64, 128]:
-                              fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
-                                      mode=mode,
-                                      dtype_str=dtype,
-                                      has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
-                                      has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
-                                      has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
-                                      has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
-                                      max_k_str=INT_MAP_MAX_K[max_k],
-                                      )
-                              infer_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
-                                      mode=mode,
-                                      dtype_file=TYPE_FNAME_MAP[dtype],
-                                      dtype=TYPE_CTYPE_MAP[dtype],
-                                      has_causalmask=BOOL_MAP[has_causalmask],
-                                      has_bias=BOOL_MAP[has_bias],
-                                      has_bias_grad=BOOL_MAP[has_bias_grad],
-                                      has_dropout=BOOL_MAP[has_dropout],
-                                      max_k=max_k,
-                                      cap_mode=MODE_NAME_MAP[mode],
-                                      )
-                              (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+    for mode in ["batched", "grouped"]:
+        for dtype in ["fp16", "bf16"]:
+            for has_causalmask in [True, False]:
+                for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
+                    for has_dropout in [True, False]:
+                        for max_k in [32, 64, 128]:
+                            fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
+                                mode=mode,
+                                dtype_str=dtype,
+                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
+                                has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
+                                has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
+                                max_k_str=INT_MAP_MAX_K[max_k],
+                            )
+                            infer_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
+                                mode=mode,
+                                dtype_file=TYPE_FNAME_MAP[dtype],
+                                dtype=TYPE_CTYPE_MAP[dtype],
+                                has_causalmask=BOOL_MAP[has_causalmask],
+                                has_bias=BOOL_MAP[has_bias],
+                                has_bias_grad=BOOL_MAP[has_bias_grad],
+                                has_dropout=BOOL_MAP[has_dropout],
+                                max_k=max_k,
+                                cap_mode=MODE_NAME_MAP[mode],
+                            )
+                            (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+
 
 if __name__ == "__main__":
     this_dir = os.path.dirname(__file__)
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 79780e093c..5d94ff5a23 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -73,6 +73,7 @@ def _get_tensor_bias(
         return attn_bias
     return None
 
+
 def _check_bias_alignment(
     reasons: List[str], attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
 ) -> None:
diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index 8c5f6967ea..f10bdb819b 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -139,8 +139,8 @@ def _dispatch_bw(inp: Inputs) -> Type[AttentionBwOpBase]:
         ]
     else:
         priority_list_ops = [
-                ck.BwOp,
-            ]
+            ck.BwOp,
+        ]
 
     if torch.version.cuda and _is_cutlassB_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.BwOp)

From fdf8b8ef3096b6a85f5a38759deddb7b55a7d0d7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 18 Jun 2024 17:50:00 +0000
Subject: [PATCH 558/837] Add noqa: C801 for generate_instances.py

---
 xformers/csrc/attention/hip_fmha/generate_instances.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index de304bf7c1..4abd46ec51 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -1,3 +1,4 @@
+# noqa: C801
 # Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
 #
 # This source code is licensed under the BSD-style license found in the

From 633a16103020aaf014f5fe98c3f87f00ba0b18be Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 19 Jun 2024 08:42:55 +0000
Subject: [PATCH 559/837] Align dispatch_bw with main branch

---
 xformers/ops/fmha/dispatch.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/dispatch.py b/xformers/ops/fmha/dispatch.py
index f10bdb819b..dfa769b1b1 100644
--- a/xformers/ops/fmha/dispatch.py
+++ b/xformers/ops/fmha/dispatch.py
@@ -127,7 +127,7 @@ def _is_cutlassB_faster_than_flash(inp: Inputs) -> bool:
     return False
 
 
-def _dispatch_bw(inp: Inputs) -> Type[AttentionBwOpBase]:
+def _dispatch_bw(inp: Inputs, is_unpadded_lse: bool = False) -> Type[AttentionBwOpBase]:
     if torch.version.cuda:
         priority_list_ops: List[Type[AttentionBwOpBase]] = [
             flash.BwOp,
@@ -142,6 +142,8 @@ def _dispatch_bw(inp: Inputs) -> Type[AttentionBwOpBase]:
             ck.BwOp,
         ]
 
+    if is_unpadded_lse:
+        priority_list_ops = [op for op in priority_list_ops if op.SUPPORTS_UNPADDED_LSE]
     if torch.version.cuda and _is_cutlassB_faster_than_flash(inp):
         priority_list_ops.remove(cutlass.BwOp)
         priority_list_ops.insert(0, cutlass.BwOp)

From 00cf683aabdb7cb81196fec0af044dc6eb769860 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 19 Jun 2024 22:12:25 +0000
Subject: [PATCH 560/837] Align ops/fmha/common.py with main branch

---
 xformers/ops/fmha/common.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/xformers/ops/fmha/common.py b/xformers/ops/fmha/common.py
index cbcb3c4479..734c44d018 100644
--- a/xformers/ops/fmha/common.py
+++ b/xformers/ops/fmha/common.py
@@ -192,13 +192,11 @@ def validate_inputs(self) -> None:
                 and self.value.shape == (B, Mkv, Kv)
             )
         H = self.query.shape[-2]
-        Hkv = self.key.shape[-2]
         if self.query.ndim == 4:  # BMHK
             valid_shapes = (
                 self.query.shape == (B, Mq, H, K)
-                and self.key.shape == (B, Mkv, Hkv, key_embed_dim)
-                and self.value.shape == (B, Mkv, Hkv, Kv)
-                and H % Hkv == 0
+                and self.key.shape == (B, Mkv, H, key_embed_dim)
+                and self.value.shape == (B, Mkv, H, Kv)
             )
         G = self.query.shape[2]
         if self.query.ndim == 5:  # BMNHK

From 252844dd514ace1c96f669fb8303ef35b9d79b26 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 20 Jun 2024 14:53:57 +0000
Subject: [PATCH 561/837] Synchronize the thirty-party/composable_kernel_tiled
 to latest ck_tile commits for better performance

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 37a347e380..e3f44659cf 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 37a347e3807198400d6ee1c8401f7c2cbb1d426e
+Subproject commit e3f44659cf77df8c3de15eb14baffd58be6ac550

From 610909edef7c73f7ef6a19adfaaa7164bb6ce728 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 20 Jun 2024 14:56:11 +0000
Subject: [PATCH 562/837] Relax the atol for test_forward and test_dropout due
 to the using of packed fp16_2_fp32 conversion in ck_tile

---
 tests/test_mem_eff_attention.py | 2 +-
 xformers/ops/fmha/ck.py         | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 0bb112a6e0..b2bd691ac5 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -1175,7 +1175,7 @@ def test_dropout(op, q_len, kv_len, batch_size, k_len, p, seed, attn_bias):
     if dtype is torch.float:
         assert_allclose(out, ref, atol=2e-4), f"{(out - ref).abs().max()}"
     else:
-        assert_allclose(out.float(), ref, atol=2.2e-2), f"{(out - ref).abs().max()}"
+        assert_allclose(out.float(), ref, atol=2.8e-2), f"{(out - ref).abs().max()}"
 
     num_trials = 1000
     p_val_tol = 1e-6
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 5d94ff5a23..39a0895533 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -183,7 +183,7 @@ class FwOp(AttentionFwOpBase):
 
     ERROR_ATOL: Mapping[torch.dtype, float] = {
         torch.float: 3e-4,
-        torch.half: 4e-3,
+        torch.half: 6e-3,
         torch.bfloat16: 2.8e-2,
     }
     ERROR_RTOL: Mapping[torch.dtype, float] = {

From 10bf99c85c0d8936af47cefdc58307fae2603493 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 09:43:20 -0700
Subject: [PATCH 563/837] Generate html report for tests run with rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 10 +++-------
 1 file changed, 3 insertions(+), 7 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 9042345055..06de7d970f 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -63,24 +63,20 @@ jobs:
         pip3 install --upgrade pip
         pip3 uninstall -y xformers
         MAX_JOBS=$MAX_JOBS pip3 install -e ./_xformers --verbose
-        pip3 install scipy==1.10
+        pip3 install scipy==1.10 pytest-html
 
         python3 -c "import torch; print(f'PyTorch version {torch.__version__}')"
         python3 -m xformers.info
 
     - name: Run python tests
       run: |
-        pytest -rpfs ./_xformers/tests/test_mem_eff_attention.py | tee test_mem_eff_attention.log
+        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py 
     
     - name: Archive logs
       uses: actions/upload-artifact@v4
       with:
         name: test results
-        path: test_mem_eff_attention.log
-
-    - name: Process test results
-      run: |
-        echo "Processing test results TBD"
+        path: test_mem_eff_attention.html
 
   clean:
     runs-on: self-hosted

From 16bb10b0a9359aa3ab82410343aa0f4424aa8e6b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 10:31:20 -0700
Subject: [PATCH 564/837] archive test results when tests have failed

---
 .github/workflows/rocm_ci.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 06de7d970f..2bee8b7881 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -73,6 +73,7 @@ jobs:
         pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py 
     
     - name: Archive logs
+      if: '!cancelled()'
       uses: actions/upload-artifact@v4
       with:
         name: test results
@@ -83,5 +84,6 @@ jobs:
     needs: [build]
     steps:
       - name: Remove dangling Docker images
+        if: 'always()'
         run: |
           docker images -q -f dangling=true | xargs --no-run-if-empty docker rmi

From 29c782bc5c3f6fd41e8c4ef35abb5bacc0357efb Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 11:19:13 -0700
Subject: [PATCH 565/837] Always clean up dangling docker images in rocm_ci

---
 .github/workflows/rocm_ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 2bee8b7881..c840a1708f 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -81,9 +81,9 @@ jobs:
 
   clean:
     runs-on: self-hosted
+    if: ${{ always() }}
     needs: [build]
     steps:
       - name: Remove dangling Docker images
-        if: 'always()'
         run: |
           docker images -q -f dangling=true | xargs --no-run-if-empty docker rmi

From 782d5a316ccc2bdcf57ed9bb301e692128e5521a Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 17:44:47 -0700
Subject: [PATCH 566/837] Bump python to 3.11 in rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 24 ++++++++++++++----------
 1 file changed, 14 insertions(+), 10 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index c840a1708f..d8128b3707 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -55,18 +55,22 @@ jobs:
         hipcc --version
         rocm-smi
         rocminfo | grep "gfx"
-
-        python3 -VV
-
-    - name: Build XFormers
+        
+    - name: Setup build env
       run: |
-        pip3 install --upgrade pip
-        pip3 uninstall -y xformers
-        MAX_JOBS=$MAX_JOBS pip3 install -e ./_xformers --verbose
-        pip3 install scipy==1.10 pytest-html
+        conda create -n xformers python=3.11
+        conda activate xformers
+        python -VV
+        
+        python -m pip install -U torch --index-url=https://download.pytorch.org/whl/nightly/rocm6.1 
+        python -c "import torch; print(f'PyTorch version {torch.__version__}')"
+        
+        python -m pip install ninja scipy pytest pytest-html
 
-        python3 -c "import torch; print(f'PyTorch version {torch.__version__}')"
-        python3 -m xformers.info
+    - name: Build xformers
+      run: |
+        MAX_JOBS=$MAX_JOBS python setup.py install
+        python -m xformers.info
 
     - name: Run python tests
       run: |

From bd8ca1b4590fe54b71c58cc806e9b7abcf9a3839 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 17:48:01 -0700
Subject: [PATCH 567/837] Disable flash attention tests rocm_ci.yml

Since the op is broken; tbd either make the op work, or disable it on ROCm
---
 .github/workflows/rocm_ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index d8128b3707..91b87d4ca1 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -74,7 +74,7 @@ jobs:
 
     - name: Run python tests
       run: |
-        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py 
+        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py -k "not flshatt"
     
     - name: Archive logs
       if: '!cancelled()'

From 77beb1978b8cfc1bb45f13535a009c239e742970 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 17:52:13 -0700
Subject: [PATCH 568/837] Try to fix rocm_ci.yml

Init must be called before activation
---
 .github/workflows/rocm_ci.yml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 91b87d4ca1..8ad8c47b02 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -59,6 +59,7 @@ jobs:
     - name: Setup build env
       run: |
         conda create -n xformers python=3.11
+        conda init
         conda activate xformers
         python -VV
         

From b0ae70734df8f668822cddd367cec63bf311a457 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 18:09:06 -0700
Subject: [PATCH 569/837] try to fix rocm_ci.yml flow by overriding PATH

---
 .github/workflows/rocm_ci.yml | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 8ad8c47b02..1954b0be2e 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -59,8 +59,7 @@ jobs:
     - name: Setup build env
       run: |
         conda create -n xformers python=3.11
-        conda init
-        conda activate xformers
+        export PATH=/opt/conda/envs/xformers/bin:$PATH
         python -VV
         
         python -m pip install -U torch --index-url=https://download.pytorch.org/whl/nightly/rocm6.1 

From d2eeaf097195eb563152998fc4425e251393a108 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 18:53:03 -0700
Subject: [PATCH 570/837] Fix setup.py path in rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 1954b0be2e..935b5b76a1 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -69,7 +69,7 @@ jobs:
 
     - name: Build xformers
       run: |
-        MAX_JOBS=$MAX_JOBS python setup.py install
+        MAX_JOBS=$MAX_JOBS python ./_xformers/setup.py install
         python -m xformers.info
 
     - name: Run python tests

From a62c93ef7a39841285df4f18a3e904f6d16f65f4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 18:57:07 -0700
Subject: [PATCH 571/837] cd to xformers dir before running install in
 rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 935b5b76a1..0e2bf28d70 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -69,12 +69,13 @@ jobs:
 
     - name: Build xformers
       run: |
-        MAX_JOBS=$MAX_JOBS python ./_xformers/setup.py install
+        cd _xformers
+        MAX_JOBS=$MAX_JOBS python setup.py install
         python -m xformers.info
 
     - name: Run python tests
       run: |
-        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py -k "not flshatt"
+        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./tests/test_mem_eff_attention.py -k "not flshatt"
     
     - name: Archive logs
       if: '!cancelled()'

From d3ae25f2d6080cc7008c8318f96bc5834951dde1 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 19:24:24 -0700
Subject: [PATCH 572/837] Use pip to install xformers in rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 0e2bf28d70..6ca6a890e1 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -69,13 +69,12 @@ jobs:
 
     - name: Build xformers
       run: |
-        cd _xformers
-        MAX_JOBS=$MAX_JOBS python setup.py install
+        pip install ./_xformers --verbose
         python -m xformers.info
 
     - name: Run python tests
       run: |
-        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./tests/test_mem_eff_attention.py -k "not flshatt"
+        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py -k "not flshatt"
     
     - name: Archive logs
       if: '!cancelled()'

From d4e6abc9e53b4af5fb40750e111e9e2e624fa7b1 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 19:51:27 -0700
Subject: [PATCH 573/837] Possibly fix python version resolution in rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 6ca6a890e1..ef1336ce38 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -69,12 +69,16 @@ jobs:
 
     - name: Build xformers
       run: |
-        pip install ./_xformers --verbose
+        export PATH=/opt/conda/envs/xformers/bin:$PATH
+        export MAX_JOBS=64
+        echo PATH = $PATH
+        python -VV
+        python -m pip install ./_xformers --verbose
         python -m xformers.info
 
     - name: Run python tests
       run: |
-        pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py -k "not flshatt"
+        python -m pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py -k "not flshatt"
     
     - name: Archive logs
       if: '!cancelled()'

From 490b63d0870a0f9e9416d766980906989da43693 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 1 Jul 2024 20:14:24 -0700
Subject: [PATCH 574/837] Set the correct path for pytest in rocm_ci.yml

---
 .github/workflows/rocm_ci.yml | 10 ++++------
 1 file changed, 4 insertions(+), 6 deletions(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index ef1336ce38..8b16640fb9 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -49,9 +49,6 @@ jobs:
         export ROCM_PATH=/opt/rocm
         echo ROCM_PATH         = $ROCM_PATH
 
-        export MAX_JOBS=64
-        echo MAX_JOBS          = $MAX_JOBS
-
         hipcc --version
         rocm-smi
         rocminfo | grep "gfx"
@@ -70,14 +67,15 @@ jobs:
     - name: Build xformers
       run: |
         export PATH=/opt/conda/envs/xformers/bin:$PATH
-        export MAX_JOBS=64
-        echo PATH = $PATH
-        python -VV
+        export MAX_JOBS=144
+        
         python -m pip install ./_xformers --verbose
         python -m xformers.info
 
     - name: Run python tests
       run: |
+        export PATH=/opt/conda/envs/xformers/bin:$PATH
+        
         python -m pytest --html=test_mem_eff_attention.html --self-contained-html -rpfs ./_xformers/tests/test_mem_eff_attention.py -k "not flshatt"
     
     - name: Archive logs

From addd2f2a85788975645245ead874c417a6ec36c2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 2 Jul 2024 23:48:56 +0000
Subject: [PATCH 575/837] remove test_reference_splitk as it was moved to a
 different file during the first upstream

remove test_mqa_forward from develop, as the test fails in develop and doesn't run upstream

remove reference attention splitk from the test file; it exists in test_splitk_reference

sync test_mem_eff_attention with upstream
---
 tests/test_mem_eff_attention.py | 406 +++++---------------------------
 1 file changed, 54 insertions(+), 352 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index b2bd691ac5..dce31201e1 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -7,7 +7,7 @@
 import math
 import random
 from functools import partial
-from typing import List, Optional, Sequence, Tuple, Type, TypeVar, Union
+from typing import Any, List, Optional, Sequence, Tuple, Type, TypeVar, Union
 
 import pytest
 import torch
@@ -267,185 +267,6 @@ def _generate_op_device_dtype_biasT_B_Mq_Mkv_H_K_Kv(
 )
 
 
-def ref_attention_splitk_bmhk(
-    q, k, v, attn_bias, scale=None, split_k=None, dtype=None
-) -> torch.Tensor:
-    assert q.ndim == 4
-
-    def T(t):
-        return t.permute((0, 2, 1, 3)).reshape(
-            [t.shape[0] * t.shape[2], t.shape[1], t.shape[3]]
-        )
-
-    if isinstance(attn_bias, xformers.ops.AttentionBias):
-        attn_bias = attn_bias.materialize(
-            (q.shape[0], q.shape[2], q.shape[1], k.shape[1]),
-            device=q.device,
-            dtype=torch.float32,
-        ).reshape([q.shape[0] * q.shape[2], q.shape[1], k.shape[1]])
-    out = ref_attention_splitk(
-        T(q), T(k), T(v), attn_bias, scale=scale, split_k=split_k, dtype=dtype
-    )
-    out = out.reshape([q.shape[0], q.shape[2], q.shape[1], v.shape[3]])
-    return out.permute((0, 2, 1, 3))
-
-
-def ref_attention_splitk(
-    q, k, v, attn_bias, scale=None, split_k=2, dtype=None
-) -> torch.Tensor:
-    if q.ndim == 5:
-
-        def attn_bias_group(group: int):
-            if isinstance(attn_bias, torch.Tensor):
-                return attn_bias[:, group]
-            if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-                return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                    attn_bias._bias[:, group]
-                )
-            return attn_bias
-
-        return torch.stack(
-            [
-                ref_attention_splitk_bmhk(
-                    q[:, :, g],
-                    k[:, :, g],
-                    v[:, :, g],
-                    attn_bias=attn_bias_group(g),
-                    split_k=split_k,
-                    dtype=dtype,
-                )
-                for g in range(q.shape[2])
-            ],
-            dim=2,
-        )
-
-    if q.ndim == 4:
-        return ref_attention_splitk_bmhk(
-            q, k, v, attn_bias=attn_bias, split_k=split_k, dtype=dtype
-        )
-    assert q.ndim == 3
-    if dtype is None:
-        dtype = torch.float32
-    q = q.to(dtype=dtype)
-    k = k.to(dtype=dtype)
-    v = v.to(dtype=dtype)
-
-    if scale is None:
-        scale = q.shape[-1] ** -0.5
-    assert not q.isnan().any()
-    q = q * scale
-    assert not q.isnan().any()
-
-    if attn_bias is not None:
-        if isinstance(attn_bias, xformers.ops.AttentionBias):
-            # Always create in B,H,Mq,Mk format
-            attn_bias_tensor = attn_bias.materialize(
-                (q.shape[0], 1, q.shape[1], k.shape[1]),
-                device=q.device,
-                dtype=torch.float32,
-            )
-        else:
-            attn_bias_tensor = attn_bias
-        if attn_bias_tensor.ndim == 4:
-            assert q.shape[0] == attn_bias_tensor.shape[0] * attn_bias_tensor.shape[1]
-            attn_bias_tensor = attn_bias_tensor.reshape(
-                [-1, *attn_bias_tensor.shape[2:]]
-            )
-
-    split_size = k.size(-2) // split_k
-    split_config = {"dim": -2, "split_size_or_sections": split_size}
-    k_split = torch.split(k, **split_config)
-    v_split = torch.split(v, **split_config)
-    attn_bias_split = torch.split(
-        attn_bias_tensor, dim=-1, split_size_or_sections=split_size
-    )
-
-    def compute_attention_split(q_whole, k_slice, v_slice, attn_bias_slice):
-        p_slice = q_whole @ k_slice.transpose(-2, -1)
-        p_slice += attn_bias_slice
-        row_max = torch.max(p_slice, dim=-1, keepdim=True).values
-        p_slice_scaled = p_slice - row_max
-        p_slice_scaled[p_slice_scaled.isnan()] = float("-inf")
-        s = torch.exp(p_slice_scaled)
-        row_sumexp = torch.sum(s, dim=-1, keepdim=True)
-        attn_slice = s @ v_slice
-        return {
-            "attn_slice": attn_slice,
-            "row_max": row_max,
-            "row_sumexp": row_sumexp,
-        }
-
-    splits = list(zip(k_split, v_split, attn_bias_split))
-
-    slices = list(map(lambda s: compute_attention_split(q, s[0], s[1], s[2]), splits))
-    out = torch.zeros_like(q)
-
-    # reduce out over split-k slices
-
-    global_max = torch.zeros_like(slices[0]["row_max"]).fill_(float("-inf"))
-    global_sumexp = torch.zeros_like(slices[0]["row_sumexp"])
-
-    for s in slices:
-        local_out = s["attn_slice"]
-        local_max = s["row_max"]
-        local_sumexp = s["row_sumexp"]
-
-        log_alpha = -torch.abs(local_max - global_max)
-        alpha = torch.exp(log_alpha)
-        alpha.nan_to_num_(1.0)
-
-        pick_new = local_max < global_max
-        new_coef = torch.where(pick_new, alpha, 1.0)
-        curr_coef = torch.where(pick_new, 1.0, alpha)
-
-        out = out * curr_coef + local_out * new_coef
-        global_sumexp = global_sumexp * curr_coef + local_sumexp * new_coef
-        global_max = torch.max(local_max, global_max)
-    out /= global_sumexp
-    return out
-
-
-# this interface assumes the tensor is in BMHK, but q and k/v might have different number of heads
-def ref_attention_mqa(q, k, v, attn_bias=None, drop_mask=None, p=0.0, scale=None):
-    assert q.ndim == 4
-
-    B, M, Hq, K = q.shape
-    _, N, Hkv, Kv = v.shape
-    nhead_ratio_qk = Hq // Hkv
-
-    def attn_bias_head(head: int):
-        if isinstance(attn_bias, torch.Tensor):
-            assert attn_bias.ndim == 4
-            _, H, _, _ = attn_bias.shape
-            assert H == Hq
-            bias_bghmn = attn_bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-            return bias_bghmn[:, :, head]
-        if isinstance(attn_bias, fmha.attn_bias.LowerTriangularMaskWithTensorBias):
-            assert attn_bias._bias.ndim == 4
-            _, H, _, _ = attn_bias._bias.shape
-            assert H == Hq
-            bias_bghmn = attn_bias._bias.reshape(B, Hkv, nhead_ratio_qk, M, N)
-            return fmha.attn_bias.LowerTriangularMaskWithTensorBias(
-                bias_bghmn[:, :, head]
-            )
-        return attn_bias
-
-    q_bmghk = q.reshape((B, M, Hkv, nhead_ratio_qk, K))
-
-    return torch.stack(
-        [
-            ref_attention_bmhk(
-                q_bmghk[:, :, :, h],
-                k,
-                v,
-                attn_bias=attn_bias_head(h),
-            )
-            for h in range(q_bmghk.shape[3])
-        ],
-        dim=3,
-    ).reshape((B, M, Hq, Kv))
-
-
 def _rand_partition(r: random.Random, total: int, n: int) -> List[int]:
     # returns list of n nonnegative integers summing to total
     idx = {0, total}
@@ -468,7 +289,7 @@ def get_bias_grad(attn_bias, clear: bool = False) -> Optional[torch.Tensor]:
 
 
 def create_tensors(
-    op: Type[AttentionOpBase],
+    op: Optional[Type[AttentionOpBase]],
     device,
     dtype,
     attn_bias_type,
@@ -482,7 +303,7 @@ def create_tensors(
     attn_bias_requires_grad: bool = False,
     fmt: str = "BMK",
     g: int = 1,
-):
+) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, Any]:
     torch.manual_seed(B * q_len + kv_len * k + kv)
 
     mask_is_bottom_right = attn_bias_type is not None and issubclass(
@@ -508,7 +329,7 @@ def create_tensors(
         ),
     ):
         page_size_choices = [256, 512]
-        if issubclass(op, fmha.triton_splitk.FwOp):
+        if op is not None and issubclass(op, fmha.triton_splitk.FwOp):
             # TODO: enable small pages for flash attention when that's implemented
             page_size_choices.extend([64, 128])
         page_size = random.choice(page_size_choices)
@@ -573,12 +394,13 @@ def create_tensors(
             ]
 
     inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        pytest.skip(err_msg)
+    if op is not None:
+        reasons = op.not_supported_reasons(inputs)
+        if reasons:
+            err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
+            # Ensure we free memory to avoid OOMs
+            del query, key, value, attn_bias, inputs
+            pytest.skip(err_msg)
     return query, key, value, attn_bias
 
 
@@ -699,92 +521,6 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
     )
 
 
-@rocm_only
-@pytest.mark.parametrize("hdim_k,hdim_v", [(64, 64), (128, 128)])
-@pytest.mark.parametrize("nhead_q,nhead_kv", [(8, 1), (8, 2), (12, 4), (4, 4)])
-@pytest.mark.parametrize("seqlen_q,seqlen_kv", [(100, 128), (128, 100), (200, 1000)])
-@pytest.mark.parametrize("batches", [100, 64, 1])
-@pytest.mark.parametrize("dtype", [torch.float16, torch.bfloat16])
-@pytest.mark.parametrize(
-    "attn_bias_type", [type(None), torch.Tensor, fmha.attn_bias.LowerTriangularMask]
-)
-@pytest.mark.parametrize("op", [fmha.ck.FwOp])
-def test_mqa_forward(
-    op,
-    attn_bias_type,
-    dtype,
-    batches: int,
-    seqlen_kv: int,
-    seqlen_q: int,
-    nhead_kv: int,
-    nhead_q: int,
-    hdim_v: int,
-    hdim_k: int,
-):
-    B = batches
-    M = seqlen_q
-    N = seqlen_kv
-    Hq = nhead_q
-    Hkv = nhead_kv
-    K = hdim_k
-    Kv = hdim_v
-    nhead_ratio_qk = Hq // Hkv
-
-    device = torch.device("cuda")
-
-    torch.manual_seed(B * M + N * K + Hq * Hkv + Kv)
-
-    scale = 3
-    query = torch.randn((B, M, Hq, K), device=device, dtype=dtype).mul_(scale)
-    key = torch.randn((B, N, Hkv, K), device=device, dtype=dtype).mul_(scale)
-    value = torch.randn((B, N, Hkv, Kv), device=device, dtype=dtype).mul_(scale)
-
-    attn_bias = None
-    if attn_bias_type is not None:
-        attn_bias = create_attn_bias(
-            attn_bias_type,
-            batch_size=B,
-            num_heads=Hq,
-            num_heads_groups=nhead_ratio_qk,
-            q_len=M,
-            kv_len=N,
-            dtype=dtype,
-            device=device,
-            requires_grad=False,
-            fmt="BMHK",
-            op=op,
-        )
-
-    inputs = fmha.Inputs(query=query, key=key, value=value, attn_bias=attn_bias)
-    reasons = op.not_supported_reasons(inputs)
-    if reasons:
-        err_msg = f"{op.NAME}: unsupported ({'/'.join(reasons)})"
-        # Ensure we free memory to avoid OOMs
-        del query, key, value, attn_bias, inputs
-        assert False, err_msg
-
-    out = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert not out.isnan().any(), ("Output has NaNs", attn_bias)
-    out2 = xformers.ops.memory_efficient_attention_forward(
-        query, key, value, attn_bias, op=op
-    )
-    assert torch.allclose(out, out2, atol=0.0, rtol=0.0), (
-        "Non-deterministic behavior",
-        attn_bias,
-    )
-
-    ref = ref_attention_mqa(query, key, value, attn_bias)
-    assert out.shape == ref.shape, out.shape
-    assert_allclose(
-        out.float(),
-        ref,
-        atol=op.ERROR_ATOL[dtype],
-        rtol=op.ERROR_RTOL.get(dtype, 1e-5),
-    )
-
-
 @cuda_only
 @pytest.mark.parametrize("k_len", [5, 6, 32])
 @pytest.mark.parametrize("batch_size", [1, 4])
@@ -970,11 +706,15 @@ def test_backward(
     if op_bw == fmha.ck.BwOp:
         op_fw = fmha.ck.FwOp
         if dtype == torch.bfloat16:
-            pytest.skip("CK Fmha backward for bfloat16 currently is not very accurate for some cases!")
+            pytest.skip(
+                "CK Fmha backward for bfloat16 currently is not very accurate for some cases!"
+            )
         if grad_out_contiguous is False:
             pytest.skip("CK Fmha does not support contiguous layout for grad_out!")
         if k % 2 != 0:
-            pytest.skip("CK Fmha currently requires the headdim size of query input be an even value!")
+            pytest.skip(
+                "CK Fmha currently requires the headdim size of query input be an even value!"
+            )
 
     qkv = None
 
@@ -1906,11 +1646,11 @@ def _test_to_copy(attn_bias: torch.Tensor) -> None:
         assert attn_bias_fp16.device.type == "cpu", f"{attn_bias_fp16.device}"
         assert attn_bias_fp16.dtype == torch.float16, f"{attn_bias_fp16.dtype}"
 
-    attn_bias = fmha.attn_bias.LowerTriangularMask()
+    attn_bias = fmha.attn_bias.LowerTriangularMask().to("cpu")
     _test_to_copy(attn_bias)
 
     tensor_bias = torch.tensor([[1.0, 2.0, 3.0], [3.0, 4.0, 5.0]])
-    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias)
+    attn_bias = fmha.attn_bias.LowerTriangularMaskWithTensorBias(tensor_bias).to("cpu")
     _test_to_copy(attn_bias)
 
 
@@ -1922,66 +1662,6 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
     return f"gqa{kv_heads}"
 
 
-@pytest.mark.parametrize("dtype", ["f32"])
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("n_heads", [16])
-@pytest.mark.parametrize("padding, bsz", [(32, 8), (4096, 1)])
-@pytest.mark.parametrize("split_k", [1, 2, 4])
-@pytest.mark.parametrize("device", ["cpu"])
-def test_splitk_reference(
-    kv_heads: int,
-    n_heads: int,
-    padding: int,
-    bsz: int,
-    dtype: str,
-    device: str,
-    split_k: int,
-):
-    dtype_ = {"f16": torch.float16, "bf16": torch.bfloat16, "f32": torch.float32}[dtype]
-    torch.manual_seed(1)
-    d = 256
-    num_queries = 1
-    if kv_heads is not None and kv_heads > 1:
-        k_shape: Tuple[int, ...] = (1, bsz * padding, kv_heads, n_heads, d)
-        q_shape: Tuple[int, ...] = (
-            1,
-            bsz * num_queries,
-            kv_heads,
-            n_heads,
-            d,
-        )
-    else:
-        k_shape = (1, bsz * padding, n_heads, d)
-        q_shape = (1, bsz * num_queries, n_heads, d)
-
-    k = torch.rand(k_shape, dtype=dtype_, device=device)
-    k_seqlen = torch.randint(1, padding + 1, (bsz,)).tolist()
-    v = torch.rand_like(k)
-    q = torch.rand(q_shape, dtype=dtype_, device=device)
-    causal_diagonal = torch.tensor(  # TODO: make unnecessary
-        [i - 1 for i in k_seqlen], dtype=torch.int32, device=device
-    )
-
-    if kv_heads is not None:
-        k = k[..., :1, :].expand(k_shape)
-        v = v[..., :1, :].expand(k_shape)
-
-    attn_bias = fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask.from_seqlens(
-        q_seqlen=[1] * bsz,
-        kv_seqlen=k_seqlen,
-        causal_diagonal=causal_diagonal,
-        kv_padding=padding,
-    )
-    ref_out = ref_attention(q, k, v, attn_bias)
-    splitk_out = ref_attention_splitk(q, k, v, attn_bias, None, split_k=split_k)
-    assert_allclose(
-        ref_out,
-        splitk_out,
-        atol=fmha.ck.FwOp.ERROR_ATOL[dtype_],
-        rtol=fmha.ck.FwOp.ERROR_RTOL[dtype_],
-    )
-
-
 @sm70_or_better_only
 @pytest.mark.parametrize(
     "op",
@@ -3735,26 +3415,45 @@ def _merge_attentions_ref(attn_split, lse_split):
 
 @sm80_or_better_only
 @skip_if_rocm  # rocm doesn't support backward yet
-@pytest.mark.parametrize("bias_t", [None, fmha.attn_bias.LowerTriangularMask])
+@pytest.mark.parametrize(
+    "bias_t",
+    [None, fmha.attn_bias.LowerTriangularMask, fmha.attn_bias.BlockDiagonalMask],
+)
 @pytest.mark.parametrize("create_bias_inside_compiled", [False, True])
-@pytest.mark.parametrize("op", [None, (fmha.flash.FwOp, fmha.flash.BwOp)])
+@pytest.mark.parametrize(
+    "op",
+    [None, (fmha.flash.FwOp, fmha.flash.BwOp), (fmha.cutlass.FwOp, fmha.flash.BwOp)],
+)
 def test_memeff_compile(bias_t, create_bias_inside_compiled: bool, op) -> None:
     torch.manual_seed(0)
-    dtype = torch.float16
+    torch._dynamo.reset_code_caches()  # avoids hitting recompilation limit
     B, M, H, K = 1, 256, 2, 64
-    q, k, v = [
-        3 * torch.randn([B, M, H, K], device="cuda", dtype=dtype) for _ in range(3)
-    ]
+    q, k, v, bias = create_tensors(
+        op if op is None else op[0],
+        "cuda",
+        torch.float16,
+        bias_t,
+        B,
+        M,
+        M,
+        H,
+        K,
+        K,
+        fmt="BMHK",
+    )
     grad = torch.randn_like(q)
-    bias = None
-    if not create_bias_inside_compiled and bias_t is not None:
-        bias = bias_t()
+    if create_bias_inside_compiled:
+        bias = None
+        if bias_t not in [None, fmha.attn_bias.LowerTriangularMask]:
+            pytest.skip("Can't create this mask inside compile")
+    if bias is not None:
+        bias.to(q.device)
     q.requires_grad_(True)
     k.requires_grad_(True)
     v.requires_grad_(True)
 
     def fmha_fn(q, k, v, bias):
-        if bias is None and bias_t is not None:
+        if create_bias_inside_compiled and bias_t is not None:
             bias = bias_t()
         return fmha.memory_efficient_attention(q, k, v, attn_bias=bias, op=op)
 
@@ -3773,10 +3472,13 @@ def fmha_fn(q, k, v, bias):
         out,
         out_ref,
         "out",
-        atol=fmha.flash.FwOp.ERROR_ATOL[dtype],
-        rtol=fmha.flash.FwOp.ERROR_RTOL[dtype],
+        atol=fmha.flash.FwOp.ERROR_ATOL[q.dtype],
+        rtol=fmha.flash.FwOp.ERROR_RTOL[q.dtype],
+    )
+    atol, rtol = (
+        fmha.flash.BwOp.ERROR_ATOL[q.dtype],
+        fmha.flash.BwOp.ERROR_RTOL[q.dtype],
     )
-    atol, rtol = fmha.flash.BwOp.ERROR_ATOL[dtype], fmha.flash.BwOp.ERROR_RTOL[dtype]
     assert_allclose(q.grad, dq_ref, "dq", atol=atol, rtol=rtol)
     assert_allclose(k.grad, dk_ref, "dk", atol=atol, rtol=rtol)
     assert_allclose(v.grad, dv_ref, "dv", atol=atol, rtol=rtol)

From 33810ffb790a7ccc636be90b1400fbec9928affd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jul 2024 22:18:58 +0000
Subject: [PATCH 576/837] make sure ck operators have a name to be visible in
 the dispatcher

---
 xformers/ops/fmha/ck.py         | 6 +++---
 xformers/ops/fmha/ck_decoder.py | 4 ++--
 xformers/ops/fmha/ck_splitk.py  | 4 ++--
 3 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 39a0895533..39989038e0 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -11,7 +11,7 @@
 
 import torch
 
-from ..common import get_xformers_operator, register_operator
+from ..common import get_operator, register_operator
 from . import attn_bias
 from .attn_bias import (
     AttentionBias,
@@ -155,7 +155,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
 class FwOp(AttentionFwOpBase):
     """xFormers' MHA kernel based on Composable Kernel."""
 
-    OPERATOR = get_xformers_operator("efficient_attention_forward_ck")
+    OPERATOR = get_operator("xformers", "efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
     SUPPORTED_MAX_K = 256
@@ -357,7 +357,7 @@ def operator_flop(
 class BwOp(AttentionBwOpBase):
     __doc__ = FwOp.__doc__
 
-    OPERATOR = get_xformers_operator("efficient_attention_backward_ck")
+    OPERATOR = get_operator("xformers", "efficient_attention_backward_ck")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
     SUPPORTED_MAX_K = 128
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
index b75c420fd1..a5c820bfc7 100644
--- a/xformers/ops/fmha/ck_decoder.py
+++ b/xformers/ops/fmha/ck_decoder.py
@@ -7,7 +7,7 @@
 
 import torch
 
-from ..common import get_xformers_operator, register_operator
+from ..common import get_operator, register_operator
 from .attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
 from .common import AttentionFwOpBase, Context, Inputs
 
@@ -19,7 +19,7 @@ class FwOp(AttentionFwOpBase):
     Tested to work on MI250x.
     """
 
-    OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_ck")
+    OPERATOR = get_operator("xformers", "efficient_attention_forward_decoder_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16, torch.float}
     SUPPORTED_MAX_K: int = 256
diff --git a/xformers/ops/fmha/ck_splitk.py b/xformers/ops/fmha/ck_splitk.py
index 6996da6c22..4c7af07945 100644
--- a/xformers/ops/fmha/ck_splitk.py
+++ b/xformers/ops/fmha/ck_splitk.py
@@ -7,7 +7,7 @@
 
 import torch
 
-from xformers.ops.common import get_xformers_operator, register_operator
+from xformers.ops.common import get_operator, register_operator
 from xformers.ops.fmha.attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
 from xformers.ops.fmha.common import (
     AttentionFwOpBase,
@@ -20,7 +20,7 @@
 @register_operator
 class FwOp(AttentionFwOpBase):
 
-    OPERATOR = get_xformers_operator("efficient_attention_forward_decoder_splitk_ck")
+    OPERATOR = get_operator("xformers", "efficient_attention_forward_decoder_splitk_ck")
     SUPPORTED_DEVICES = {"cuda"}
     SUPPORTED_DTYPES = {
         torch.half,

From f3faa1a4b5343867304ae94e585bfcecdb4831ef Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 8 Jul 2024 19:25:33 +0000
Subject: [PATCH 577/837] fix sm version checks to happen only on CUDA, not
 ROCm

---
 tests/test_mem_eff_attention.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index dce31201e1..0affd0db81 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -37,13 +37,13 @@
 if torch.cuda.is_available():
     compute_capability = torch.cuda.get_device_capability("cuda")
 sm70_or_better_only = pytest.mark.skipif(
-    compute_capability < (7, 0), reason="requires sm70+"
+    torch.version.cuda and compute_capability < (7, 0), reason="requires sm70+"
 )
 sm75_or_better_only = pytest.mark.skipif(
-    compute_capability < (7, 5), reason="requires sm75+"
+    torch.version.cuda and compute_capability < (7, 5), reason="requires sm75+"
 )
 sm80_or_better_only = pytest.mark.skipif(
-    compute_capability < (8, 0), reason="requires sm80+"
+    torch.version.cuda and compute_capability < (8, 0), reason="requires sm80+"
 )
 skip_if_rocm = pytest.mark.skipif(
     torch.version.hip is not None, reason="not supported on ROCm"

From 04e948188c17b744c8f68de29425161dc0d2b25d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 8 Jul 2024 19:32:07 +0000
Subject: [PATCH 578/837] (2/n) fix sm version checks to happen only on CUDA,
 not ROCm

---
 tests/test_mem_eff_attention.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 0affd0db81..7f511bfac2 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -1687,7 +1687,7 @@ def test_decoder(
     # kv_heads = 1: multiquery
     # kv_heads = None: neither MQA nor GQA
     # kv_heads > 1: BMGHK
-    if dtype == "bf16" and compute_capability < (8, 0):
+    if dtype == "bf16" and torch.version.cuda and compute_capability < (8, 0):
         raise pytest.skip("BF16 is only supported on SM80+")
     import triton
 

From bd49f48e4d04cc0f584d9e0f38638761beb6cc73 Mon Sep 17 00:00:00 2001
From: Qianfeng <qianfeng.zhang@amd.com>
Date: Mon, 15 Jul 2024 02:39:58 +0800
Subject: [PATCH 579/837] Remove _check_large_shapes checking in fmha/ck.py
 (#1067)

---
 xformers/ops/fmha/ck.py | 17 -----------------
 1 file changed, 17 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 39989038e0..be061cf5a0 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -102,21 +102,6 @@ def _check_bias_alignment(
             )
 
 
-def _check_large_shapes(reasons: List[str], inp: Inputs) -> None:
-    """CK kernel throws "Memory access fault by GPU node-2" when B * T >= 2**20, might be some index overflow.
-    To reproduce, remove this function and run benchmark_mem_eff_attention with ParlAI model shape (256, 4096, 16, 64).
-    This needs further debugging, for now let's not support such shapes.
-    """
-    b_t_limit = 1024**2
-    q_too_large = inp.query.shape[0] * inp.query.shape[1] >= b_t_limit
-    k_too_large = inp.key.shape[0] * inp.key.shape[1] >= b_t_limit
-    v_too_large = inp.value.shape[0] * inp.value.shape[1] >= b_t_limit
-    if q_too_large or k_too_large or v_too_large:
-        reasons.append(
-            "Input is too large: product of first two dimensions of q/k/v must be < 2**20"
-        )
-
-
 class _CustomMaskType(int, Enum):
     """
     (Matches CustomMaskType in C++.)
@@ -325,7 +310,6 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
         check_lastdim_alignment_stride1(reasons, "query", d.query, matmul_alignment_mn)
         check_lastdim_alignment_stride1(reasons, "value", d.value, matmul_alignment_mn)
         _check_bias_alignment(reasons, d.attn_bias)
-        _check_large_shapes(reasons, d)
         return reasons
 
     @classmethod
@@ -416,7 +400,6 @@ def not_supported_reasons(cls, d: Inputs) -> List[str]:
                     f"(shape: {tuple(attn_bias_tensor.shape)}"
                     f"/ expected: {expected_bias_shape})"
                 )
-        _check_large_shapes(reasons, d)
 
         return reasons
 

From 0d1d1bef2f79d9605d7160445e511d57b5dcba80 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 17 Jul 2024 21:33:17 -0400
Subject: [PATCH 580/837] make xformers install editable to fix cpp extensions
 detection

---
 .github/workflows/rocm_ci.yml | 15 ++++++++++++++-
 1 file changed, 14 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 8b16640fb9..d498bea530 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -64,12 +64,18 @@ jobs:
         
         python -m pip install ninja scipy pytest pytest-html
 
+    - name: Pre-build clean
+      run: |
+        cd _xformers
+        git clean -ffdx
+        cd ..
+
     - name: Build xformers
       run: |
         export PATH=/opt/conda/envs/xformers/bin:$PATH
         export MAX_JOBS=144
         
-        python -m pip install ./_xformers --verbose
+        python -m pip install -e ./_xformers --verbose
         python -m xformers.info
 
     - name: Run python tests
@@ -85,6 +91,13 @@ jobs:
         name: test results
         path: test_mem_eff_attention.html
 
+    - name: Post-build clean
+      if: '!cancelled()'
+      run: |
+        cd _xformers
+        git clean -ffdx
+        cd ..
+
   clean:
     runs-on: self-hosted
     if: ${{ always() }}

From 9390d6a80f570c891377d5f3c43464fc314849ed Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Jul 2024 09:13:27 +0000
Subject: [PATCH 581/837] Update to using the improved fmha-bwd (compiling
 passed)

---
 .../attention_backward_generic_ck_tiled.cpp   |  25 +++-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 102 ++++++++++++--
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |   6 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |   7 +-
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 124 ++++++++++--------
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      |  17 +++
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 101 ++++++++++++--
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |   6 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |   7 +-
 .../attention/hip_fmha/ck_tiled_fmha_params.h |   4 +
 .../hip_fmha/ck_tiled_rand_uniform_kernel.h   |  15 ++-
 11 files changed, 313 insertions(+), 101 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index c9494060b8..e02a215885 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -143,7 +143,6 @@ efficient_attention_backward_ck(
     grad_q = chunk.select(2, 0);
     grad_k = chunk.select(2, 1);
     grad_v = chunk.select(2, 2);
-    grad_q.fill_(0);
   } else if (
       key.size(3) == value.size(3) &&
       key.storage().is_alias_of(value.storage())) {
@@ -157,14 +156,22 @@ efficient_attention_backward_ck(
     grad_v = chunk.select(2, 1);
 
     grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
-    grad_q.fill_(0);
   } else {
     grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
     grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
     grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
-    grad_q.fill_(0);
   }
 
+  at::Tensor grad_q_f32;
+
+  if (query.scalar_type() == at::ScalarType::BFloat16 ||
+      query.scalar_type() == at::ScalarType::Half) {
+    grad_q_f32 = at::empty_like(grad_q);
+    grad_q_f32.fill_(0);
+  } else {
+    grad_q.fill_(0);
+  };
+
   // CK-FlashAttn requires q/k/v to have same shapes with dQ/dK/dV respectively
   TORCH_CHECK(query.sizes() == grad_q.sizes());
   TORCH_CHECK(query.strides() == grad_q.strides());
@@ -229,6 +236,12 @@ efficient_attention_backward_ck(
     p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
     p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
 
+    if (query.scalar_type() == at::ScalarType::BFloat16 ||
+        query.scalar_type() == at::ScalarType::Half)
+      p.grad_q_f32_ptr = grad_q_f32.data_ptr();
+    else
+      p.grad_q_f32_ptr = nullptr;
+
     p.q_strides = {
         static_cast<int>(query.stride(0)),
         static_cast<int>(query.stride(1)),
@@ -480,6 +493,12 @@ efficient_attention_backward_ck(
     p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
     p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
     p.grad_bias_ptr = bias_requires_grad ? grad_bias.data_ptr() : nullptr;
+
+    if (query.scalar_type() == at::ScalarType::BFloat16 ||
+        query.scalar_type() == at::ScalarType::Half)
+      p.grad_q_f32_ptr = grad_q_f32.data_ptr();
+    else
+      p.grad_q_f32_ptr = nullptr;
   };
 
   auto inDataType = query.scalar_type();
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 4a535aa5a3..ed1fd8aaa7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -23,6 +23,9 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct batched_backward_causalmask_bias_dropout_dispatch {
+  using FmhaBlockDropout =
+      typename FmhaBwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaBwdPipelineProblemTemp = ck_tile::BlockFmhaBwdPipelineProblem<
       typename FmhaBwdTypeConfig<ScalarType>::QDataType,
@@ -42,12 +45,18 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
       FmhaBwdShape<MaxK>,
       false, // kIsGroupMode
+      false, // kIsDeterministic
       FmhaMask,
+      FmhaBlockDropout,
       FmhaTraits>;
 
+  static constexpr bool NeedConvertGradQ = !std::is_same<
+      ScalarType,
+      typename FmhaBwdTypeConfig<ScalarType>::QGradDataType>::value;
+
   static void Run(BatchedBackwardParams& param, hipStream_t stream) {
     {
-      constexpr ck_tile::index_t kBlockSize = 256;
+      constexpr ck_tile::index_t kBlockSize = 64;
 
       const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
       const bool pad_headdim_v =
@@ -76,9 +85,8 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
                 typename ck_tile::BlockFmhaBwdOGradDotO<
                     FmhaBwdOGradDotOPipelineProblem>;
 
-            using FmhaBwdOGradDotOKernel_ = ck_tile::FmhaBwdOGradDotOKernel<
-                ck_tile::FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
-                FmhaBwdOGradDotOPipeline>;
+            using FmhaBwdOGradDotOKernel_ =
+                ck_tile::FmhaBwdOGradDotOKernel<FmhaBwdOGradDotOPipeline>;
 
             RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
           });
@@ -93,10 +101,6 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
-        using FmhaBwdTilePartitioner_ =
-            ck_tile::FmhaBwdTilePartitioner<FmhaBwdShape_>;
-
         constexpr auto kBiasEnum = kHasBias
             ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
@@ -104,8 +108,10 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
 
-        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kQKHeaddim == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kVHeaddim == 0);
+        const bool pad_headdim_q =
+            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+        const bool pad_headdim_v =
+            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time
@@ -120,7 +126,6 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
               kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
-              kHasDropout,
               false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
@@ -149,7 +154,6 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
                   kPadHeadDim>>;
 
           using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
-              FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
               FmhaBwdKGradEpilogue_,
               FmhaBwdVGradEpilogue_>;
@@ -158,6 +162,47 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         });
       });
     };
+
+    if constexpr (NeedConvertGradQ) {
+      constexpr ck_tile::index_t kBlockSize = 256;
+
+      const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
+      const bool pad_headdim_q =
+          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
+            constexpr ck_tile::index_t occupancy = 2;
+
+            using FmhaBwdConvertQGradTraits_ =
+                ck_tile::TileFmhaBwdConvertQGradTraits<
+                    kPadSeqLenQ,
+                    kPadHeadDimQ,
+                    occupancy>;
+
+            using FmhaBwdConvertQGradPipelineProblem =
+                ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+                    kBlockSize,
+                    FmhaBwdShape<MaxK>::kM0,
+                    FmhaBwdShape<MaxK>::kN0,
+                    FmhaBwdShape<MaxK>::kQKHeaddim,
+                    false, // kIsGroupMode
+                    false, // kIsDeterministic
+                    FmhaBwdConvertQGradTraits_>;
+
+            using FmhaBwdConvertQGradPipeline =
+                typename ck_tile::BlockFmhaBwdConvertQGrad<
+                    FmhaBwdConvertQGradPipelineProblem>;
+
+            using FmhaBwdConvertQGradKernel_ =
+                ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
+
+            RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
+                param, stream);
+          });
+    };
   }
 
   template <typename FmhaBwdOGradDotOKernel>
@@ -208,10 +253,10 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           param.grad_out_ptr,
           param.dot_out_ptr,
           nullptr, // rand_val_ptr
-          param.grad_q_ptr,
           param.grad_k_ptr,
           param.grad_v_ptr,
           param.grad_bias_ptr,
+          NeedConvertGradQ ? param.grad_q_f32_ptr : param.grad_q_ptr,
           param.M, // seqlen_q
           param.N, // seqlen_k
           param.K,
@@ -252,12 +297,12 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           param.grad_v_strides[0],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
+          0, // split_stride_dq_acc
           (param.window_size > 0) ? param.window_size - 1
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
-          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
@@ -270,6 +315,35 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
             FmhaBwdDQDKDVKernel{}, kGridSize, kBlockSize, 0, kargs));
   }
+
+  template <typename FmhaBwdConvertQGradKernel>
+  static void RunWithBwdConvertQGradKernel(
+      BatchedBackwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaBwdConvertQGradKernel::MakeKargs(
+          param.grad_q_f32_ptr,
+          param.grad_q_ptr,
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          param.K, // headdim of q/k
+          param.q_strides[1],
+          param.q_strides[2],
+          param.q_strides[0],
+          0);
+    }();
+
+    dim3 kGridSize =
+        FmhaBwdConvertQGradKernel::GridSize(param.B, param.Hq, param.M);
+    constexpr dim3 kBlockSize = FmhaBwdConvertQGradKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaBwdConvertQGradKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaBwdConvertQGradKernel{}, kGridSize, kBlockSize, 0, kargs));
+  }
 };
 
 template <
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 20c1b2c3ef..1b1a42b5f9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -22,6 +22,9 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct batched_forward_causalmask_bias_dropout_dispatch {
+  using FmhaBlockDropout =
+      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -38,6 +41,7 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       false, // kIsGroupMode
       FmhaMask,
+      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -88,7 +92,6 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
-                kHasDropout,
                 false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 
@@ -163,7 +166,6 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
-          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 05d654dc31..1501c4cf63 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,6 +23,9 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct batched_infer_causalmask_bias_dropout_dispatch {
+  using FmhaBlockDropout =
+      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -39,6 +42,7 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       false, // kIsGroupMode
       FmhaMask,
+      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -88,7 +92,6 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
-                  kHasDropout,
                   false, // kDoFp8StaticQuant place-holder
                   occupancy>;
 
@@ -122,7 +125,6 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               false, // kStoreLSE
-              kHasDropout,
               false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
@@ -196,7 +198,6 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
-          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 4ef24248a4..9cd3c0e456 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -8,6 +8,7 @@
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/ops/fmha.hpp>
+#include <ck_tile/ops/fmha/block/block_dropout.hpp>
 
 template <typename DataType>
 struct FmhaBwdTypeConfig;
@@ -25,7 +26,7 @@ struct FmhaBwdTypeConfig<ck_tile::fp16_t> {
   using DDataType = float;
   using ODataType = ck_tile::fp16_t;
   using OGradDataType = ck_tile::fp16_t;
-  using QGradDataType = ck_tile::fp16_t;
+  using QGradDataType = float;
   using KGradDataType = ck_tile::fp16_t;
   using VGradDataType = ck_tile::fp16_t;
   using BiasGradDataType = ck_tile::fp16_t;
@@ -44,7 +45,7 @@ struct FmhaBwdTypeConfig<ck_tile::bf16_t> {
   using DDataType = float;
   using ODataType = ck_tile::bf16_t;
   using OGradDataType = ck_tile::bf16_t;
-  using QGradDataType = ck_tile::bf16_t;
+  using QGradDataType = float;
   using KGradDataType = ck_tile::bf16_t;
   using VGradDataType = ck_tile::bf16_t;
   using BiasGradDataType = ck_tile::bf16_t;
@@ -55,15 +56,15 @@ struct FmhaBwdBlockTile;
 
 template <>
 struct FmhaBwdBlockTile<32> {
-  using type = ck_tile::sequence<128, 128, 32, 32, 32, 32, 32, 32, 32>;
-  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
-  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck_tile::sequence<4, 1, 1>; // default for gemm4
+  using tile_lengths = ck_tile::sequence<64, 64, 32, 64, 32, 64, 64, 32, 32>;
+  using gemm02_warps = ck_tile::sequence<1, 2, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<2, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<2, 1, 1>; // default for gemm4
 };
 
 template <>
 struct FmhaBwdBlockTile<64> {
-  using type = ck_tile::sequence<64, 128, 32, 32, 32, 32, 32, 64, 64>;
+  using tile_lengths = ck_tile::sequence<64, 128, 64, 64, 64, 64, 64, 64, 64>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
   using gemm4_warps = ck_tile::sequence<2, 2, 1>; // default for gemm4
@@ -71,78 +72,89 @@ struct FmhaBwdBlockTile<64> {
 
 template <>
 struct FmhaBwdBlockTile<128> {
-  using type = ck_tile::sequence<64, 128, 32, 32, 32, 32, 32, 128, 128>;
+  using tile_lengths =
+      ck_tile::sequence<32, 128, 128, 32, 128, 32, 32, 128, 128>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck_tile::sequence<2, 2, 1>; // default for gemm4
+  using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
 };
 
-using FmhaBwdWarpTile = ck_tile::sequence<32, 32, 16>;
+template <>
+struct FmhaBwdBlockTile<256> {
+  using tile_lengths =
+      ck_tile::sequence<16, 64, 256, 16, 256, 16, 32, 256, 256>;
+  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
+};
+
+using FmhaBwdWarpTile1 = ck_tile::sequence<32, 32, 16>;
+using FmhaBwdWarpTile2 = ck_tile::sequence<16, 16, 32>;
+using FmhaBwdWarpTile3 = ck_tile::sequence<16, 16, 16>;
 
 template <ck_tile::index_t MaxK>
 struct FmhaBwdShape;
 
 template <>
 struct FmhaBwdShape<32> : ck_tile::TileFmhaBwdShape<
-                              typename FmhaBwdBlockTile<32>::type,
+                              typename FmhaBwdBlockTile<32>::tile_lengths,
                               typename FmhaBwdBlockTile<32>::gemm02_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<32>::gemm13_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<32>::gemm02_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<32>::gemm13_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<32>::gemm4_warps,
-                              FmhaBwdWarpTile> {};
+                              FmhaBwdWarpTile1> {};
 
 template <>
 struct FmhaBwdShape<64> : ck_tile::TileFmhaBwdShape<
-                              typename FmhaBwdBlockTile<64>::type,
+                              typename FmhaBwdBlockTile<64>::tile_lengths,
                               typename FmhaBwdBlockTile<64>::gemm02_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<64>::gemm13_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<64>::gemm02_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<64>::gemm13_warps,
-                              FmhaBwdWarpTile,
+                              FmhaBwdWarpTile1,
                               typename FmhaBwdBlockTile<64>::gemm4_warps,
-                              FmhaBwdWarpTile> {};
+                              FmhaBwdWarpTile1> {};
 
 template <>
 struct FmhaBwdShape<128> : ck_tile::TileFmhaBwdShape<
-                               typename FmhaBwdBlockTile<128>::type,
+                               typename FmhaBwdBlockTile<128>::tile_lengths,
                                typename FmhaBwdBlockTile<128>::gemm02_warps,
-                               FmhaBwdWarpTile,
+                               FmhaBwdWarpTile1,
                                typename FmhaBwdBlockTile<128>::gemm13_warps,
-                               FmhaBwdWarpTile,
+                               FmhaBwdWarpTile1,
                                typename FmhaBwdBlockTile<128>::gemm02_warps,
-                               FmhaBwdWarpTile,
+                               FmhaBwdWarpTile1,
                                typename FmhaBwdBlockTile<128>::gemm13_warps,
-                               FmhaBwdWarpTile,
+                               FmhaBwdWarpTile1,
                                typename FmhaBwdBlockTile<128>::gemm4_warps,
-                               FmhaBwdWarpTile> {};
-
-template <ck_tile::index_t MaxK>
-struct FmhaBwdPipelineEnumSelector;
+                               FmhaBwdWarpTile1> {};
 
 template <>
-struct FmhaBwdPipelineEnumSelector<32> {
-  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
-      ck_tile::BlockFmhaBwdPipelineEnum::QSKSVROGradS;
-};
+struct FmhaBwdShape<256> : ck_tile::TileFmhaBwdShape<
+                               typename FmhaBwdBlockTile<256>::tile_lengths,
+                               typename FmhaBwdBlockTile<256>::gemm02_warps,
+                               FmhaBwdWarpTile2,
+                               typename FmhaBwdBlockTile<256>::gemm13_warps,
+                               FmhaBwdWarpTile3,
+                               typename FmhaBwdBlockTile<256>::gemm02_warps,
+                               FmhaBwdWarpTile2,
+                               typename FmhaBwdBlockTile<256>::gemm13_warps,
+                               FmhaBwdWarpTile3,
+                               typename FmhaBwdBlockTile<256>::gemm4_warps,
+                               FmhaBwdWarpTile2> {};
 
-template <>
-struct FmhaBwdPipelineEnumSelector<64> {
-  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
-      ck_tile::BlockFmhaBwdPipelineEnum::KSKTSVR;
-};
-
-template <>
-struct FmhaBwdPipelineEnumSelector<128> {
+template <ck_tile::index_t MaxK>
+struct FmhaBwdPipelineEnumSelector {
   static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
-      ck_tile::BlockFmhaBwdPipelineEnum::KSVR;
+      ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR;
 };
 
 template <ck_tile::BlockFmhaBwdPipelineEnum value, typename problem>
@@ -150,19 +162,23 @@ struct FmhaBwdPipelineMaker;
 
 template <typename problem>
 struct FmhaBwdPipelineMaker<
-    ck_tile::BlockFmhaBwdPipelineEnum::QSKSVROGradS,
+    ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR,
     problem> {
-  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineQSKSVROGradS<problem>;
+  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<problem>;
 };
 
-template <typename problem>
-struct FmhaBwdPipelineMaker<
-    ck_tile::BlockFmhaBwdPipelineEnum::KSKTSVR,
-    problem> {
-  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKSKTSVR<problem>;
+template <bool kHasDropout, ck_tile::index_t MaxK>
+struct FmhaBwdBlockDropoutMaker;
+
+template <ck_tile::index_t MaxK>
+struct FmhaBwdBlockDropoutMaker<false, MaxK> {
+  using dropout = ck_tile::BlockDropout<false, true, false>;
 };
 
-template <typename problem>
-struct FmhaBwdPipelineMaker<ck_tile::BlockFmhaBwdPipelineEnum::KSVR, problem> {
-  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKSVR<problem>;
+template <ck_tile::index_t MaxK>
+struct FmhaBwdBlockDropoutMaker<true, MaxK> {
+  using FmhaBwdShapeType = FmhaBwdShape<MaxK>;
+  static constexpr bool IsWG32 =
+      (FmhaBwdShapeType::Gemm0WarpTile::at(ck_tile::number<0>{}) == 32);
+  using dropout = ck_tile::BlockDropout<true, IsWG32, false>;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 662703b7e7..4f3a18e26f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -8,6 +8,7 @@
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/ops/fmha.hpp>
+#include <ck_tile/ops/fmha/block/block_dropout.hpp>
 
 template <typename DataType>
 struct FmhaFwdTypeConfig;
@@ -117,3 +118,19 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                typename FmhaFwdBlockTile<256>::gemm1_warps,
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
+
+template <bool kHasDropout, ck_tile::index_t MaxK>
+struct FmhaFwdBlockDropoutMaker;
+
+template <ck_tile::index_t MaxK>
+struct FmhaFwdBlockDropoutMaker<false, MaxK> {
+  using dropout = ck_tile::BlockDropout<false, true, false>;
+};
+
+template <ck_tile::index_t MaxK>
+struct FmhaFwdBlockDropoutMaker<true, MaxK> {
+  using FmhaFwdShapeType = FmhaFwdShape<MaxK>;
+  static constexpr bool IsWG32 =
+      (FmhaFwdShapeType::Gemm0WarpTile::at(ck_tile::number<0>{}) == 32);
+  using dropout = ck_tile::BlockDropout<true, IsWG32, false>;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index b5038fdfea..3e8fb35b88 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -23,6 +23,9 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct grouped_backward_causalmask_bias_dropout_dispatch {
+  using FmhaBlockDropout =
+      typename FmhaBwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaBwdPipelineProblemTemp = ck_tile::BlockFmhaBwdPipelineProblem<
       typename FmhaBwdTypeConfig<ScalarType>::QDataType,
@@ -42,12 +45,18 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       typename FmhaBwdTypeConfig<ScalarType>::BiasGradDataType,
       FmhaBwdShape<MaxK>,
       true, // kIsGroupMode
+      false, // non-deterministic
       FmhaMask,
+      FmhaBlockDropout,
       FmhaTraits>;
 
+  static constexpr bool NeedConvertGradQ = !std::is_same<
+      ScalarType,
+      typename FmhaBwdTypeConfig<ScalarType>::QGradDataType>::value;
+
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     {
-      constexpr ck_tile::index_t kBlockSize = 256;
+      constexpr ck_tile::index_t kBlockSize = 64;
       bool pad_seqlen_q = !(param.M % kBlockSize == 0);
       bool pad_headdim_v = !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
@@ -74,9 +83,8 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
                 typename ck_tile::BlockFmhaBwdOGradDotO<
                     FmhaBwdOGradDotOPipelineProblem>;
 
-            using FmhaBwdOGradDotOKernel_ = ck_tile::FmhaBwdOGradDotOKernel<
-                ck_tile::FmhaBwdOGradDotOTilePartitioner<kBlockSize>,
-                FmhaBwdOGradDotOPipeline_>;
+            using FmhaBwdOGradDotOKernel_ =
+                ck_tile::FmhaBwdOGradDotOKernel<FmhaBwdOGradDotOPipeline_>;
 
             RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
           });
@@ -92,10 +100,6 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaBwdShape_ = FmhaBwdShape<MaxK>;
-        using FmhaBwdTilePartitioner_ =
-            ck_tile::FmhaBwdTilePartitioner<FmhaBwdShape_>;
-
         constexpr auto kBiasEnum = kHasBias
             ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
@@ -103,8 +107,10 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
 
-        const bool pad_headdim_q = !(param.K % FmhaBwdShape_::kQKHeaddim == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaBwdShape_::kVHeaddim == 0);
+        const bool pad_headdim_q =
+            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+        const bool pad_headdim_v =
+            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time
@@ -119,7 +125,6 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
               kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
-              kHasDropout,
               false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
@@ -148,7 +153,6 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
                   kPadHeadDim>>;
 
           using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
-              FmhaBwdTilePartitioner_,
               FmhaBwdPipeline_,
               FmhaBwdKGradEpilogue_,
               FmhaBwdVGradEpilogue_>;
@@ -157,6 +161,47 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         });
       });
     };
+
+    if constexpr (NeedConvertGradQ) {
+      constexpr ck_tile::index_t kBlockSize = 256;
+
+      const bool pad_seqlen_q = true;
+      const bool pad_headdim_q =
+          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
+            constexpr ck_tile::index_t occupancy = 2;
+
+            using FmhaBwdConvertQGradTraits_ =
+                ck_tile::TileFmhaBwdConvertQGradTraits<
+                    kPadSeqLenQ,
+                    kPadHeadDimQ,
+                    occupancy>;
+
+            using FmhaBwdConvertQGradPipelineProblem =
+                ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+                    kBlockSize,
+                    64, // kM0
+                    1, // kN0, no use
+                    FmhaBwdShape<MaxK>::kQKHeaddim,
+                    true, // kIsGroupMode
+                    false, // kIsDeterministic
+                    FmhaBwdConvertQGradTraits_>;
+
+            using FmhaBwdConvertQGradPipeline =
+                typename ck_tile::BlockFmhaBwdConvertQGrad<
+                    FmhaBwdConvertQGradPipelineProblem>;
+
+            using FmhaBwdConvertQGradKernel_ =
+                ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
+
+            RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
+                param, stream);
+          });
+    };
   }
 
   template <typename FmhaBwdOGradDotOKernel>
@@ -205,10 +250,10 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.grad_out_ptr,
           param.dot_out_ptr,
           nullptr, // randval_ptr
-          param.grad_q_ptr,
           param.grad_k_ptr,
           param.grad_v_ptr,
           param.grad_bias_ptr,
+          NeedConvertGradQ ? param.grad_q_f32_ptr : param.grad_q_ptr,
           param.seqstart_q_dev_ptr,
           param.seqstart_k_dev_ptr,
           param.seqlen_k_dev_ptr,
@@ -239,12 +284,12 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           param.lsed_strides[0], // batch_stride_lse
+          0, // split_stride_dq_acc
           (param.window_size > 0) ? param.window_size - 1
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
-          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
@@ -258,6 +303,34 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
             FmhaBwdDQDKDVKernel{}, kGridSize, kBlockSize, 0, kargs));
   }
+
+  template <typename FmhaBwdConvertQGradKernel>
+  static void RunWithBwdConvertQGradKernel(
+      GroupedBackwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaBwdConvertQGradKernel::MakeKargs(
+          param.grad_q_f32_ptr,
+          param.grad_q_ptr,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.K, // headdim of q/k
+          param.q_strides[1],
+          param.q_strides[2],
+          0);
+    }();
+
+    dim3 kGridSize = FmhaBwdConvertQGradKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q);
+    constexpr dim3 kBlockSize = FmhaBwdConvertQGradKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaBwdConvertQGradKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaBwdConvertQGradKernel{}, kGridSize, kBlockSize, 0, kargs));
+  }
 };
 
 template <
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 2fa305e0ad..8f0bf95b93 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -22,6 +22,9 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct grouped_forward_causalmask_bias_dropout_dispatch {
+  using FmhaBlockDropout =
+      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -38,6 +41,7 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       true, // kIsGroupMode
       FmhaMask,
+      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -75,7 +79,6 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
-                kHasDropout,
                 false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 
@@ -158,7 +161,6 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob,
-          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 5197a6cb16..0946bdece4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -23,6 +23,9 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct grouped_infer_causalmask_bias_dropout_dispatch {
+  using FmhaBlockDropout =
+      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -39,6 +42,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       true, // kIsGroupMode
       FmhaMask,
+      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -76,7 +80,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
-                  kHasDropout,
                   false, // kDoFp8StaticQuant place-holder
                   occupancy>;
 
@@ -123,7 +126,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
             kBiasEnum,
             false, // kHasBiasGrad place-holder
             false, // kStoreLSE
-            kHasDropout,
             false, // kDoFp8StaticQuant place-holder
             occupancy>;
 
@@ -202,7 +204,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob,
-          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index e97db1e86d..4b40730e9e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -150,6 +150,8 @@ struct BatchedBackwardParams {
   void* grad_v_ptr;
   void* grad_bias_ptr;
 
+  void* grad_q_f32_ptr;
+
   float dropout_prob;
   int64_t philox_seed;
   int64_t philox_offset;
@@ -211,6 +213,8 @@ struct GroupedBackwardParams {
   void* grad_v_ptr;
   void* grad_bias_ptr;
 
+  void* grad_q_f32_ptr;
+
   float dropout_prob;
   int64_t philox_seed;
   int64_t philox_offset;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
index e930e0b82c..4bcb8dd054 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
@@ -5,6 +5,7 @@
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/ops/fmha.hpp>
+#include <ck_tile/ops/fmha/block/block_dropout.hpp>
 #include <ck_tile/ops/gemm/block/block_gemm_areg_bsmem_creg_v2.hpp>
 #include <ck_tile/ops/gemm/pipeline/block_gemm_pipeline_problem.hpp>
 
@@ -34,6 +35,8 @@ struct FmhaRandUniformKernel {
 
   using BlockGemm = decltype(GetBlockGemm());
 
+  using MyBlockDropout = ck_tile::BlockDropout<true, true, false>;
+
   static constexpr bool kPadSeqLenQ = true;
   static constexpr bool kPadSeqLenK = true;
 
@@ -170,7 +173,7 @@ struct FmhaRandUniformKernel {
   }
 
   __device__ static constexpr ck_tile::index_t GetSmemSize() {
-    return ck_tile::BlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>()
+    return MyBlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>()
         .get_element_space_size();
   }
 
@@ -182,7 +185,7 @@ struct FmhaRandUniformKernel {
       RandValDramBlockWindowTmp& randval_dram_block_window_tmp) const {
     using namespace ck_tile;
 
-    auto randval_dram_window = BlockDropout::MakeRandvalDramWindow<BlockGemm>(
+    auto randval_dram_window = MyBlockDropout::MakeRandvalDramWindow<BlockGemm>(
         randval_dram_block_window_tmp, 0);
 
     const auto num_total_loop =
@@ -201,17 +204,17 @@ struct FmhaRandUniformKernel {
       // randval tile in LDS
       auto randval_lds = make_tensor_view<address_space_enum::lds>(
           reinterpret_cast<uint8_t*>(randval_smem_ptr),
-          BlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>());
+          MyBlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>());
 
       auto randval_lds_window = make_tile_window(
           randval_lds,
-          BlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>()
+          MyBlockDropout::MakeRandValLdsBlockDescriptor<BlockGemm>()
               .get_lengths(),
           {0, 0});
 
       // register distribute
       auto randval_dist_generated = make_static_distributed_tensor<uint8_t>(
-          BlockDropout::MakeRandValTileDistribution<BlockGemm>());
+          MyBlockDropout::MakeRandValTileDistribution<BlockGemm>());
 
       static_assert(randval_dist_generated.kThreadElementSpaceSize == 16);
 
@@ -219,7 +222,7 @@ struct FmhaRandUniformKernel {
           randval_lds_window.get_bottom_tensor_view(),
           randval_lds_window.get_window_lengths(),
           randval_lds_window.get_window_origin(),
-          BlockDropout::MakeRandValLdsShuffleTileDistribution<BlockGemm>());
+          MyBlockDropout::MakeRandValLdsShuffleTileDistribution<BlockGemm>());
 
       const int start_m0_idx =
           randval_dram_window.get_window_origin().at(number<0>{});

From 22fce7e7fe7a82c856e6763ccc59e41f72dcf1e1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 23 Jul 2024 21:17:13 +0000
Subject: [PATCH 582/837] Update to get 80% of the test_backward and
 test_dropout_backward_ck cases passed

---
 tests/test_mem_eff_attention.py                   | 12 ++++--------
 .../attention_backward_generic_ck_tiled.cpp       | 15 ++++++++++-----
 .../hip_fmha/ck_tiled_fmha_batched_backward.h     |  2 +-
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h          |  4 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h     |  2 +-
 .../attention/hip_fmha/ck_tiled_headdim_switch.h  |  3 +++
 xformers/ops/fmha/ck.py                           |  3 ++-
 7 files changed, 23 insertions(+), 18 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 7f511bfac2..d42d4cc22c 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -705,16 +705,12 @@ def test_backward(
 
     if op_bw == fmha.ck.BwOp:
         op_fw = fmha.ck.FwOp
-        if dtype == torch.bfloat16:
-            pytest.skip(
-                "CK Fmha backward for bfloat16 currently is not very accurate for some cases!"
-            )
+        ##if dtype == torch.bfloat16:
+        ##    pytest.skip(
+        ##        "CK Fmha backward for bfloat16 currently is not very accurate for some cases!"
+        ##    )
         if grad_out_contiguous is False:
             pytest.skip("CK Fmha does not support contiguous layout for grad_out!")
-        if k % 2 != 0:
-            pytest.skip(
-                "CK Fmha currently requires the headdim size of query input be an even value!"
-            )
 
     qkv = None
 
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index e02a215885..ce7711f50e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -122,10 +122,6 @@ efficient_attention_backward_ck(
   int64_t K = query.size(3);
   int64_t Kv = value.size(3);
 
-  if (K % 2 != 0)
-    throw std::runtime_error(
-        "Currently CK Fmha requires the headdim of query/key be an even value!");
-
   auto opts = query.options();
 
   at::Tensor grad_q, grad_k, grad_v, grad_bias;
@@ -166,7 +162,8 @@ efficient_attention_backward_ck(
 
   if (query.scalar_type() == at::ScalarType::BFloat16 ||
       query.scalar_type() == at::ScalarType::Half) {
-    grad_q_f32 = at::empty_like(grad_q);
+    grad_q_f32 = at::empty_strided(
+        grad_q.sizes(), grad_q.strides(), opts.dtype(at::kFloat));
     grad_q_f32.fill_(0);
   } else {
     grad_q.fill_(0);
@@ -534,6 +531,14 @@ efficient_attention_backward_ck(
     grad_v = tmp_grad_v_view.sum(3);
   }
 
+  /*
+    if (inDataType == at::ScalarType::Half)
+      grad_q = grad_q_f32.to(torch::kFloat16);
+
+    if (inDataType == at::ScalarType::BFloat16)
+      grad_q = grad_q_f32.to(torch::kBFloat16);
+  */
+
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 }
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index ed1fd8aaa7..a4ac28eb5c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -51,7 +51,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       FmhaTraits>;
 
   static constexpr bool NeedConvertGradQ = !std::is_same<
-      ScalarType,
+      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
       typename FmhaBwdTypeConfig<ScalarType>::QGradDataType>::value;
 
   static void Run(BatchedBackwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 9cd3c0e456..9aa4b8f0d6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -26,7 +26,7 @@ struct FmhaBwdTypeConfig<ck_tile::fp16_t> {
   using DDataType = float;
   using ODataType = ck_tile::fp16_t;
   using OGradDataType = ck_tile::fp16_t;
-  using QGradDataType = float;
+  using QGradDataType = ck_tile::fp16_t;
   using KGradDataType = ck_tile::fp16_t;
   using VGradDataType = ck_tile::fp16_t;
   using BiasGradDataType = ck_tile::fp16_t;
@@ -45,7 +45,7 @@ struct FmhaBwdTypeConfig<ck_tile::bf16_t> {
   using DDataType = float;
   using ODataType = ck_tile::bf16_t;
   using OGradDataType = ck_tile::bf16_t;
-  using QGradDataType = float;
+  using QGradDataType = ck_tile::bf16_t;
   using KGradDataType = ck_tile::bf16_t;
   using VGradDataType = ck_tile::bf16_t;
   using BiasGradDataType = ck_tile::bf16_t;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 3e8fb35b88..3b6fa7581d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -51,7 +51,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       FmhaTraits>;
 
   static constexpr bool NeedConvertGradQ = !std::is_same<
-      ScalarType,
+      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
       typename FmhaBwdTypeConfig<ScalarType>::QGradDataType>::value;
 
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 18814324b6..3e435a6465 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -39,6 +39,9 @@
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
       constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256) {                 \
+      constexpr ck_tile::index_t CONST_NAME = 256;                     \
+      __VA_ARGS__();                                                   \
     } else {                                                           \
       throw std::runtime_error("Head-dim sizes not supported!");       \
     }                                                                  \
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index be061cf5a0..2de81623cc 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -344,7 +344,7 @@ class BwOp(AttentionBwOpBase):
     OPERATOR = get_operator("xformers", "efficient_attention_backward_ck")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
-    SUPPORTED_MAX_K = 128
+    SUPPORTED_MAX_K = 256 
     SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
         type(None),
         torch.Tensor,
@@ -368,6 +368,7 @@ class BwOp(AttentionBwOpBase):
         32,  # 64x64 kernel
         64,
         128,  # 64x128/128x128 kernel
+        256, 
     ]
 
     @classmethod

From 463a47550bf1d312bbc269941911047f7154893d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 25 Jul 2024 10:18:05 +0000
Subject: [PATCH 583/837] Replace the using of ConvertGradQ by using torch
 tensor type converting

---
 .../attention_backward_generic_ck_tiled.cpp   | 10 +--
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 83 ++++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 82 +++++++++---------
 3 files changed, 88 insertions(+), 87 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index ce7711f50e..671540dcb0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -531,13 +531,11 @@ efficient_attention_backward_ck(
     grad_v = tmp_grad_v_view.sum(3);
   }
 
-  /*
-    if (inDataType == at::ScalarType::Half)
-      grad_q = grad_q_f32.to(torch::kFloat16);
+  if (inDataType == at::ScalarType::Half)
+    grad_q = grad_q_f32.to(torch::kFloat16);
 
-    if (inDataType == at::ScalarType::BFloat16)
-      grad_q = grad_q_f32.to(torch::kBFloat16);
-  */
+  if (inDataType == at::ScalarType::BFloat16)
+    grad_q = grad_q_f32.to(torch::kBFloat16);
 
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index a4ac28eb5c..98afe782b2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -162,47 +162,48 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         });
       });
     };
-
-    if constexpr (NeedConvertGradQ) {
-      constexpr ck_tile::index_t kBlockSize = 256;
-
-      const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
-      const bool pad_headdim_q =
-          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
-
-      BOOL_SWITCH_2(
-          pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
-            constexpr ck_tile::index_t occupancy = 2;
-
-            using FmhaBwdConvertQGradTraits_ =
-                ck_tile::TileFmhaBwdConvertQGradTraits<
-                    kPadSeqLenQ,
-                    kPadHeadDimQ,
-                    occupancy>;
-
-            using FmhaBwdConvertQGradPipelineProblem =
-                ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                    typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
-                    kBlockSize,
-                    FmhaBwdShape<MaxK>::kM0,
-                    FmhaBwdShape<MaxK>::kN0,
-                    FmhaBwdShape<MaxK>::kQKHeaddim,
-                    false, // kIsGroupMode
-                    false, // kIsDeterministic
-                    FmhaBwdConvertQGradTraits_>;
-
-            using FmhaBwdConvertQGradPipeline =
-                typename ck_tile::BlockFmhaBwdConvertQGrad<
-                    FmhaBwdConvertQGradPipelineProblem>;
-
-            using FmhaBwdConvertQGradKernel_ =
-                ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
-
-            RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
-                param, stream);
-          });
-    };
+    /*
+        if constexpr (NeedConvertGradQ) {
+          constexpr ck_tile::index_t kBlockSize = 256;
+
+          const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
+          const bool pad_headdim_q =
+              !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+
+          BOOL_SWITCH_2(
+              pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
+                constexpr ck_tile::index_t occupancy = 2;
+
+                using FmhaBwdConvertQGradTraits_ =
+                    ck_tile::TileFmhaBwdConvertQGradTraits<
+                        kPadSeqLenQ,
+                        kPadHeadDimQ,
+                        occupancy>;
+
+                using FmhaBwdConvertQGradPipelineProblem =
+                    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
+                        typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                        typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+                        kBlockSize,
+                        FmhaBwdShape<MaxK>::kM0,
+                        FmhaBwdShape<MaxK>::kN0,
+                        FmhaBwdShape<MaxK>::kQKHeaddim,
+                        false, // kIsGroupMode
+                        false, // kIsDeterministic
+                        FmhaBwdConvertQGradTraits_>;
+
+                using FmhaBwdConvertQGradPipeline =
+                    typename ck_tile::BlockFmhaBwdConvertQGrad<
+                        FmhaBwdConvertQGradPipelineProblem>;
+
+                using FmhaBwdConvertQGradKernel_ =
+                    ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
+
+                RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
+                    param, stream);
+              });
+        };
+    */
   }
 
   template <typename FmhaBwdOGradDotOKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 3b6fa7581d..76c5eb66f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -162,46 +162,48 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       });
     };
 
-    if constexpr (NeedConvertGradQ) {
-      constexpr ck_tile::index_t kBlockSize = 256;
-
-      const bool pad_seqlen_q = true;
-      const bool pad_headdim_q =
-          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
-
-      BOOL_SWITCH_2(
-          pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
-            constexpr ck_tile::index_t occupancy = 2;
-
-            using FmhaBwdConvertQGradTraits_ =
-                ck_tile::TileFmhaBwdConvertQGradTraits<
-                    kPadSeqLenQ,
-                    kPadHeadDimQ,
-                    occupancy>;
-
-            using FmhaBwdConvertQGradPipelineProblem =
-                ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                    typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
-                    kBlockSize,
-                    64, // kM0
-                    1, // kN0, no use
-                    FmhaBwdShape<MaxK>::kQKHeaddim,
-                    true, // kIsGroupMode
-                    false, // kIsDeterministic
-                    FmhaBwdConvertQGradTraits_>;
-
-            using FmhaBwdConvertQGradPipeline =
-                typename ck_tile::BlockFmhaBwdConvertQGrad<
-                    FmhaBwdConvertQGradPipelineProblem>;
-
-            using FmhaBwdConvertQGradKernel_ =
-                ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
-
-            RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
-                param, stream);
-          });
-    };
+    /*
+        if constexpr (NeedConvertGradQ) {
+          constexpr ck_tile::index_t kBlockSize = 256;
+
+          const bool pad_seqlen_q = true;
+          const bool pad_headdim_q =
+              !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+
+          BOOL_SWITCH_2(
+              pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
+                constexpr ck_tile::index_t occupancy = 2;
+
+                using FmhaBwdConvertQGradTraits_ =
+                    ck_tile::TileFmhaBwdConvertQGradTraits<
+                        kPadSeqLenQ,
+                        kPadHeadDimQ,
+                        occupancy>;
+
+                using FmhaBwdConvertQGradPipelineProblem =
+                    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
+                        typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                        typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+                        kBlockSize,
+                        64, // kM0
+                        1, // kN0, no use
+                        FmhaBwdShape<MaxK>::kQKHeaddim,
+                        true, // kIsGroupMode
+                        false, // kIsDeterministic
+                        FmhaBwdConvertQGradTraits_>;
+
+                using FmhaBwdConvertQGradPipeline =
+                    typename ck_tile::BlockFmhaBwdConvertQGrad<
+                        FmhaBwdConvertQGradPipelineProblem>;
+
+                using FmhaBwdConvertQGradKernel_ =
+                    ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
+
+                RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
+                    param, stream);
+              });
+        };
+    */
   }
 
   template <typename FmhaBwdOGradDotOKernel>

From 3427a6f1f3bacb33aabcaaf48965aff873867ea9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 25 Jul 2024 10:19:20 +0000
Subject: [PATCH 584/837] Change the tile settings for MaxK=32

---
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h       | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 9aa4b8f0d6..d5d15c05d1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -56,10 +56,10 @@ struct FmhaBwdBlockTile;
 
 template <>
 struct FmhaBwdBlockTile<32> {
-  using tile_lengths = ck_tile::sequence<64, 64, 32, 64, 32, 64, 64, 32, 32>;
-  using gemm02_warps = ck_tile::sequence<1, 2, 1>; // default for gemm0/gemm2
-  using gemm13_warps = ck_tile::sequence<2, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck_tile::sequence<2, 1, 1>; // default for gemm4
+  using tile_lengths = ck_tile::sequence<32, 128, 32, 32, 32, 32, 64, 32, 32>;
+  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<2, 2, 1>; // default for gemm4
 };
 
 template <>
@@ -99,15 +99,15 @@ template <>
 struct FmhaBwdShape<32> : ck_tile::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<32>::tile_lengths,
                               typename FmhaBwdBlockTile<32>::gemm02_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile2,
                               typename FmhaBwdBlockTile<32>::gemm13_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile3,
                               typename FmhaBwdBlockTile<32>::gemm02_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile2,
                               typename FmhaBwdBlockTile<32>::gemm13_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile3,
                               typename FmhaBwdBlockTile<32>::gemm4_warps,
-                              FmhaBwdWarpTile1> {};
+                              FmhaBwdWarpTile2> {};
 
 template <>
 struct FmhaBwdShape<64> : ck_tile::TileFmhaBwdShape<

From fbc7c507e89deca1377787947d59949e3d3e3559 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 26 Jul 2024 04:09:32 +0000
Subject: [PATCH 585/837] Fix padding setting bug in grouped_backward

---
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 56 +++++++++----------
 1 file changed, 27 insertions(+), 29 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 76c5eb66f5..ccf9e63706 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -57,37 +57,35 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     {
       constexpr ck_tile::index_t kBlockSize = 64;
-      bool pad_seqlen_q = !(param.M % kBlockSize == 0);
       bool pad_headdim_v = !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
-      BOOL_SWITCH_2(
-          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
-            constexpr ck_tile::index_t occupancy = 2;
-
-            using FmhaOGradDotOTraits_ = ck_tile::TileFmhaBwdOGradDotOTraits<
-                kPadSeqLenQ,
-                kPadHeadDimV,
-                occupancy>;
-
-            using FmhaBwdOGradDotOPipelineProblem =
-                ck_tile::BlockFmhaBwdOGradDotOPipelineProblem<
-                    typename FmhaBwdTypeConfig<ScalarType>::ODataType,
-                    typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
-                    typename FmhaBwdTypeConfig<ScalarType>::DDataType,
-                    kBlockSize,
-                    FmhaBwdShape<MaxK>::kVHeaddim,
-                    true, // kIsGroupMode
-                    FmhaOGradDotOTraits_>;
-
-            using FmhaBwdOGradDotOPipeline_ =
-                typename ck_tile::BlockFmhaBwdOGradDotO<
-                    FmhaBwdOGradDotOPipelineProblem>;
-
-            using FmhaBwdOGradDotOKernel_ =
-                ck_tile::FmhaBwdOGradDotOKernel<FmhaBwdOGradDotOPipeline_>;
-
-            RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
-          });
+      constexpr bool kPadSeqLenQ = true;
+
+      BOOL_SWITCH(pad_headdim_v, kPadHeadDimV, [&] {
+        constexpr ck_tile::index_t occupancy = 2;
+
+        using FmhaOGradDotOTraits_ = ck_tile::
+            TileFmhaBwdOGradDotOTraits<kPadSeqLenQ, kPadHeadDimV, occupancy>;
+
+        using FmhaBwdOGradDotOPipelineProblem =
+            ck_tile::BlockFmhaBwdOGradDotOPipelineProblem<
+                typename FmhaBwdTypeConfig<ScalarType>::ODataType,
+                typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
+                typename FmhaBwdTypeConfig<ScalarType>::DDataType,
+                kBlockSize,
+                FmhaBwdShape<MaxK>::kVHeaddim,
+                true, // kIsGroupMode
+                FmhaOGradDotOTraits_>;
+
+        using FmhaBwdOGradDotOPipeline_ =
+            typename ck_tile::BlockFmhaBwdOGradDotO<
+                FmhaBwdOGradDotOPipelineProblem>;
+
+        using FmhaBwdOGradDotOKernel_ =
+            ck_tile::FmhaBwdOGradDotOKernel<FmhaBwdOGradDotOPipeline_>;
+
+        RunWithBwdOGradDotOKernel<FmhaBwdOGradDotOKernel_>(param, stream);
+      });
     };
 
     {

From 6e08666c488964026efe002662a426adb87ba6a3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 26 Jul 2024 11:33:44 +0000
Subject: [PATCH 586/837] Change -DCK_FMHA_FWD_FAST_EXP2=1 to
 -DCK_TILE_FMHA_FWD_FAST_EXP2=1

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 327e1f7df6..45fe808245 100644
--- a/setup.py
+++ b/setup.py
@@ -431,7 +431,7 @@ def get_extensions():
                 f"--offload-arch={os.getenv('HIP_ARCHITECTURES', 'native')}",
                 "-U__CUDA_NO_HALF_OPERATORS__",
                 "-U__CUDA_NO_HALF_CONVERSIONS__",
-                "-DCK_FMHA_FWD_FAST_EXP2=1",
+                "-DCK_TILE_FMHA_FWD_FAST_EXP2=1",
                 "-fgpu-flush-denormals-to-zero",
                 "-Werror",
                 "-Woverloaded-virtual",

From 94ab5999f9c6e2f2f275989c7bfeeab4b210a5ef Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 26 Jul 2024 11:35:46 +0000
Subject: [PATCH 587/837] Point the composable_kernel_tiled submodule to
 ck_tile/fa_bwd_opt branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index b642ad5b97..18adab4b01 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop 
+	branch = ck_tile/fa_bwd_opt
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index e3f44659cf..99ed2c1ae3 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit e3f44659cf77df8c3de15eb14baffd58be6ac550
+Subproject commit 99ed2c1ae326a68cec5597bb9ecea11aaaabe80b

From 830697c93fdadf4b6fdd2a83114bc3c2403422a7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 27 Jul 2024 11:37:05 +0000
Subject: [PATCH 588/837] Disable flshattF and flshattB on ROCM

---
 xformers/ops/fmha/flash.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/flash.py b/xformers/ops/fmha/flash.py
index 49e708dc28..14a8335ec1 100644
--- a/xformers/ops/fmha/flash.py
+++ b/xformers/ops/fmha/flash.py
@@ -607,7 +607,10 @@ class FwOp(AttentionFwOpBase):
         implementation.
     """
 
-    OPERATOR = get_operator("xformers_flash", "flash_fwd")
+    if torch.version.hip:
+        OPERATOR = None
+    else:
+        OPERATOR = get_operator("xformers_flash", "flash_fwd")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     CUDA_MINIMUM_COMPUTE_CAPABILITY = (8, 0)
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
@@ -809,7 +812,10 @@ def operator_flop(
 class BwOp(AttentionBwOpBase):
     __doc__ = FwOp.__doc__
 
-    OPERATOR = get_operator("xformers_flash", "flash_bwd")
+    if torch.version.hip:
+        OPERATOR = None
+    else:
+        OPERATOR = get_operator("xformers_flash", "flash_bwd")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     CUDA_MINIMUM_COMPUTE_CAPABILITY = FwOp.CUDA_MINIMUM_COMPUTE_CAPABILITY
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES

From afd7e022b5a81a90cd6ea169dfc97c14074d23c6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 27 Jul 2024 05:46:02 +0000
Subject: [PATCH 589/837] Add -mllvm and -enable-post-misched=0 compiling
 options for ROCM on setup.py

---
 setup.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/setup.py b/setup.py
index 45fe808245..54a261f66a 100644
--- a/setup.py
+++ b/setup.py
@@ -435,6 +435,8 @@ def get_extensions():
                 "-fgpu-flush-denormals-to-zero",
                 "-Werror",
                 "-Woverloaded-virtual",
+                "-mllvm",
+                "-enable-post-misched=0"
             ]
             + generator_flag
             + cc_flag,

From e67de4119cfe6cf275aaad3a4543e12e6cd0ae00 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 27 Jul 2024 11:37:05 +0000
Subject: [PATCH 590/837] Disable flshattF and flshattB on ROCM

---
 xformers/ops/fmha/flash.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/flash.py b/xformers/ops/fmha/flash.py
index 49e708dc28..14a8335ec1 100644
--- a/xformers/ops/fmha/flash.py
+++ b/xformers/ops/fmha/flash.py
@@ -607,7 +607,10 @@ class FwOp(AttentionFwOpBase):
         implementation.
     """
 
-    OPERATOR = get_operator("xformers_flash", "flash_fwd")
+    if torch.version.hip:
+        OPERATOR = None
+    else:
+        OPERATOR = get_operator("xformers_flash", "flash_fwd")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     CUDA_MINIMUM_COMPUTE_CAPABILITY = (8, 0)
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
@@ -809,7 +812,10 @@ def operator_flop(
 class BwOp(AttentionBwOpBase):
     __doc__ = FwOp.__doc__
 
-    OPERATOR = get_operator("xformers_flash", "flash_bwd")
+    if torch.version.hip:
+        OPERATOR = None
+    else:
+        OPERATOR = get_operator("xformers_flash", "flash_bwd")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     CUDA_MINIMUM_COMPUTE_CAPABILITY = FwOp.CUDA_MINIMUM_COMPUTE_CAPABILITY
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES

From d72c2b31273f045598c41171d9824dac0b5f59e5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jul 2024 12:12:45 +0000
Subject: [PATCH 591/837] Update to support separate grad_q_f32_strides do to
 the API change in the fmd_bwd_kernel

---
 .../attention_backward_generic_ck_tiled.cpp   | 24 +++++++++++++++----
 .../hip_fmha/ck_tiled_fmha_batched_backward.h |  9 ++++---
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      |  4 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 12 ++++++----
 .../attention/hip_fmha/ck_tiled_fmha_params.h |  6 +++++
 5 files changed, 42 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 671540dcb0..11aa4fd052 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -159,9 +159,11 @@ efficient_attention_backward_ck(
   }
 
   at::Tensor grad_q_f32;
+  const bool use_grad_q_f32 =
+      (query.scalar_type() == at::ScalarType::BFloat16 ||
+       query.scalar_type() == at::ScalarType::Half);
 
-  if (query.scalar_type() == at::ScalarType::BFloat16 ||
-      query.scalar_type() == at::ScalarType::Half) {
+  if (use_grad_q_f32) {
     grad_q_f32 = at::empty_strided(
         grad_q.sizes(), grad_q.strides(), opts.dtype(at::kFloat));
     grad_q_f32.fill_(0);
@@ -233,8 +235,7 @@ efficient_attention_backward_ck(
     p.grad_k_ptr = is_mqa_gqa ? tmp_grad_k.data_ptr() : grad_k.data_ptr();
     p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
 
-    if (query.scalar_type() == at::ScalarType::BFloat16 ||
-        query.scalar_type() == at::ScalarType::Half)
+    if (use_grad_q_f32)
       p.grad_q_f32_ptr = grad_q_f32.data_ptr();
     else
       p.grad_q_f32_ptr = nullptr;
@@ -270,6 +271,14 @@ efficient_attention_backward_ck(
         static_cast<int>(logsumexp.stride(1)),
         static_cast<int>(logsumexp.stride(2))};
 
+    if (use_grad_q_f32) {
+      p.grad_q_f32_strides = {
+          static_cast<int>(grad_q_f32.stride(0)),
+          static_cast<int>(grad_q_f32.stride(1)),
+          static_cast<int>(grad_q_f32.stride(2)),
+          static_cast<int>(grad_q_f32.stride(3))};
+    }
+
     if (is_mqa_gqa) {
       p.grad_k_strides = {
           static_cast<int>(tmp_grad_k.stride(0)),
@@ -380,6 +389,13 @@ efficient_attention_backward_ck(
         static_cast<int>(logsumexp.stride(1)),
         static_cast<int>(logsumexp.stride(2))};
 
+    if (use_grad_q_f32) {
+      p.grad_q_f32_strides = {
+          static_cast<int>(grad_q_f32.stride(1)),
+          static_cast<int>(grad_q_f32.stride(2)),
+          static_cast<int>(grad_q_f32.stride(3))};
+    }
+
     if (is_mqa_gqa) {
       p.grad_k_strides = {
           static_cast<int>(tmp_grad_k.stride(1)),
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 98afe782b2..319ba6d5ce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -265,18 +265,19 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           param.Hq,
           param.Hq / param.Hkv,
           param.scale,
-          param.q_strides[1], // q, k, v, bias, do, dk, dv, dbias seq-dim
-                              // stride
+          param.q_strides[1], // q, k, v, bias, do, dq_f32, dk, dv, dbias
+                              // seq-dim stride
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[2],
           0, // stride_randval
           param.grad_out_strides[1],
+          NeedConvertGradQ ? param.grad_q_f32_strides[1] : param.q_strides[1],
           param.grad_k_strides[1],
           param.grad_v_strides[1],
           param.attn_bias_strides[2], // assume grad_bias has same strides as
                                       // bias
-          param.q_strides[2], // q, k, v, bias, do, lse/dot, dbias
+          param.q_strides[2], // q, k, v, bias, do, lse/dot, dq_f32, dbias
                               // nhead-dim strides
           param.k_strides[2],
           param.v_strides[2],
@@ -284,6 +285,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           0, // nhead_stride_randval
           param.grad_out_strides[2],
           param.lsed_strides[1],
+          NeedConvertGradQ ? param.grad_q_f32_strides[2] : param.q_strides[2],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
                                       // bias
           param.q_strides[0], // q, k, v, bias, do, lse/dot, dk, dv, dbias,
@@ -294,6 +296,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           0, // batch_stride_randval
           param.grad_out_strides[0],
           param.lsed_strides[0], // lse/dot is in BHM contiguous layout
+          NeedConvertGradQ ? param.grad_q_f32_strides[0] : param.q_strides[0],
           param.grad_k_strides[0],
           param.grad_v_strides[0],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index d5d15c05d1..239e09f22a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -172,7 +172,7 @@ struct FmhaBwdBlockDropoutMaker;
 
 template <ck_tile::index_t MaxK>
 struct FmhaBwdBlockDropoutMaker<false, MaxK> {
-  using dropout = ck_tile::BlockDropout<false, true, false>;
+  using dropout = ck_tile::BlockDropoutBwd<false, true, false>;
 };
 
 template <ck_tile::index_t MaxK>
@@ -180,5 +180,5 @@ struct FmhaBwdBlockDropoutMaker<true, MaxK> {
   using FmhaBwdShapeType = FmhaBwdShape<MaxK>;
   static constexpr bool IsWG32 =
       (FmhaBwdShapeType::Gemm0WarpTile::at(ck_tile::number<0>{}) == 32);
-  using dropout = ck_tile::BlockDropout<true, IsWG32, false>;
+  using dropout = ck_tile::BlockDropoutBwd<true, IsWG32, false>;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index ccf9e63706..e8f30b75ee 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -262,24 +262,28 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.Hq,
           param.Hq / param.Hkv,
           param.scale,
-          param.q_strides[0], // q, k, v, bias, do, dk, dv, dbias seq-dim
-                              // stride
+          param.q_strides[0], // q, k, v, bias, do, dq_f32, dk, dv, dbias
+                              // seq-dim stride
           param.k_strides[0],
           param.v_strides[0],
           param.attn_bias_strides[1],
           0, // stride_randval
           param.grad_out_strides[0],
+          NeedConvertGradQ ? param.grad_q_f32_strides[0]
+                           : param.grad_q_f32_strides[0],
           param.grad_k_strides[0],
           param.grad_v_strides[0],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
-                                      // bias
-          param.q_strides[1], // q, k, v, bias, do, lse/dot, dbias
+                                      // bias.
+          param.q_strides[1], // q, k, v, bias, do, lse/dot, dq_f32, dbias
                               // nhead-dim strides
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[0],
           0, // nhead_stride_randval
           param.grad_out_strides[1],
+          NeedConvertGradQ ? param.grad_q_f32_strides[1]
+                           : param.grad_q_f32_strides[1],
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 4b40730e9e..3d94060dd1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -132,6 +132,9 @@ struct BatchedBackwardParams {
   std::array<int, 4> grad_k_strides;
   std::array<int, 4> grad_v_strides;
 
+  // assume grad_q has same strides as q, but grad_q_f32 can be different
+  std::array<int, 4> grad_q_f32_strides;
+
   // BHM mode strides, completely contiguous
   std::array<int, 3> lsed_strides;
 
@@ -195,6 +198,9 @@ struct GroupedBackwardParams {
   std::array<int, 3> grad_k_strides;
   std::array<int, 3> grad_v_strides;
 
+  // assume grad_q has same strides as q, but grad_q_f32 can be different
+  std::array<int, 3> grad_q_f32_strides;
+
   // BHM mode strides, completely contiguous
   std::array<int, 3> lsed_strides;
 

From 5ddff31fda44fd8bd6e3885392ba3b6ca2d2e6de Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jul 2024 12:55:46 +0000
Subject: [PATCH 592/837] Use old method for setting BlockDropout due to the
 revert in fmha_fwd_kernel

---
 third_party/composable_kernel_tiled              |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h     |  6 ++----
 .../hip_fmha/ck_tiled_fmha_batched_infer.h       |  7 +++----
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h         | 16 ----------------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h     |  6 ++----
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h       |  7 +++----
 .../hip_fmha/ck_tiled_rand_uniform_kernel.h      |  2 +-
 7 files changed, 12 insertions(+), 34 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 99ed2c1ae3..ad3e94bbaa 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 99ed2c1ae326a68cec5597bb9ecea11aaaabe80b
+Subproject commit ad3e94bbaa000e206c1048b0da8e58ce5224b645
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 1b1a42b5f9..20c1b2c3ef 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -22,9 +22,6 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct batched_forward_causalmask_bias_dropout_dispatch {
-  using FmhaBlockDropout =
-      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -41,7 +38,6 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       false, // kIsGroupMode
       FmhaMask,
-      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -92,6 +88,7 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
+                kHasDropout,
                 false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 
@@ -166,6 +163,7 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
+          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 1501c4cf63..05d654dc31 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,9 +23,6 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct batched_infer_causalmask_bias_dropout_dispatch {
-  using FmhaBlockDropout =
-      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -42,7 +39,6 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       false, // kIsGroupMode
       FmhaMask,
-      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -92,6 +88,7 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
+                  kHasDropout,
                   false, // kDoFp8StaticQuant place-holder
                   occupancy>;
 
@@ -125,6 +122,7 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               false, // kStoreLSE
+              kHasDropout,
               false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
@@ -198,6 +196,7 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
+          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 4f3a18e26f..ddd91a6864 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -118,19 +118,3 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                typename FmhaFwdBlockTile<256>::gemm1_warps,
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
-
-template <bool kHasDropout, ck_tile::index_t MaxK>
-struct FmhaFwdBlockDropoutMaker;
-
-template <ck_tile::index_t MaxK>
-struct FmhaFwdBlockDropoutMaker<false, MaxK> {
-  using dropout = ck_tile::BlockDropout<false, true, false>;
-};
-
-template <ck_tile::index_t MaxK>
-struct FmhaFwdBlockDropoutMaker<true, MaxK> {
-  using FmhaFwdShapeType = FmhaFwdShape<MaxK>;
-  static constexpr bool IsWG32 =
-      (FmhaFwdShapeType::Gemm0WarpTile::at(ck_tile::number<0>{}) == 32);
-  using dropout = ck_tile::BlockDropout<true, IsWG32, false>;
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 8f0bf95b93..2fa305e0ad 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -22,9 +22,6 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct grouped_forward_causalmask_bias_dropout_dispatch {
-  using FmhaBlockDropout =
-      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -41,7 +38,6 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       true, // kIsGroupMode
       FmhaMask,
-      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -79,6 +75,7 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
+                kHasDropout,
                 false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 
@@ -161,6 +158,7 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob,
+          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 0946bdece4..5197a6cb16 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -23,9 +23,6 @@ template <
     bool kHasDropout,
     ck_tile::index_t MaxK>
 struct grouped_infer_causalmask_bias_dropout_dispatch {
-  using FmhaBlockDropout =
-      typename FmhaFwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
-
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -42,7 +39,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       FmhaFwdShape<MaxK>,
       true, // kIsGroupMode
       FmhaMask,
-      FmhaBlockDropout,
       FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -80,6 +76,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
+                  kHasDropout,
                   false, // kDoFp8StaticQuant place-holder
                   occupancy>;
 
@@ -126,6 +123,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
             kBiasEnum,
             false, // kHasBiasGrad place-holder
             false, // kStoreLSE
+            kHasDropout,
             false, // kDoFp8StaticQuant place-holder
             occupancy>;
 
@@ -204,6 +202,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob,
+          false, // is_store_randval
           {param.philox_seed, param.philox_offset});
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
index 4bcb8dd054..715d5e4bdf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
@@ -35,7 +35,7 @@ struct FmhaRandUniformKernel {
 
   using BlockGemm = decltype(GetBlockGemm());
 
-  using MyBlockDropout = ck_tile::BlockDropout<true, true, false>;
+  using MyBlockDropout = ck_tile::BlockDropout;
 
   static constexpr bool kPadSeqLenQ = true;
   static constexpr bool kPadSeqLenK = true;

From cf2b6224222528f5b0fc9c932ecd2e224260bee8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jul 2024 13:10:02 +0000
Subject: [PATCH 593/837] Tiny fix in grouped_backward

---
 .../attention/hip_fmha/ck_tiled_fmha_grouped_backward.h     | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index e8f30b75ee..586f9e2d07 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -269,8 +269,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.attn_bias_strides[1],
           0, // stride_randval
           param.grad_out_strides[0],
-          NeedConvertGradQ ? param.grad_q_f32_strides[0]
-                           : param.grad_q_f32_strides[0],
+          NeedConvertGradQ ? param.grad_q_f32_strides[0] : param.q_strides[0],
           param.grad_k_strides[0],
           param.grad_v_strides[0],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
@@ -282,8 +281,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.attn_bias_strides[0],
           0, // nhead_stride_randval
           param.grad_out_strides[1],
-          NeedConvertGradQ ? param.grad_q_f32_strides[1]
-                           : param.grad_q_f32_strides[1],
+          NeedConvertGradQ ? param.grad_q_f32_strides[1] : param.q_strides[1],
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias

From 112aaedd93988da0663a8fb4e8282047dd6612e7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jul 2024 13:50:30 +0000
Subject: [PATCH 594/837] Use packed tensor allocation for grad_q_f32

---
 .../attention/hip_fmha/attention_backward_generic_ck_tiled.cpp | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 11aa4fd052..d47982602c 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -164,8 +164,7 @@ efficient_attention_backward_ck(
        query.scalar_type() == at::ScalarType::Half);
 
   if (use_grad_q_f32) {
-    grad_q_f32 = at::empty_strided(
-        grad_q.sizes(), grad_q.strides(), opts.dtype(at::kFloat));
+    grad_q_f32 = at::empty(grad_q.sizes(), opts.dtype(at::kFloat));
     grad_q_f32.fill_(0);
   } else {
     grad_q.fill_(0);

From dd83c62b711ffa3c5499781f8c173a7d20b2b30f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jul 2024 15:05:36 +0000
Subject: [PATCH 595/837] Update to the ConvertGradQ kernel calling

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h   | 3 +++
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h   | 2 ++
 2 files changed, 5 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 319ba6d5ce..c36a185710 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -332,8 +332,11 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           param.N, // seqlen_k
           param.K, // headdim of q/k
           param.q_strides[1],
+          param.grad_q_f32_strides[1],
           param.q_strides[2],
+          param.grad_q_f32_strides[2],
           param.q_strides[0],
+          param.grad_q_f32_strides[0],
           0);
     }();
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 586f9e2d07..319a9c2765 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -318,7 +318,9 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.seqstart_k_dev_ptr,
           param.K, // headdim of q/k
           param.q_strides[1],
+          param.grad_q_f32_strides[1],
           param.q_strides[2],
+          param.grad_q_f32_strides[2],
           0);
     }();
 

From 3e9b99d48346e2d4c0cef3ab0f8388d7a0cb1e6e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 28 Jul 2024 16:06:30 +0000
Subject: [PATCH 596/837] Tiny update

---
 .../attention/hip_fmha/attention_backward_generic_ck_tiled.cpp | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index d47982602c..e9b53ce815 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -506,8 +506,7 @@ efficient_attention_backward_ck(
     p.grad_v_ptr = is_mqa_gqa ? tmp_grad_v.data_ptr() : grad_v.data_ptr();
     p.grad_bias_ptr = bias_requires_grad ? grad_bias.data_ptr() : nullptr;
 
-    if (query.scalar_type() == at::ScalarType::BFloat16 ||
-        query.scalar_type() == at::ScalarType::Half)
+    if (use_grad_q_f32)
       p.grad_q_f32_ptr = grad_q_f32.data_ptr();
     else
       p.grad_q_f32_ptr = nullptr;

From 019448e5996c749cccb21f9bd4ec31668e47c221 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 29 Jul 2024 15:20:48 +0000
Subject: [PATCH 597/837] Fix the parameter location in grouped_backward

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 319a9c2765..39ea20bb8d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -281,8 +281,8 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.attn_bias_strides[0],
           0, // nhead_stride_randval
           param.grad_out_strides[1],
-          NeedConvertGradQ ? param.grad_q_f32_strides[1] : param.q_strides[1],
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
+          NeedConvertGradQ ? param.grad_q_f32_strides[1] : param.q_strides[1],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           param.lsed_strides[0], // batch_stride_lse

From c55966a64e4f32e51b3b22db496a8ec615f38526 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Aug 2024 07:15:51 +0000
Subject: [PATCH 598/837] Adjust headdim128 tile shapes for better performance

---
 .../attention/hip_fmha/ck_tiled_fmha_bwd_setting.h   | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 239e09f22a..9858c50629 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -73,7 +73,7 @@ struct FmhaBwdBlockTile<64> {
 template <>
 struct FmhaBwdBlockTile<128> {
   using tile_lengths =
-      ck_tile::sequence<32, 128, 128, 32, 128, 32, 32, 128, 128>;
+      ck_tile::sequence<16, 128, 128, 16, 128, 16, 32, 128, 128>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
   using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
@@ -127,15 +127,15 @@ template <>
 struct FmhaBwdShape<128> : ck_tile::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<128>::tile_lengths,
                                typename FmhaBwdBlockTile<128>::gemm02_warps,
-                               FmhaBwdWarpTile1,
+                               FmhaBwdWarpTile2,
                                typename FmhaBwdBlockTile<128>::gemm13_warps,
-                               FmhaBwdWarpTile1,
+                               FmhaBwdWarpTile3,
                                typename FmhaBwdBlockTile<128>::gemm02_warps,
-                               FmhaBwdWarpTile1,
+                               FmhaBwdWarpTile2,
                                typename FmhaBwdBlockTile<128>::gemm13_warps,
-                               FmhaBwdWarpTile1,
+                               FmhaBwdWarpTile3,
                                typename FmhaBwdBlockTile<128>::gemm4_warps,
-                               FmhaBwdWarpTile1> {};
+                               FmhaBwdWarpTile2> {};
 
 template <>
 struct FmhaBwdShape<256> : ck_tile::TileFmhaBwdShape<

From e22829ab19dda93d2d87504f607b5173831c8990 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Aug 2024 07:56:50 +0000
Subject: [PATCH 599/837] Update backward kernel calling due to adding of
 nhead_stride_dk/nhead_stride_dv parameters

---
 third_party/composable_kernel_tiled                         | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_backward.h     | 6 ++++--
 .../attention/hip_fmha/ck_tiled_fmha_grouped_backward.h     | 6 ++++--
 3 files changed, 9 insertions(+), 5 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index ad3e94bbaa..5d2a5a1131 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit ad3e94bbaa000e206c1048b0da8e58ce5224b645
+Subproject commit 5d2a5a1131ab8c8a340010f32c8a8f2c3c5566d8
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index c36a185710..6725a47607 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -277,8 +277,8 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           param.grad_v_strides[1],
           param.attn_bias_strides[2], // assume grad_bias has same strides as
                                       // bias
-          param.q_strides[2], // q, k, v, bias, do, lse/dot, dq_f32, dbias
-                              // nhead-dim strides
+          param.q_strides[2], // q, k, v, bias, do, lse/dot, dq_f32, dk, dv,
+                              // dbias nhead-dim strides
           param.k_strides[2],
           param.v_strides[2],
           param.attn_bias_strides[1],
@@ -286,6 +286,8 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           param.grad_out_strides[2],
           param.lsed_strides[1],
           NeedConvertGradQ ? param.grad_q_f32_strides[2] : param.q_strides[2],
+          param.grad_k_strides[2],
+          param.grad_v_strides[2],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
                                       // bias
           param.q_strides[0], // q, k, v, bias, do, lse/dot, dk, dv, dbias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 39ea20bb8d..5617880cde 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -274,8 +274,8 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.grad_v_strides[0],
           param.attn_bias_strides[1], // assume grad_bias has same strides as
                                       // bias.
-          param.q_strides[1], // q, k, v, bias, do, lse/dot, dq_f32, dbias
-                              // nhead-dim strides
+          param.q_strides[1], // q, k, v, bias, do, lse/dot, dq_f32, dk, dv,
+                              // dbias nhead-dim strides
           param.k_strides[1],
           param.v_strides[1],
           param.attn_bias_strides[0],
@@ -283,6 +283,8 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.grad_out_strides[1],
           param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
           NeedConvertGradQ ? param.grad_q_f32_strides[1] : param.q_strides[1],
+          param.grad_k_strides[1],
+          param.grad_v_strides[1],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
           param.lsed_strides[0], // batch_stride_lse

From cae1b77de3b578051d2ba1bfe44094b39df3c95d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 5 Aug 2024 10:08:28 +0000
Subject: [PATCH 600/837] Synchronize with CK to use separate pipeline for
 kPadHeadDim true of false situtation

---
 third_party/composable_kernel_tiled               |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h     |  3 ++-
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h          | 15 ++++++++++++++-
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h     |  3 ++-
 4 files changed, 19 insertions(+), 4 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 5d2a5a1131..25db133926 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 5d2a5a1131ab8c8a340010f32c8a8f2c3c5566d8
+Subproject commit 25db1339265fa020d457e13d8440786d647fcc23
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 6725a47607..4fb5f70860 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -133,7 +133,8 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
               FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
 
           constexpr auto FmhaBwdPipelineEnum_ =
-              FmhaBwdPipelineEnumSelector<MaxK>::value;
+              FmhaBwdPipelineEnumSelector<MaxK, kPadHeadDim, kPadHeadDim>::
+                  value;
 
           using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
               FmhaBwdPipelineEnum_,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 9858c50629..64f16dbb5f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -151,12 +151,18 @@ struct FmhaBwdShape<256> : ck_tile::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<256>::gemm4_warps,
                                FmhaBwdWarpTile2> {};
 
-template <ck_tile::index_t MaxK>
+template <ck_tile::index_t MaxK, bool kPadHeadDimQK, bool kPadHeadDimV>
 struct FmhaBwdPipelineEnumSelector {
   static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
       ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR;
 };
 
+template <ck_tile::index_t MaxK>
+struct FmhaBwdPipelineEnumSelector<MaxK, false, false> {
+  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
+      ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP;
+};
+
 template <ck_tile::BlockFmhaBwdPipelineEnum value, typename problem>
 struct FmhaBwdPipelineMaker;
 
@@ -167,6 +173,13 @@ struct FmhaBwdPipelineMaker<
   using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVR<problem>;
 };
 
+template <typename problem>
+struct FmhaBwdPipelineMaker<
+    ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP,
+    problem> {
+  using pipeline = ck_tile::BlockFmhaBwdDQDKDVPipelineKRKTRVRIGLP<problem>;
+};
+
 template <bool kHasDropout, ck_tile::index_t MaxK>
 struct FmhaBwdBlockDropoutMaker;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 5617880cde..599bfac68c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -130,7 +130,8 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
               FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
 
           constexpr auto FmhaBwdPipelineEnum_ =
-              FmhaBwdPipelineEnumSelector<MaxK>::value;
+              FmhaBwdPipelineEnumSelector<MaxK, kPadHeadDim, kPadHeadDim>::
+                  value;
 
           using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
               FmhaBwdPipelineEnum_,

From e564f5e1a16f293e99553753b497af32994a0594 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 6 Aug 2024 10:19:08 +0000
Subject: [PATCH 601/837] Use convertDQ kernel

---
 .../attention_backward_generic_ck_tiled.cpp   | 10 ++-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 82 +++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 86 +++++++++----------
 3 files changed, 88 insertions(+), 90 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index e9b53ce815..0e84019594 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -545,11 +545,13 @@ efficient_attention_backward_ck(
     grad_v = tmp_grad_v_view.sum(3);
   }
 
-  if (inDataType == at::ScalarType::Half)
-    grad_q = grad_q_f32.to(torch::kFloat16);
+  /*
+    if (inDataType == at::ScalarType::Half)
+      grad_q = grad_q_f32.to(torch::kFloat16);
 
-  if (inDataType == at::ScalarType::BFloat16)
-    grad_q = grad_q_f32.to(torch::kBFloat16);
+    if (inDataType == at::ScalarType::BFloat16)
+      grad_q = grad_q_f32.to(torch::kBFloat16);
+  */
 
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 4fb5f70860..502ab4e9e7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -163,48 +163,46 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         });
       });
     };
-    /*
-        if constexpr (NeedConvertGradQ) {
-          constexpr ck_tile::index_t kBlockSize = 256;
-
-          const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
-          const bool pad_headdim_q =
-              !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
-
-          BOOL_SWITCH_2(
-              pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
-                constexpr ck_tile::index_t occupancy = 2;
-
-                using FmhaBwdConvertQGradTraits_ =
-                    ck_tile::TileFmhaBwdConvertQGradTraits<
-                        kPadSeqLenQ,
-                        kPadHeadDimQ,
-                        occupancy>;
-
-                using FmhaBwdConvertQGradPipelineProblem =
-                    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-                        typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                        typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
-                        kBlockSize,
-                        FmhaBwdShape<MaxK>::kM0,
-                        FmhaBwdShape<MaxK>::kN0,
-                        FmhaBwdShape<MaxK>::kQKHeaddim,
-                        false, // kIsGroupMode
-                        false, // kIsDeterministic
-                        FmhaBwdConvertQGradTraits_>;
-
-                using FmhaBwdConvertQGradPipeline =
-                    typename ck_tile::BlockFmhaBwdConvertQGrad<
-                        FmhaBwdConvertQGradPipelineProblem>;
-
-                using FmhaBwdConvertQGradKernel_ =
-                    ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
-
-                RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
-                    param, stream);
-              });
-        };
-    */
+    if constexpr (NeedConvertGradQ) {
+      constexpr ck_tile::index_t kBlockSize = 256;
+
+      const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
+      const bool pad_headdim_q =
+          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
+            constexpr ck_tile::index_t occupancy = 2;
+
+            using FmhaBwdConvertQGradTraits_ =
+                ck_tile::TileFmhaBwdConvertQGradTraits<
+                    kPadSeqLenQ,
+                    kPadHeadDimQ,
+                    occupancy>;
+
+            using FmhaBwdConvertQGradPipelineProblem =
+                ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+                    kBlockSize,
+                    FmhaBwdShape<MaxK>::kM0,
+                    FmhaBwdShape<MaxK>::kN0,
+                    FmhaBwdShape<MaxK>::kQKHeaddim,
+                    false, // kIsGroupMode
+                    false, // kIsDeterministic
+                    FmhaBwdConvertQGradTraits_>;
+
+            using FmhaBwdConvertQGradPipeline =
+                typename ck_tile::BlockFmhaBwdConvertQGrad<
+                    FmhaBwdConvertQGradPipelineProblem>;
+
+            using FmhaBwdConvertQGradKernel_ =
+                ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
+
+            RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
+                param, stream);
+          });
+    };
   }
 
   template <typename FmhaBwdOGradDotOKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 599bfac68c..8b0cd4dadf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -161,48 +161,46 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       });
     };
 
-    /*
-        if constexpr (NeedConvertGradQ) {
-          constexpr ck_tile::index_t kBlockSize = 256;
-
-          const bool pad_seqlen_q = true;
-          const bool pad_headdim_q =
-              !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
-
-          BOOL_SWITCH_2(
-              pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
-                constexpr ck_tile::index_t occupancy = 2;
-
-                using FmhaBwdConvertQGradTraits_ =
-                    ck_tile::TileFmhaBwdConvertQGradTraits<
-                        kPadSeqLenQ,
-                        kPadHeadDimQ,
-                        occupancy>;
-
-                using FmhaBwdConvertQGradPipelineProblem =
-                    ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
-                        typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                        typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
-                        kBlockSize,
-                        64, // kM0
-                        1, // kN0, no use
-                        FmhaBwdShape<MaxK>::kQKHeaddim,
-                        true, // kIsGroupMode
-                        false, // kIsDeterministic
-                        FmhaBwdConvertQGradTraits_>;
-
-                using FmhaBwdConvertQGradPipeline =
-                    typename ck_tile::BlockFmhaBwdConvertQGrad<
-                        FmhaBwdConvertQGradPipelineProblem>;
-
-                using FmhaBwdConvertQGradKernel_ =
-                    ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
-
-                RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
-                    param, stream);
-              });
-        };
-    */
+    if constexpr (NeedConvertGradQ) {
+      constexpr ck_tile::index_t kBlockSize = 128;
+
+      const bool pad_seqlen_q = true;
+      const bool pad_headdim_q =
+          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
+            constexpr ck_tile::index_t occupancy = 2;
+
+            using FmhaBwdConvertQGradTraits_ =
+                ck_tile::TileFmhaBwdConvertQGradTraits<
+                    kPadSeqLenQ,
+                    kPadHeadDimQ,
+                    occupancy>;
+
+            using FmhaBwdConvertQGradPipelineProblem =
+                ck_tile::BlockFmhaBwdConvertQGradPipelineProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::QGradDataType,
+                    kBlockSize,
+                    64, // kM0
+                    1, // kN0, no use
+                    FmhaBwdShape<MaxK>::kQKHeaddim,
+                    true, // kIsGroupMode
+                    false, // kIsDeterministic
+                    FmhaBwdConvertQGradTraits_>;
+
+            using FmhaBwdConvertQGradPipeline =
+                typename ck_tile::BlockFmhaBwdConvertQGrad<
+                    FmhaBwdConvertQGradPipelineProblem>;
+
+            using FmhaBwdConvertQGradKernel_ =
+                ck_tile::FmhaBwdConvertQGradKernel<FmhaBwdConvertQGradPipeline>;
+
+            RunWithBwdConvertQGradKernel<FmhaBwdConvertQGradKernel_>(
+                param, stream);
+          });
+    };
   }
 
   template <typename FmhaBwdOGradDotOKernel>
@@ -320,10 +318,10 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.seqstart_q_dev_ptr,
           param.seqstart_k_dev_ptr,
           param.K, // headdim of q/k
+          param.q_strides[0],
+          param.grad_q_f32_strides[0],
           param.q_strides[1],
           param.grad_q_f32_strides[1],
-          param.q_strides[2],
-          param.grad_q_f32_strides[2],
           0);
     }();
 

From b0437654803a36021e43c8399495a3061b0045be Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Aug 2024 09:29:48 +0000
Subject: [PATCH 602/837] Update to use unpadded lse layout

---
 third_party/composable_kernel_tiled            |  2 +-
 .../attention_backward_generic_ck_tiled.cpp    | 11 +++++------
 .../attention_forward_generic_ck_tiled.cpp     | 10 +++-------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h  |  6 ++----
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h   |  3 +--
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h     |  1 -
 .../attention/hip_fmha/ck_tiled_fmha_params.h  | 18 ++++++++++--------
 xformers/ops/fmha/ck.py                        |  1 +
 8 files changed, 23 insertions(+), 29 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 25db133926..e6c489df49 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 25db1339265fa020d457e13d8440786d647fcc23
+Subproject commit e6c489df4980e676af15010a9c26f1aaee270ef8
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 0e84019594..700adeba58 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -216,7 +216,7 @@ efficient_attention_backward_ck(
 
     TORCH_CHECK(p.B == logsumexp.size(0));
     TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.M <= logsumexp.size(2));
+    TORCH_CHECK(p.M == logsumexp.size(2));
 
     if (scale.has_value()) {
       p.scale = float(*scale);
@@ -353,9 +353,9 @@ efficient_attention_backward_ck(
     p.max_seqlen_q = *max_seqlen_q_;
     p.max_seqlen_k = *max_seqlen_k_;
 
-    TORCH_CHECK(p.num_batches == logsumexp.size(0));
-    TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.max_seqlen_q <= logsumexp.size(2));
+    // unpadded lse layout required
+    TORCH_CHECK(p.Hq == logsumexp.size(0));
+    TORCH_CHECK(p.M == logsumexp.size(1));
 
     if (scale.has_value())
       p.scale = float(*scale);
@@ -385,8 +385,7 @@ efficient_attention_backward_ck(
 
     p.lsed_strides = {
         static_cast<int>(logsumexp.stride(0)),
-        static_cast<int>(logsumexp.stride(1)),
-        static_cast<int>(logsumexp.stride(2))};
+        static_cast<int>(logsumexp.stride(1))};
 
     if (use_grad_q_f32) {
       p.grad_q_f32_strides = {
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index fb29c7d219..fa6e0127ab 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -316,18 +316,14 @@ efficient_attention_forward_ck(
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
-      // align the access of logsumexp by each thread-group in cache-line size
-      int aligned_seqlen_q = (p.max_seqlen_q + 15) / 16 * 16;
-      logsumexp = at::empty(
-          {p.num_batches, Hq, aligned_seqlen_q}, opts.dtype(at::kFloat));
+      logsumexp = at::empty({Hq, M}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
       p.lse_strides = {
           static_cast<int>(logsumexp.stride(0)),
-          static_cast<int>(logsumexp.stride(1)),
-          static_cast<int>(logsumexp.stride(2))};
+          static_cast<int>(logsumexp.stride(1))};
     } else {
       p.logsumexp_ptr = nullptr;
-      p.lse_strides = {0, 0, 0};
+      p.lse_strides = {0, 0};
     }
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 8b0cd4dadf..5ca27a0c51 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -219,8 +219,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.out_strides[0], // stride_o
           param.grad_out_strides[1], // nhead_stride_do
           param.out_strides[1], // nhead_stride_o
-          param.lsed_strides[1],
-          param.lsed_strides[0]); // batch_stride_d
+          param.lsed_strides[0]); // nhead_stride_d
     }();
 
     dim3 kGridSize = FmhaBwdOGradDotOKernel::GridSize(
@@ -280,13 +279,12 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           param.attn_bias_strides[0],
           0, // nhead_stride_randval
           param.grad_out_strides[1],
-          param.lsed_strides[1], // assume lse/dot is in BHM contiguous layout
+          param.lsed_strides[0], // assume lse/dot is in HM contiguous layout
           NeedConvertGradQ ? param.grad_q_f32_strides[1] : param.q_strides[1],
           param.grad_k_strides[1],
           param.grad_v_strides[1],
           param.attn_bias_strides[0], // assume grad_bias has same strides as
                                       // bias
-          param.lsed_strides[0], // batch_stride_lse
           0, // split_stride_dq_acc
           (param.window_size > 0) ? param.window_size - 1
                                   : -1, // window_left_size
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 2fa305e0ad..519a5ea89e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -150,9 +150,8 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
           param.v_strides[1],
           param.attn_bias_strides[1],
           0, // nhead_stride_randval
-          param.lse_strides[1],
+          param.lse_strides[0],
           param.out_strides[1],
-          param.lse_strides[0], // batch_stride_lse
           (param.window_size > 0) ? param.window_size - 1
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 5197a6cb16..d4a6c9dbda 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -196,7 +196,6 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
           0, // nhead_stride_randval
           0, // nhead_stride_lse
           param.out_strides[1],
-          0, // batch_stride_lse
           (param.window_size > 0) ? param.window_size - 1
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index 3d94060dd1..ce86f6df40 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -28,9 +28,6 @@ struct BatchedInferParams {
   std::array<int, 4> out_strides;
   std::array<int, 4> attn_bias_strides; // 4d tensor_view [B, H, M, N]
 
-  // BHM mode strides, completely contiguous
-  std::array<int, 3> lse_strides;
-
   const void* q_ptr;
   const void* k_ptr;
   const void* v_ptr;
@@ -49,6 +46,9 @@ struct BatchedForwardParams : public BatchedInferParams {
   int64_t philox_seed;
   int64_t philox_offset;
 
+  // BHM mode strides, completely contiguous
+  std::array<int, 3> lse_strides;
+
   // completely contiguous
   void* logsumexp_ptr;
 };
@@ -80,9 +80,6 @@ struct GroupedInferParams {
   // 4d tensor view [B, H, M, N]
   std::array<int, 4> attn_bias_strides;
 
-  // BHM mode strides, completely contiguous
-  std::array<int, 3> lse_strides;
-
   const void* q_ptr;
   const void* k_ptr;
   const void* v_ptr;
@@ -102,6 +99,10 @@ struct GroupedForwardParams : public GroupedInferParams {
   int64_t philox_seed;
   int64_t philox_offset;
 
+  // HM mode strides, completely contiguous, unpadded layout where M is
+  // concatten total seqlen_q for all batches
+  std::array<int, 2> lse_strides;
+
   // completely contiguous
   void* logsumexp_ptr;
 };
@@ -201,8 +202,9 @@ struct GroupedBackwardParams {
   // assume grad_q has same strides as q, but grad_q_f32 can be different
   std::array<int, 3> grad_q_f32_strides;
 
-  // BHM mode strides, completely contiguous
-  std::array<int, 3> lsed_strides;
+  // HM mode strides, completely contiguous, unpadded layout where M is
+  // concatten total seqlen_q for all batches
+  std::array<int, 2> lsed_strides;
 
   const void* q_ptr;
   const void* k_ptr;
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 2de81623cc..365ff76eb0 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -362,6 +362,7 @@ class BwOp(AttentionBwOpBase):
     SUPPORTS_DROPOUT = FwOp.SUPPORTS_DROPOUT
     SUPPORTS_CUSTOM_SCALE = FwOp.SUPPORTS_CUSTOM_SCALE
     SUPPORTS_DIFFERENT_VALUE_EMBED = FwOp.SUPPORTS_DIFFERENT_VALUE_EMBED
+    SUPPORTS_UNPADDED_LSE = True
     NAME = "ckB"
 
     _TEST_K: List[int] = [

From c9e7595a11e03aebc7c1805fc05c97fd58771b79 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Aug 2024 16:35:30 +0000
Subject: [PATCH 603/837] Add explicit headdim256 instances for fmha backward

---
 third_party/composable_kernel_tiled           |  2 +-
 .../ck_tiled_fmha_batched_backward_bf16.cpp   | 13 ++++++++++++
 .../ck_tiled_fmha_batched_backward_fp16.cpp   | 13 ++++++++++++
 .../ck_tiled_fmha_grouped_backward_bf16.cpp   | 13 ++++++++++++
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   | 13 ++++++++++++
 .../attention/hip_fmha/generate_instances.py  |  2 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp | 20 +++++++++++++++++++
 54 files changed, 1014 insertions(+), 2 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index e6c489df49..0178da6f50 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit e6c489df4980e676af15010a9c26f1aaee270ef8
+Subproject commit 0178da6f5071171df3362bb9d419b4da0feb3765
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
index a9e17ee73a..1215498e92 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
@@ -89,6 +89,19 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_ti
     BatchedBackwardParams& param, hipStream_t stream);
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_backward_bf16(BatchedBackwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index 17c4aa9d33..e1f442c2fc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -89,6 +89,19 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_ti
     BatchedBackwardParams& param, hipStream_t stream);
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
index 5d08a4d72d..2f04ca0b27 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
@@ -89,6 +89,19 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_ti
     GroupedBackwardParams& param, hipStream_t stream);
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_backward_bf16(GroupedBackwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index 266cd0ad19..8d97bc1802 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -89,6 +89,19 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_ti
     GroupedBackwardParams& param, hipStream_t stream);
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
 // clang-format on
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 4abd46ec51..1a5033f974 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -175,7 +175,7 @@ def create_backward_instances(instance_dir: Path) -> None:
             for has_causalmask in [True, False]:
                 for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
                     for has_dropout in [True, False]:
-                        for max_k in [32, 64, 128]:
+                        for max_k in [32, 64, 128, 256]:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..a92e5f8cb7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..0928f59bb9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..670b672e9c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..b3e989122b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..a0bf3f96a1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..53e5698cbb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..94e149aac4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..7260605ba5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..dd83434ae8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..ab068fd9f9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..f8709cb22f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..b5293053e1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..9ff4c121f6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..e853353383
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..743c74a295
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..84f934fffe
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..3683f701f7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..a48129acd7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..96e8fe198d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..380446dcc7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..2d8fb4f548
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..934253c9cc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..de8a13a8aa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..3d7b4d235c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..bf91a8aae1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..bf8cc800d7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..6132497686
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..a7987553bd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..f71a97734d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..8986817c2e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..677b48f179
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..4031048c9d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..9287971e72
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..918db4a7d7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..06f4dfdee4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..046695fa2d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..1955fc406f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..9958105c92
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..e45e7a153c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..4f8264bbf9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..7a642504b0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..f77bf801ba
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..b9eb3e9271
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..5620850df3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..d21c1beeb7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..577345d8ef
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..267270591b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
new file mode 100644
index 0000000000..e2f0e69e2e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);

From 4a7b7dc97babe923a2710a849e3bd5b76fee03b5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Aug 2024 16:55:10 +0000
Subject: [PATCH 604/837] Add leaked headdim256 instance references

---
 .../ck_tiled_fmha_batched_backward_bf16.cpp         | 13 +++++++++++++
 .../ck_tiled_fmha_batched_backward_fp16.cpp         | 13 +++++++++++++
 .../ck_tiled_fmha_grouped_backward_bf16.cpp         | 13 +++++++++++++
 .../ck_tiled_fmha_grouped_backward_fp16.cpp         | 13 +++++++++++++
 4 files changed, 52 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
index 1215498e92..fdec15de2c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
@@ -90,6 +90,19 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_ti
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 256>(
     BatchedBackwardParams& param, hipStream_t stream);
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 256>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index e1f442c2fc..e795eb9d36 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -90,6 +90,19 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_ti
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
     BatchedBackwardParams& param, hipStream_t stream);
 
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 256>(
+    BatchedBackwardParams& param, hipStream_t stream);
+
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 256>(
     BatchedBackwardParams& param, hipStream_t stream);
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 256>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
index 2f04ca0b27..4250bba475 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
@@ -90,6 +90,19 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_ti
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 256>(
     GroupedBackwardParams& param, hipStream_t stream);
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 256>(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index 8d97bc1802..baca243876 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -90,6 +90,19 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_ti
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
     GroupedBackwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 256>(
+    GroupedBackwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 256>(
     GroupedBackwardParams& param, hipStream_t stream);
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 256>(

From 1ad9cbeeaa277980ecd312c534bbdd8e0e545af3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Aug 2024 18:03:11 +0000
Subject: [PATCH 605/837] Change to generate.py and the re-generate the
 instance files using it

---
 .../attention/hip_fmha/generate_instances.py  | 48 +++++++++++++------
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  3 +-
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  3 +-
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  3 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  3 +-
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_128.cpp |  3 +-
 ...usalmask_has_bias_has_dropout_maxk_256.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_32.cpp |  3 +-
 ...ausalmask_has_bias_has_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_has_bias_no_dropout_maxk_256.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_32.cpp |  3 +-
 ...causalmask_has_bias_no_dropout_maxk_64.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_128.cpp |  3 +-
 ...ausalmask_no_bias_has_dropout_maxk_256.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_32.cpp |  3 +-
 ...causalmask_no_bias_has_dropout_maxk_64.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_128.cpp |  3 +-
 ...causalmask_no_bias_no_dropout_maxk_256.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_32.cpp |  3 +-
 ..._causalmask_no_bias_no_dropout_maxk_64.cpp |  3 +-
 449 files changed, 930 insertions(+), 462 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 1a5033f974..0975520ef0 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -8,9 +8,9 @@
 import os
 from pathlib import Path
 
-FMHA_INSTANCE_HEADER = """
+FMHA_COPYRIGHT_HEADER = """
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -19,11 +19,13 @@
  */
 """
 
-FMHA_INFER_INSTANCE_TEMPLATE = """
+FMHA_INFER_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_infer.h\"
+"""
 
-template void run_{mode}_infer_causalmask_bias_dropout_dispatch<
+FMHA_INFER_INSTANCE_TEMPLATE = """
+{extern}template void run_{mode}_infer_causalmask_bias_dropout_dispatch<
     {dtype},
     {has_causalmask},
     {has_bias},
@@ -34,11 +36,13 @@
 FMHA_INFER_INSTANCE_FNAME = "fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_"\
                             "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
-FMHA_FORWARD_INSTANCE_TEMPLATE = """
+FMHA_FORWARD_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_forward.h\"
+"""
 
-template void run_{mode}_forward_causalmask_bias_dropout_dispatch<
+FMHA_FORWARD_INSTANCE_TEMPLATE = """
+{extern}template void run_{mode}_forward_causalmask_bias_dropout_dispatch<
     {dtype},
     {has_causalmask},
     {has_bias},
@@ -49,11 +53,13 @@
 FMHA_FORWARD_INSTANCE_FNAME = "fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_"\
                               "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
-FMHA_BACKWARD_INSTANCE_TEMPLATE = """
+FMHA_BACKWARD_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
 #include \"ck_tiled_fmha_{mode}_backward.h\"
+"""
 
-template void run_{mode}_backward_causalmask_bias_dropout_dispatch<
+FMHA_BACKWARD_INSTANCE_TEMPLATE = """
+{extern}template void run_{mode}_backward_causalmask_bias_dropout_dispatch<
     {dtype},
     {has_causalmask},
     {has_bias},
@@ -65,6 +71,8 @@
 FMHA_BACKWARD_INSTANCE_FNAME = "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"\
                                "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
+FMHA_INSTANCE_REF_FNAME = "fmha_{mode}_{function}_{dtype}.hpp"
+
 BOOL_MAP = {
     True : "true",
     False : "false"
@@ -128,9 +136,13 @@ def create_infer_instances(instance_dir: Path) -> None:
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
                             )
-                            infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
+                            infer_instance_inc = FMHA_INFER_INSTANCE_TEMPLATE_INC.format(
                                 mode=mode,
                                 dtype_file=TYPE_FNAME_MAP[dtype],
+                            )
+                            infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
+                                extern="",
+                                mode=mode,
                                 dtype=TYPE_CTYPE_MAP[dtype],
                                 has_causalmask=BOOL_MAP[has_causalmask],
                                 has_bias=BOOL_MAP[has_bias],
@@ -138,7 +150,7 @@ def create_infer_instances(instance_dir: Path) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + infer_instance_inc + "\n" + infer_instance)
 
 
 def create_forward_instances(instance_dir: Path) -> None:
@@ -156,9 +168,13 @@ def create_forward_instances(instance_dir: Path) -> None:
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
                             )
-                            infer_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
+                            forward_instance_inc = FMHA_FORWARD_INSTANCE_TEMPLATE_INC.format(
                                 mode=mode,
                                 dtype_file=TYPE_FNAME_MAP[dtype],
+                            ) 
+                            forward_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
+                                extern="",
+                                mode=mode,
                                 dtype=TYPE_CTYPE_MAP[dtype],
                                 has_causalmask=BOOL_MAP[has_causalmask],
                                 has_bias=BOOL_MAP[has_bias],
@@ -166,7 +182,7 @@ def create_forward_instances(instance_dir: Path) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + forward_instance_inc + "\n" + forward_instance)
 
 
 def create_backward_instances(instance_dir: Path) -> None:
@@ -185,9 +201,13 @@ def create_backward_instances(instance_dir: Path) -> None:
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
                             )
-                            infer_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
+                            backward_instance_inc = FMHA_BACKWARD_INSTANCE_TEMPLATE_INC.format(
                                 mode=mode,
                                 dtype_file=TYPE_FNAME_MAP[dtype],
+                            )
+                            backward_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
+                                extern="",
+                                mode=mode,
                                 dtype=TYPE_CTYPE_MAP[dtype],
                                 has_causalmask=BOOL_MAP[has_causalmask],
                                 has_bias=BOOL_MAP[has_bias],
@@ -196,7 +216,7 @@ def create_backward_instances(instance_dir: Path) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_INSTANCE_HEADER + infer_instance)
+                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + backward_instance_inc + "\n" + backward_instance)
 
 
 if __name__ == "__main__":
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 97f209cb64..39232e65d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index a92e5f8cb7..76157bf991 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 5c0e89e217..4b774cf684 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 5e33924930..c8ba202be1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index ae9158e219..6742fb5923 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 0928f59bb9..b0615cb138 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index dfc929276c..dc1dfba3ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index a915f8aa50..85560dae39 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 7e17c92982..45ee4fd6d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 670b672e9c..cc4febe219 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 8d980af345..77f5824dd3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index be31aa59b2..0943e233ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 7ea9cb0a90..59206114fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index b3e989122b..1170edbe5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a2a9dd4d6d..fa0ad59b7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 594a62ff50..4a14da0807 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 0307f9ab2c..5c5af08afc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index a0bf3f96a1..1edf2b647a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 5a7cd479a2..c13203a0c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index e1280f6d28..edf535c0b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 04a107af45..b3a8f1a3be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 53e5698cbb..d0475fb796 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 0a41a2f276..6d0f48867b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 49d6b9641f..4d60a85897 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index f5ce7c5bbd..0100f090f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 94e149aac4..1f3bb92cba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 41ff265c73..04db3afad0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index f6b7766504..e18a4bd4af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 7f4013aaf1..5df78e1ece 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 7260605ba5..323d799b59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 5241a1b1f1..82b8af2acc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index f5ee944ebf..573826492e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 8ab3f930c7..3ba12bc999 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index dd83434ae8..5d0025622e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c757b7d353..17ed225945 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 4b3d9f2566..fd4ba2dfdc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 03455ee6e7..4cb2218766 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index ab068fd9f9..00091e827d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 48a5015399..24eb9cf988 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d73c780a6e..77008bcf5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index c0636a9054..16c697a851 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index f8709cb22f..9ee060f32f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 3da3474df8..16628b31b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 6ed11608db..0c47e21db0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 3cca920f5e..65b0a11e84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index b5293053e1..7e1d1835df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 6383d494ef..52c1f82bf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 585dc69f34..3ae27d64cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 6ca73178d9..6bda7dca0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 9ff4c121f6..62bb4da515 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 95218766ef..2c6f316417 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index bf092ff962..85e8c719f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 394bbbe28f..dbfc26d1ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index e853353383..c18a7439ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index ea38845571..b989377a5d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 4596bfd7f0..0c0fe40d9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index e1d72bc58f..537e9e0fa8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 743c74a295..dece0aa4ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 96f62e9ac9..79f162f272 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index dd72c62f2f..d9c163f845 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a0d7a83d9b..37f622753c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 84f934fffe..1e312cf7fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index e2d01f97ed..03cb14d16e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d5378b3f3f..fdd5cc6c54 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 02c8c9bc52..ffa0b948ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 3683f701f7..e77bb21e94 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 8057c759e2..c0f9ee654a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index af6091b252..0824368908 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 3fc748ff2f..478e393150 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a48129acd7..3c66588974 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index b9b6aacfe1..58cb8d4272 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 8b667d2f7b..04a808a3a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index df1e6c3c0d..6291955c3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 96e8fe198d..3a445cab98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index f415d94649..05a23fe817 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index ff8d33f214..eed061f455 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 41da7ab903..04da2d7f97 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 380446dcc7..0971c2582b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 340fb65eed..60ef436f65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index be7f2144d0..568c619f91 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 0932fbb120..19e27101a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 2d8fb4f548..c13031bcdd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index eaafd99490..c9716e3a16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 02cf83abac..fb4b254925 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 51bd8bedb2..045baff410 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 934253c9cc..5a9b9b630e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 7f999c203a..6e7b5e211b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 3ad4108615..68ccee8e7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 90572aabf7..d3dbae9d5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index de8a13a8aa..8762b721b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 9c00008201..b85e7c5a59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 13902640df..d691bcaec0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 82849155ef..408729a17a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 3d7b4d235c..50d5649276 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 81636cea6f..5855ede140 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 97775f0e26..b329eeca0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
+
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 5a639ee11b..bd85a5fdc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 29cf57025f..2529a096f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index c60d415d4b..3bde17cb3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index f6291e2db6..50ff42476b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index caec04c719..44cd6d4d95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index ae29f02a32..04934417a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 71eda93e90..29d7743169 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index aa31f0f845..f7a6fed93d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 551c4eb676..73e6a902a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 1d6e78baf6..f199398c51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 278f6d358c..bfac0e7292 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 18e12c0a46..bdbb9f67a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index d393e26c33..a02390265f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index e5e99ede06..6cf0c876c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 672b58be14..a4e1acd3b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index ed42d7c0bd..42c97b8cc2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 7e71f6b27b..dd1b221598 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 5f0af8c18d..c5cc1590f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3aac80d512..ee0cc1d993 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 8018e467f4..14142b105d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 0266d3a367..275fd42c11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index d327faf638..5fd2142976 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index af2c6e8de8..4decc0120d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 722dc77bb1..3fd53bff1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 9ab840b673..1b2c2d7432 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 6b6c4b6a1a..4f27dd5af5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index afd3bcfc3b..b6e8741bce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index a349964c09..3ab275d8b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 03eb236cc1..84a92844cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 19dc010e44..d381d71904 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 14272770f6..37d55967f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index bf7aefc53a..afc8a232ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 6e2e94259e..faef825e7b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index e08bb00a1b..846e10f692 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 96de7b864a..6b5be61df3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index f82f2b4712..84a34acd4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 60eda29ce7..4ed15b2319 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 9cb7c591b5..378ccb4008 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index effc47a630..5b99bd8613 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 477ec5f36b..a43b7f87e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index b75a4f46f3..50627005f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 322d9c2e22..b98232fdae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 77fb6a6042..b594cf6e4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 57214e6f38..f18fba3bc2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 3b4f1be349..5ba04db663 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index afc858efb3..6828d19a00 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index bdf207633e..e75c9823d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index ea656db19d..49cce8e9d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 5d65d7ae79..cccd03ce4d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 709138805f..73fff51b86 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index c50e52c865..d8ab68fa47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 1808842fc1..807f27935a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 367c420a44..5695adc9cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 8f213bfef6..fb68f8181f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index fd5da6b770..ba89bc3ee6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 70e0723bb6..3e3f6ec502 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 4f8e39ac1c..10871d7cec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 3d3be36e9d..56e2dce4be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 21aae8f7cf..b37f432d39 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 514a01a39d..81962fc300 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index c67d1c6532..56e6306f24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 8100363256..11bcea176b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 7dda46c89e..660e701852 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 2392b94989..69596971ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
+
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 74743b0244..ebca11eb36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 20290bab81..5601af4e0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index ab3225bd44..daa20d6919 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 3104427260..0f5bbf5dce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index af36d315e0..884dffccdd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index b25e1be080..05d0edb570 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 5e660a8ea2..40ee28738b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 39153d92fa..9ad0b9fab1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index bf3c3f21a0..a4e20b1cd5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index e9c1c05515..2132bab644 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index e35a1e7a59..7933827a89 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 577972843d..2bf8f82a1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index bb48b49d25..2fbbf6236d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index d13429529a..d1180dd33e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 5d44df43a8..2c56e4e561 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index aadd0fcca8..e079e07486 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 034275f69a..0d9d667e1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index c922b00c0f..2e0b100ee4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 8edd6fed56..b2712fce62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index e2d8ba1013..19321447a7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 9e9adf31d1..8d33e6d0aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 306829eaf4..1a77a9ed26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 8bfc621041..14f62535a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index fe81acab4c..ed8caf20d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index bcf5b783f5..a3b553aaa2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index ba5a414507..c645172e7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 9cac1c3af7..a925044586 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index e31ed43624..a6d9ec1ee6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 9f52f52bee..2d3f4711c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 9ba93c82c4..4e87793d60 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index fec45193d2..b627025e53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 571f8ad489..ff2957c10c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 76447cfefc..c5cf71b097 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 94e2e0dfc0..3cda93ebd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 432d955b79..d99c733b47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 173d18aaf3..e0e604f1c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 7661a50d3e..9148a2624f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index b3e43957f9..45d96f13dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index f54aa9ef4d..a0096a6d71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 17f4018c3e..a16e08a30b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index d5ea02d7c4..5adffd0565 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 2e4a6769e6..7004a13a62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 6caae1a75a..f8cad2c3ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index c01f1105b7..1270dd2ea6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 4e146ec417..647c507925 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index e5bc54c2cf..a85a5360d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index ac3f5d0823..3c12b1e8a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 3f39b0323f..fa214ebf72 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 7440bc503a..3d12babd5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index efaf984726..5231f0d2e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 0820075e55..97c433883e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 89dace1959..b744f412bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 95f57c0996..e9701e2dbb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index c8ac553296..0756106348 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 10a261f3d0..ab5423bfd6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 721145717a..6a08c4772c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index be31000822..44a3a6a76f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 7c70e53b9a..8444c310e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 75f733259f..3cb04e9d37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 50507e69c0..ea7862776b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 9310405485..809acb6e9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index a1a08d4d51..59c1812b0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 2007060668..23c34e3854 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 9db0403636..3f5085b298 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
+
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 72fec28371..da52b4524b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index bf91a8aae1..1e61eb1e16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 5b3551d3ba..136309d34d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index c9ca1a5594..06c6d32525 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 09daabcfac..10edbf6c02 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index bf8cc800d7..0c8ebfca64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 0bc6056770..d43472c5c1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 4896101714..2002eecd6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 3e9ba0cba0..ae5874ec2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 6132497686..8436316d17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 3e13c1b17b..fc0a04b314 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index b5023fdc82..f94f947a7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 7c3a7a165c..875c8acfdf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a7987553bd..ec424034e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 73cd48382e..75c82d3856 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f9163241f4..1ac2b6c686 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 55fa67c3d9..4d99c381d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index f71a97734d..b39de523c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 3549f1148a..57bfe1e9b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index e8735e590b..671cf1f5ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 43586d91c4..8d80448325 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 8986817c2e..646e3dc930 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 6e6e44a157..e3be7a2473 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 16c69fc8fd..aace937981 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index c590ef5a43..22e1faa7b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 677b48f179..6f43a6f296 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 6e283c09fd..00b6b1fe2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 6d3aebee2e..8f635c6a98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 62da5b2b37..6ce4770a8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 4031048c9d..b19238d3e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 28184d9191..cfc0408701 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index a1cdf5607b..57280c0f37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 36a047ac75..38106adeda 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 9287971e72..a98415a603 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 3930123b24..142824508b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 60bd6d5c75..6d9ce75508 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 549983dc43..9f4f7944b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 918db4a7d7..05a9e830c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 8c32f736ff..469f7ee4ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index e4a8919ebe..bc76b94c5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d88c4a1e08..a504db1c5f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 06f4dfdee4..8a5e31b51b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 8aeb027879..f5c628c18d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a41d5eacea..2bc167aa74 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 324e1f0d0f..b06c9143e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 046695fa2d..a03c7b019b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 630e0f72cd..542c82ac22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index b2b7066dfd..02c6caf0cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 9f75440383..647dfed397 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 1955fc406f..8408f10e5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index ab6c752ab7..6f6baa1302 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 9881146056..fba9304bfa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 5393114240..c319c597a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 9958105c92..e3740d9231 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 34dd664717..e630b82b37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 88305d7de4..adaf820009 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 4ff2f792b2..ac94963dee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index e45e7a153c..39d892476c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 9534a7f50e..508db91ecb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 906dcd51b9..b83f716fde 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 926aadb7f0..864c547079 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 4f8264bbf9..b3c02ddb12 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 5c29ff3c02..dd433cf6ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 75684001ae..2b8bbd000a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 13e9959792..c234993595 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 7a642504b0..3e7281c9fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index d41ee2d194..f2bcef8220 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 702a3bf4f8..2c17644ac0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b450ef78d7..fa7b75bad0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index f77bf801ba..8b8d3e18cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index be18be1832..e4f6da1fd2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index b93c052618..03ce989bdd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index fc26a30255..dc4d9bce76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index b9eb3e9271..3197e15f42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 841cc31e53..7707a22baa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index f2865241c5..ec91dbaffa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 35edebe380..3d57e18f1f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 5620850df3..c851179feb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 8e0d32d5ab..3e0b2cefad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 573ec892b3..6630c3d74a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 33f9cace9b..18683ea06c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index d21c1beeb7..cf38ccdd0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 683918a99d..67e7fc14ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index e0c419d2fb..e4cb050b11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 52e41c45d0..a6f62c5ecd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 577345d8ef..faf27d95bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index acdf13265c..e7552bea0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 6729d5917e..43e0658b35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 0721159033..ff26b66be6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 267270591b..76a5236c1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 64ff3db39d..cbb0cdf167 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index f3acd7e173..7277f375a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index d78c567313..e1b1d55d69 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index e2f0e69e2e..bff0588147 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 06dc769b9e..9d0eb19ae6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 63928f3a23..80e3e5d310 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
+
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 55e21c75a0..8d3f1699a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 7c1c89f54c..872b8feb94 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 9453c7d2c2..e7e5561949 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 888c865cd2..fad634dd7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 1e12313707..1cee531602 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 03625b7793..b11085627e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index b99a04d7aa..78f288862a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 12c1b6a90e..14a9250aa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 42a6cea301..ea0d4e867b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 81d679689b..3eae57ea0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index e614abdaaa..de9de2f4b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 339f992552..f0309768d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 64b61826f5..716e34fe4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 4983a4ac1a..f4982d3b61 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index fa7649deab..f8bb2bf07d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 3a24474ba5..ba9874ee75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 57e895ae9b..0f9de69357 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index b975fa34c8..74ac7d90c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3be314a738..dfd68d0876 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 733debc015..0d83cb462e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index b762d178c2..008d2e68f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 7d8648a26d..254abd1fa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 28a21d93fb..38b336e010 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 2fe0721c64..efc6e40dec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 159489e9d0..49924fbf20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 507aabe2d6..ef83ee4452 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index db7d8ed176..535f3877a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index c95898882e..a89bc6bb4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 4c5395bed2..1276d65a6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 487acd8fa5..4a36334e45 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 913d55757d..3505c9a975 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 137da7aaf5..169fec04ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 68a75552a3..ce25186d36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 0603f0d1c7..f9633bbfd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 2ba93fcc18..e5292f882b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 4f95470a50..aa89d62e83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index c12483acf2..c34d945e06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index d2bb3b0f28..67690c1e5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 76752b2e61..d332e50ea3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 2658965bc7..6c9735dd13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 3715f9e40c..9b0e515e52 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index df210e2b1b..8a6aac9d42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 0acee77759..91d7974f7b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 91e6d0778b..ac69a855e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 4c2b6ca256..938d8a2ef1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 5a2df731ea..9f34327082 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 2492c47ea1..1f5470478b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 7cd86ff79c..8f30d330e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 8924464591..65fc8ffe9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index e6914af9d2..35b9221d94 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3acb390fe8..9c598402ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index b395d5671e..08ae9091b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index a65035381d..6c295a8f96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 547fef8b14..f1345945fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 8ec9165027..6c212f9ada 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 1f3195d6e6..d934dad1bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 1498a7d094..36e76fb541 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 858d55e001..56ada77425 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 72b4db4f80..fdc02134c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 237cbc71c3..c38442bc5d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index a40d4a3a30..c31359a772 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 9fb5462a06..b57f76adbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 832ee6f82f..377af23687 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index beaaaf75a3..ab938eea33 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
+
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 23927f8965..04f8ae8996 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 7e0495247c..3655443b75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 59224bc657..6a2a642e78 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 2917ab5d0b..5974a22123 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index ea651303ef..c84e495cf4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index f1b6c27626..ff6371c158 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 631b007f7f..0cdc2d375f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 6bf62e163f..0517654c3f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index e9d80dcbac..5dc1e3bab8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 629111cc2f..66eaffcd54 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 03a582a51d..92af05353e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 8866842c56..2e385804d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 0fc722d97a..98a64ebd6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index d7654bcdb1..427f2b4b63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index aa8b341c51..74a0ad136c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 14d6da36b5..b9b2f4c8ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 2f4a65c579..f04438d2a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index f7f7bde51d..62edc1a2e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3833d791c5..34d6468ced 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index b2c7d4be19..c023c19de2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index ab22cec477..dc133776e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 198837822d..4a1db9bf0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 45d86f18ad..9a8ace4a0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index be4cceb0c2..e12cd3fff3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index af14ace8f1..171ed578ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 00fbb2563c..b442ee2da7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index e7c4b053e2..9fb4d0631f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index c9d263f8fd..71ee24859f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index da5ce48b56..6f4707b358 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 4cac3c509c..02bdcc4836 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index eacbac2876..c8f5664462 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index e33f527179..b55f1e153d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index c604204d20..f911866e5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index f4623e6645..887a479675 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index cb44bd3e65..3b3d764be3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 0f0e5290d7..dd2ea0a10d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 9b486ea34d..a86b9a983d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 2154e1485d..931d97d471 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 4d526353a6..d7b05ee2e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index bc14f586d1..ff4b486a07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 98567089a7..e614c73659 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 26211bc694..187935111c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 72722bcf8d..1d2f32df24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index c706a640cc..fc33014b38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 58107a965e..84a2d66ae4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 2b2c794f59..c5ef23857c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index e8e3110f91..d5d35804a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index c50ad6f4e7..31407a74fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 60e20d7445..1537f93de8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index e4eeebfcbd..b3904f8519 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 4b54aa5629..bdd98997f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 66e02cd502..698d72e959 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 1c42f4206f..ad78bc332e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 46b4bd2884..55b72d8fbb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 2ec8996f45..e5d2cb44b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 5e2a114a75..ee7d81328f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 88ad1f8ddf..68bcf15e3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index c536e0970e..80021085e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 0c927196b6..14d9421658 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index e84f94f35d..39ce50cdaf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 94db8d5d9c..6ba0e05509 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 61abbbf366..6d2e6831f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 2a7b8f2566..ffcf316fd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index d5b1bd1800..e50bbb87f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -1,6 +1,6 @@
 
 /*
-  Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,6 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
+
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,

From 7db2aa43112b04a61ea827a316a9896f35e24050 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 7 Aug 2024 18:57:21 +0000
Subject: [PATCH 606/837] Change to generate.py to generate instances refences
 and uses the generated reference headers

---
 .../ck_tiled_fmha_batched_backward_bf16.cpp   | 106 +----
 .../ck_tiled_fmha_batched_backward_fp16.cpp   | 106 +----
 .../ck_tiled_fmha_batched_forward_bf16.cpp    |  74 +---
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |  74 +---
 .../ck_tiled_fmha_batched_infer_bf16.cpp      |  74 +---
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  74 +---
 .../ck_tiled_fmha_grouped_backward_bf16.cpp   | 106 +----
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   | 106 +----
 .../ck_tiled_fmha_grouped_forward_bf16.cpp    |  74 +---
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |  74 +---
 .../ck_tiled_fmha_grouped_infer_bf16.cpp      |  74 +---
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  74 +---
 .../attention/hip_fmha/generate_instances.py  | 102 ++++-
 ...ha_batched_backward_bf16_instances_ref.hpp | 396 ++++++++++++++++++
 ...ha_batched_backward_fp16_instances_ref.hpp | 396 ++++++++++++++++++
 ...mha_batched_forward_bf16_instances_ref.hpp | 236 +++++++++++
 ...mha_batched_forward_fp16_instances_ref.hpp | 236 +++++++++++
 .../fmha_batched_infer_bf16_instances_ref.hpp | 236 +++++++++++
 .../fmha_batched_infer_fp16_instances_ref.hpp | 236 +++++++++++
 ...ha_grouped_backward_bf16_instances_ref.hpp | 396 ++++++++++++++++++
 ...ha_grouped_backward_fp16_instances_ref.hpp | 396 ++++++++++++++++++
 ...mha_grouped_forward_bf16_instances_ref.hpp | 236 +++++++++++
 ...mha_grouped_forward_fp16_instances_ref.hpp | 236 +++++++++++
 .../fmha_grouped_infer_bf16_instances_ref.hpp | 236 +++++++++++
 .../fmha_grouped_infer_fp16_instances_ref.hpp | 236 +++++++++++
 25 files changed, 3585 insertions(+), 1005 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.hpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.hpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
index fdec15de2c..5352b99249 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
@@ -11,111 +11,7 @@
 #include "ck_tiled_fmha_batched_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_batched_backward_bf16_instances_ref.hpp"
 
 void batched_backward_bf16(BatchedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index e795eb9d36..a226bd5cc8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -11,111 +11,7 @@
 #include "ck_tiled_fmha_batched_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 32>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 64>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 256>(
-    BatchedBackwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_batched_backward_fp16_instances_ref.hpp"
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
index e27552d3ef..0dc988cd93 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
@@ -11,79 +11,7 @@
 #include "ck_tiled_fmha_batched_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_batched_forward_bf16_instances_ref.hpp"
 
 void batched_forward_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index a65f6a2a27..74ad4b74b0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -11,79 +11,7 @@
 #include "ck_tiled_fmha_batched_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_batched_forward_fp16_instances_ref.hpp"
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
index b362a780f6..1a0123196b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
@@ -10,79 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-// clang-format off
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_batched_infer_bf16_instances_ref.hpp"
 
 void batched_infer_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index e55003c60f..c21a9ad57e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -10,79 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-// clang-format off
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
-    BatchedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_batched_infer_fp16_instances_ref.hpp"
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
index 4250bba475..51dd8a5074 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
@@ -11,111 +11,7 @@
 #include "ck_tiled_fmha_grouped_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_grouped_backward_bf16_instances_ref.hpp"
 
 void grouped_backward_bf16(GroupedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index baca243876..6fa6f1be98 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -11,111 +11,7 @@
 #include "ck_tiled_fmha_grouped_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 32>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 64>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 128>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, true, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, false, 256>(
-    GroupedBackwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_grouped_backward_fp16_instances_ref.hpp"
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
index e04af2e8a3..ff14095fa3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
@@ -11,79 +11,7 @@
 #include "ck_tiled_fmha_grouped_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_grouped_forward_bf16_instances_ref.hpp"
 
 void grouped_forward_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index 13276415e8..1ac4c195be 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -11,79 +11,7 @@
 #include "ck_tiled_fmha_grouped_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-// clang-format off
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_grouped_forward_fp16_instances_ref.hpp"
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
index 5b0fb5b371..f780f7de18 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
@@ -10,79 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-// clang-format off
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, false, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::bf16_t, true, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_grouped_infer_bf16_instances_ref.hpp"
 
 void grouped_infer_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index fa0a407f19..e538029c5c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -10,79 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-// clang-format off
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 32>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 64>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 128>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, true, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, false, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, true, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<ck_tile::fp16_t, true, false, false, 256>(
-    GroupedForwardParams& param, hipStream_t stream);
-// clang-format on
+#include "instances/fmha_grouped_infer_fp16_instances_ref.hpp"
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 0975520ef0..2fb6891b42 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -71,7 +71,7 @@
 FMHA_BACKWARD_INSTANCE_FNAME = "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"\
                                "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
-FMHA_INSTANCE_REF_FNAME = "fmha_{mode}_{function}_{dtype}.hpp"
+FMHA_INSTANCE_REF_FNAME = "instances/fmha_{mode}_{function}_{dtype}_instances_ref.hpp"
 
 BOOL_MAP = {
     True : "true",
@@ -153,6 +153,38 @@ def create_infer_instances(instance_dir: Path) -> None:
                             (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + infer_instance_inc + "\n" + infer_instance)
 
 
+def create_infer_instances_ref(instance_dir: Path) -> None:
+    for mode in ["batched", "grouped"]:
+        for dtype in ["fp16", "bf16"]:
+            ref_fname = FMHA_INSTANCE_REF_FNAME.format(
+                mode=mode,
+                function="infer",
+                dtype=dtype,
+            )
+            infer_instance_inc = FMHA_INFER_INSTANCE_TEMPLATE_INC.format(
+                mode=mode,
+                dtype_file=TYPE_FNAME_MAP[dtype],
+            )
+            with open(ref_fname, 'a') as file:
+                file.write(FMHA_COPYRIGHT_HEADER)
+                file.write(infer_instance_inc)
+                for max_k in [32, 64, 128, 256]:
+                    for has_bias in [True, False]:
+                        for has_dropout in [True, False]:
+                            for has_causalmask in [True, False]:
+                                infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
+                                    extern="extern ",
+                                    mode=mode,
+                                    dtype=TYPE_CTYPE_MAP[dtype],
+                                    has_causalmask=BOOL_MAP[has_causalmask],
+                                    has_bias=BOOL_MAP[has_bias],
+                                    has_dropout=BOOL_MAP[has_dropout],
+                                    max_k=max_k,
+                                    cap_mode=MODE_NAME_MAP[mode],
+                                )
+                                file.write(infer_instance)
+
+
 def create_forward_instances(instance_dir: Path) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
@@ -185,6 +217,38 @@ def create_forward_instances(instance_dir: Path) -> None:
                             (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + forward_instance_inc + "\n" + forward_instance)
 
 
+def create_forward_instances_ref(instance_dir: Path) -> None:
+    for mode in ["batched", "grouped"]:
+        for dtype in ["fp16", "bf16"]:
+            ref_fname = FMHA_INSTANCE_REF_FNAME.format(
+                mode=mode,
+                function="forward",
+                dtype=dtype,
+            )
+            forward_instance_inc = FMHA_FORWARD_INSTANCE_TEMPLATE_INC.format(
+                mode=mode,
+                dtype_file=TYPE_FNAME_MAP[dtype],
+            )
+            with open(ref_fname, 'a') as file:
+                file.write(FMHA_COPYRIGHT_HEADER)
+                file.write(forward_instance_inc)
+                for max_k in [32, 64, 128, 256]:
+                    for has_bias in [True, False]:
+                        for has_dropout in [True, False]:
+                            for has_causalmask in [True, False]:
+                                forward_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
+                                    extern="extern ",
+                                    mode=mode,
+                                    dtype=TYPE_CTYPE_MAP[dtype],
+                                    has_causalmask=BOOL_MAP[has_causalmask],
+                                    has_bias=BOOL_MAP[has_bias],
+                                    has_dropout=BOOL_MAP[has_dropout],
+                                    max_k=max_k,
+                                    cap_mode=MODE_NAME_MAP[mode],
+                                )
+                                file.write(forward_instance)
+
+
 def create_backward_instances(instance_dir: Path) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
@@ -219,10 +283,46 @@ def create_backward_instances(instance_dir: Path) -> None:
                             (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + backward_instance_inc + "\n" + backward_instance)
 
 
+def create_backward_instances_ref(instance_dir: Path) -> None:
+    for mode in ["batched", "grouped"]:
+        for dtype in ["fp16", "bf16"]:
+            ref_fname = FMHA_INSTANCE_REF_FNAME.format(
+                mode=mode,
+                function="backward",
+                dtype=dtype,
+            )
+            backward_instance_inc = FMHA_BACKWARD_INSTANCE_TEMPLATE_INC.format(
+                mode=mode,
+                dtype_file=TYPE_FNAME_MAP[dtype],
+            )
+            with open(ref_fname, 'a') as file:
+                file.write(FMHA_COPYRIGHT_HEADER)
+                file.write(backward_instance_inc)
+                for max_k in [32, 64, 128, 256]:
+                    for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
+                        for has_dropout in [True, False]:
+                            for has_causalmask in [True, False]:
+                                backward_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
+                                    extern="extern ",
+                                    mode=mode,
+                                    dtype=TYPE_CTYPE_MAP[dtype],
+                                    has_causalmask=BOOL_MAP[has_causalmask],
+                                    has_bias=BOOL_MAP[has_bias],
+                                    has_bias_grad=BOOL_MAP[has_bias_grad],
+                                    has_dropout=BOOL_MAP[has_dropout],
+                                    max_k=max_k,
+                                    cap_mode=MODE_NAME_MAP[mode],
+                                )
+                                file.write(backward_instance)
+
+
 if __name__ == "__main__":
     this_dir = os.path.dirname(__file__)
     output_dir = Path(this_dir) / "instances"
     output_dir.mkdir(parents=True, exist_ok=True)
     create_infer_instances(output_dir)
+    create_infer_instances_ref(output_dir)
     create_forward_instances(output_dir)
+    create_forward_instances_ref(output_dir)
     create_backward_instances(output_dir)
+    create_backward_instances_ref(output_dir)
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.hpp
new file mode 100644
index 0000000000..06f82124ae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.hpp
@@ -0,0 +1,396 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.hpp
new file mode 100644
index 0000000000..d47f8cc1ec
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.hpp
@@ -0,0 +1,396 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    32>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    64>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    128>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.hpp
new file mode 100644
index 0000000000..8fab725be7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.hpp
new file mode 100644
index 0000000000..d697669727
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.hpp
new file mode 100644
index 0000000000..003d768942
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.hpp
new file mode 100644
index 0000000000..266b3643ee
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    32>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    64>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    128>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.hpp
new file mode 100644
index 0000000000..870b4dda9f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.hpp
@@ -0,0 +1,396 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.hpp
new file mode 100644
index 0000000000..367ca6bcfe
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.hpp
@@ -0,0 +1,396 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    32>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    64>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    128>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.hpp
new file mode 100644
index 0000000000..4b1740f1a7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.hpp
new file mode 100644
index 0000000000..2ac28a5200
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.hpp
new file mode 100644
index 0000000000..aa5c84146c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.hpp
new file mode 100644
index 0000000000..f3a5d8501a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.hpp
@@ -0,0 +1,236 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    32>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    64>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    128>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    256>(GroupedForwardParams& param, hipStream_t stream);

From 73dbf32a4f59751bef5730b4c861b4a5abbdc14f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 8 Aug 2024 07:14:57 +0000
Subject: [PATCH 607/837] Relax the RTOL of ckFwOp from 4e-4 to 3e-3 due to one
 big result case

---
 xformers/ops/fmha/ck.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 365ff76eb0..47ad90d2f9 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -173,7 +173,7 @@ class FwOp(AttentionFwOpBase):
     }
     ERROR_RTOL: Mapping[torch.dtype, float] = {
         torch.float: 2e-5,
-        torch.half: 4e-4,
+        torch.half: 3e-3,
         torch.bfloat16: 2e-2,
     }
 

From 0e6d0c3c6c963169139e2ab03b330b67e9a68bd0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 12 Aug 2024 15:20:13 +0000
Subject: [PATCH 608/837] Change to use .h rather than .hpp as suffix for
 generated header files

---
 .../attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp  | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp  | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp   | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp   | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp     | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp     | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp  | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp  | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp   | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp   | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp     | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp     | 2 +-
 xformers/csrc/attention/hip_fmha/generate_instances.py          | 2 +-
 ...ances_ref.hpp => fmha_batched_backward_bf16_instances_ref.h} | 0
 ...ances_ref.hpp => fmha_batched_backward_fp16_instances_ref.h} | 0
 ...tances_ref.hpp => fmha_batched_forward_bf16_instances_ref.h} | 0
 ...tances_ref.hpp => fmha_batched_forward_fp16_instances_ref.h} | 0
 ...nstances_ref.hpp => fmha_batched_infer_bf16_instances_ref.h} | 0
 ...nstances_ref.hpp => fmha_batched_infer_fp16_instances_ref.h} | 0
 ...ances_ref.hpp => fmha_grouped_backward_bf16_instances_ref.h} | 0
 ...ances_ref.hpp => fmha_grouped_backward_fp16_instances_ref.h} | 0
 ...tances_ref.hpp => fmha_grouped_forward_bf16_instances_ref.h} | 0
 ...tances_ref.hpp => fmha_grouped_forward_fp16_instances_ref.h} | 0
 ...nstances_ref.hpp => fmha_grouped_infer_bf16_instances_ref.h} | 0
 ...nstances_ref.hpp => fmha_grouped_infer_fp16_instances_ref.h} | 0
 25 files changed, 13 insertions(+), 13 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_instances_ref.hpp => fmha_batched_backward_bf16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_instances_ref.hpp => fmha_batched_backward_fp16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_instances_ref.hpp => fmha_batched_forward_bf16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_instances_ref.hpp => fmha_batched_forward_fp16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_instances_ref.hpp => fmha_batched_infer_bf16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_instances_ref.hpp => fmha_batched_infer_fp16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_instances_ref.hpp => fmha_grouped_backward_bf16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_instances_ref.hpp => fmha_grouped_backward_fp16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_instances_ref.hpp => fmha_grouped_forward_bf16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_instances_ref.hpp => fmha_grouped_forward_fp16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_instances_ref.hpp => fmha_grouped_infer_bf16_instances_ref.h} (100%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_instances_ref.hpp => fmha_grouped_infer_fp16_instances_ref.h} (100%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
index 5352b99249..3cf339b834 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_batched_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_batched_backward_bf16_instances_ref.hpp"
+#include "instances/fmha_batched_backward_bf16_instances_ref.h"
 
 void batched_backward_bf16(BatchedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index a226bd5cc8..807169ccd0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_batched_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_batched_backward_fp16_instances_ref.hpp"
+#include "instances/fmha_batched_backward_fp16_instances_ref.h"
 
 void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
index 0dc988cd93..bd2e076e0c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_batched_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_batched_forward_bf16_instances_ref.hpp"
+#include "instances/fmha_batched_forward_bf16_instances_ref.h"
 
 void batched_forward_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 74ad4b74b0..3c3791bdfb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_batched_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_batched_forward_fp16_instances_ref.hpp"
+#include "instances/fmha_batched_forward_fp16_instances_ref.h"
 
 void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
index 1a0123196b..23b04d935f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
@@ -10,7 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-#include "instances/fmha_batched_infer_bf16_instances_ref.hpp"
+#include "instances/fmha_batched_infer_bf16_instances_ref.h"
 
 void batched_infer_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index c21a9ad57e..4e1d99e8ec 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -10,7 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_batched_infer.h"
 
-#include "instances/fmha_batched_infer_fp16_instances_ref.hpp"
+#include "instances/fmha_batched_infer_fp16_instances_ref.h"
 
 void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
index 51dd8a5074..7b77442be6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_grouped_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_grouped_backward_bf16_instances_ref.hpp"
+#include "instances/fmha_grouped_backward_bf16_instances_ref.h"
 
 void grouped_backward_bf16(GroupedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index 6fa6f1be98..be47bbdbb1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_grouped_backward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_grouped_backward_fp16_instances_ref.hpp"
+#include "instances/fmha_grouped_backward_fp16_instances_ref.h"
 
 void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
index ff14095fa3..28d75ddc56 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_grouped_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_grouped_forward_bf16_instances_ref.hpp"
+#include "instances/fmha_grouped_forward_bf16_instances_ref.h"
 
 void grouped_forward_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index 1ac4c195be..31e28bad6d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -11,7 +11,7 @@
 #include "ck_tiled_fmha_grouped_forward.h"
 #include "ck_tiled_headdim_switch.h"
 
-#include "instances/fmha_grouped_forward_fp16_instances_ref.hpp"
+#include "instances/fmha_grouped_forward_fp16_instances_ref.h"
 
 void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
index f780f7de18..090227c1db 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
@@ -10,7 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-#include "instances/fmha_grouped_infer_bf16_instances_ref.hpp"
+#include "instances/fmha_grouped_infer_bf16_instances_ref.h"
 
 void grouped_infer_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index e538029c5c..62c774ff59 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -10,7 +10,7 @@
 #include "ck_tiled_bool_switch.h"
 #include "ck_tiled_fmha_grouped_infer.h"
 
-#include "instances/fmha_grouped_infer_fp16_instances_ref.hpp"
+#include "instances/fmha_grouped_infer_fp16_instances_ref.h"
 
 void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 2fb6891b42..ff72c17bb8 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -71,7 +71,7 @@
 FMHA_BACKWARD_INSTANCE_FNAME = "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"\
                                "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 
-FMHA_INSTANCE_REF_FNAME = "instances/fmha_{mode}_{function}_{dtype}_instances_ref.hpp"
+FMHA_INSTANCE_REF_FNAME = "instances/fmha_{mode}_{function}_{dtype}_instances_ref.h"
 
 BOOL_MAP = {
     True : "true",
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.hpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.hpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h

From 914ccc582124c628784c8907c1cb33c3caa2bba4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 12 Aug 2024 15:24:32 +0000
Subject: [PATCH 609/837] Fix in .gitignore

---
 .gitignore | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/.gitignore b/.gitignore
index 8c6455c1b7..b37d0b1b53 100644
--- a/.gitignore
+++ b/.gitignore
@@ -67,6 +67,7 @@ xformers/csrc/attention/hip_fmha/*.hip
 xformers/csrc/attention/hip_fmha/*_hip.h
 xformers/csrc/attention/hip_fmha/instances/*.cu
 xformers/csrc/attention/hip_fmha/instances/*.hip
-xformers/csrc/attention/hip_fmha/instances_tiled/*.cu
-xformers/csrc/attention/hip_fmha/instances_tiled/*.hip
+xformers/csrc/attention/hip_fmha/instances/*.cu
+xformers/csrc/attention/hip_fmha/instances/*.hip
+xformers/csrc/attention/hip_fmha/instances/*_hip.h
 

From 8503f87070cbadcd72d0004980d8c6c27f688d9f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 12 Aug 2024 15:26:55 +0000
Subject: [PATCH 610/837] Update to bwd setting to use only IGLP pipeline

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h     | 6 ------
 1 file changed, 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 64f16dbb5f..96125d6192 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -153,12 +153,6 @@ struct FmhaBwdShape<256> : ck_tile::TileFmhaBwdShape<
 
 template <ck_tile::index_t MaxK, bool kPadHeadDimQK, bool kPadHeadDimV>
 struct FmhaBwdPipelineEnumSelector {
-  static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
-      ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR;
-};
-
-template <ck_tile::index_t MaxK>
-struct FmhaBwdPipelineEnumSelector<MaxK, false, false> {
   static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
       ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP;
 };

From bfe164d191d8391a00de64d8d2ba8e83c1616f35 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 12 Aug 2024 15:46:00 +0000
Subject: [PATCH 611/837] Synchronize to latest ck_tile fix and align the
 headdim64 tile shape setting

---
 third_party/composable_kernel_tiled                |  2 +-
 .../attention/hip_fmha/ck_tiled_fmha_bwd_setting.h | 14 +++++++-------
 2 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 0178da6f50..17c97f5814 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 0178da6f5071171df3362bb9d419b4da0feb3765
+Subproject commit 17c97f581456dae128b7a6dddd9ec02dacedbd0e
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 96125d6192..9e2ba48187 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -64,10 +64,10 @@ struct FmhaBwdBlockTile<32> {
 
 template <>
 struct FmhaBwdBlockTile<64> {
-  using tile_lengths = ck_tile::sequence<64, 128, 64, 64, 64, 64, 64, 64, 64>;
+  using tile_lengths = ck_tile::sequence<32, 128, 64, 32, 64, 32, 32, 64, 64>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
-  using gemm4_warps = ck_tile::sequence<2, 2, 1>; // default for gemm4
+  using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
 };
 
 template <>
@@ -113,15 +113,15 @@ template <>
 struct FmhaBwdShape<64> : ck_tile::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<64>::tile_lengths,
                               typename FmhaBwdBlockTile<64>::gemm02_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile2,
                               typename FmhaBwdBlockTile<64>::gemm13_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile3,
                               typename FmhaBwdBlockTile<64>::gemm02_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile2,
                               typename FmhaBwdBlockTile<64>::gemm13_warps,
-                              FmhaBwdWarpTile1,
+                              FmhaBwdWarpTile3,
                               typename FmhaBwdBlockTile<64>::gemm4_warps,
-                              FmhaBwdWarpTile1> {};
+                              FmhaBwdWarpTile2> {};
 
 template <>
 struct FmhaBwdShape<128> : ck_tile::TileFmhaBwdShape<

From f75c3b27ea8d15cc845b3863dbfd386ca686bcdb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 12 Aug 2024 16:34:51 +0000
Subject: [PATCH 612/837] Reformat the generated instances cpp files

---
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...f16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...f16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...f16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...f16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...p16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...p16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...p16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...p16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...d_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...d_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...hed_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...hed_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...d_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...d_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...hed_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...hed_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...hed_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...hed_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...hed_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...hed_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...hed_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...hed_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...hed_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...hed_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...hed_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...hed_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...hed_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...hed_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...tched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...tched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...hed_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...hed_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...hed_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...hed_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...hed_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...hed_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...hed_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...hed_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...hed_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...hed_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...hed_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...hed_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...tched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...tched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...f16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...f16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...f16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...f16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...f16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...p16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...p16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ..._no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...6_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...p16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...p16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 1 -
 ...16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 1 -
 ...p16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 1 -
 ...fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 1 -
 ...fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 1 -
 ...forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ..._forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...d_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...d_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ..._forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...d_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...d_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ..._forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ..._forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...d_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...uped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...uped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...ped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...ped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...ped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...ped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...uped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...uped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...ped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...ped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...uped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...uped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...uped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...uped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...d_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...d_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...ped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...ped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...ped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...ped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...ped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...ped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...uped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...uped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 ...ed_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp | 1 -
 ...ed_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp | 1 -
 ...ped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp | 1 -
 ...ped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp | 1 -
 ...ped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp | 1 -
 ...ped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp | 1 -
 ...uped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp | 1 -
 ...uped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp | 1 -
 ...ped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp | 1 -
 ...ped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp | 1 -
 ...uped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp | 1 -
 ...uped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp | 1 -
 ...uped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp | 1 -
 ...uped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp | 1 -
 ...ouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp | 1 -
 ...ouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp | 1 -
 448 files changed, 448 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 39232e65d5..b129b07194 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 76157bf991..58aaac8016 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 4b774cf684..73360d7dc6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index c8ba202be1..7f99b48199 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 6742fb5923..b831c919df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index b0615cb138..1829f50f2d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index dc1dfba3ec..74501e0072 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 85560dae39..62a1c9d0b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 45ee4fd6d1..b5b258196e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index cc4febe219..070e8b2c0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 77f5824dd3..504c22609f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 0943e233ca..573d9bf4b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 59206114fc..67bf8995c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 1170edbe5c..4bc3b5a836 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index fa0ad59b7c..331b791409 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 4a14da0807..1c3a956d4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 5c5af08afc..0d902e1203 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 1edf2b647a..13dfd5a096 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c13203a0c3..e6b8fd85f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index edf535c0b7..4c2c0672ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b3a8f1a3be..68bac14f28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index d0475fb796..2a72588f19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 6d0f48867b..ea7baeea2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 4d60a85897..2028826784 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 0100f090f5..8689b5389f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 1f3bb92cba..fd52bcc4de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 04db3afad0..2a5977be38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index e18a4bd4af..490659b74c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 5df78e1ece..f4f3ac89c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 323d799b59..4067c8e5ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 82b8af2acc..c3dd3d5fe3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 573826492e..d8fd52d7aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 3ba12bc999..f9e140aaef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 5d0025622e..71b1586ac3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 17ed225945..5688539e83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index fd4ba2dfdc..a820ad76c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 4cb2218766..fbd6b8b48b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 00091e827d..b64b16b8da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 24eb9cf988..db6ee679cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 77008bcf5b..e79dd63df7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 16c697a851..35a9684053 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 9ee060f32f..14d9356112 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 16628b31b3..783c741b66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 0c47e21db0..7ddd65d116 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 65b0a11e84..69e6983446 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 7e1d1835df..5fa39c8804 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 52c1f82bf5..fed439c709 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 3ae27d64cd..6a955e9821 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 6bda7dca0b..b4df2bf407 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 62bb4da515..545a779553 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 2c6f316417..1da7bae3a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 85e8c719f4..4c3cf7ff66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index dbfc26d1ed..1cbafbf70d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index c18a7439ab..f1e9009d1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index b989377a5d..9511965063 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 0c0fe40d9d..75fef6ab41 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 537e9e0fa8..836e9428ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index dece0aa4ef..cf89aa7bd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 79f162f272..bbc4eea829 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index d9c163f845..2d804bd5df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 37f622753c..3b85cea79a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 1e312cf7fd..f261d64baf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 03cb14d16e..635f9f1a23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index fdd5cc6c54..919a01fb9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index ffa0b948ef..bdf72b91aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index e77bb21e94..2588185d9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c0f9ee654a..087b8e1c80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 0824368908..d01cb1e375 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 478e393150..99a2823b48 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 3c66588974..acceefffbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 58cb8d4272..ac3a2a5fdb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 04a808a3a0..5a281913f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 6291955c3b..68ffee4bf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 3a445cab98..4d84693d6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 05a23fe817..8b498600a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index eed061f455..7ddd6efd88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 04da2d7f97..d1bdf1fa57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 0971c2582b..b8c8eb5b31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 60ef436f65..60553e4057 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 568c619f91..dafd1d5d2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 19e27101a5..dd6ef7d002 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index c13031bcdd..daee392159 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c9716e3a16..dc19712620 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index fb4b254925..e9c8d75e34 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 045baff410..bc25646dca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 5a9b9b630e..a324ea3d19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 6e7b5e211b..8ffe3a4c36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 68ccee8e7c..0d3ab043e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d3dbae9d5c..64c0c14fb6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 8762b721b8..2d0e3efaaf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index b85e7c5a59..003201abf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index d691bcaec0..a6570b6bfc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 408729a17a..a23a7087d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 50d5649276..274405d533 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 5855ede140..46a8e8a4d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index b329eeca0d..5bdd29dbdb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-
 template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index bd85a5fdc1..189677f41b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 2529a096f7..39881bd0de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3bde17cb3b..a24b8868a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 50ff42476b..849a6633b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 44cd6d4d95..c49a96edbb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 04934417a3..f362ff83b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 29d7743169..62205efbdc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index f7a6fed93d..c485fdfcd0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 73e6a902a4..68345b50d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index f199398c51..4e3144c61e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index bfac0e7292..1654eb5354 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index bdbb9f67a6..fef0b43b9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index a02390265f..87d8256c23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 6cf0c876c6..521469e26c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index a4e1acd3b7..d2eeed0208 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 42c97b8cc2..77e509f0c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index dd1b221598..b0898e658f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index c5cc1590f6..aee8358c14 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index ee0cc1d993..b949c55579 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 14142b105d..3e28448d41 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 275fd42c11..eae1bef147 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 5fd2142976..3fea67a9df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 4decc0120d..e9e1d8c03d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 3fd53bff1c..0b5b5e9acd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 1b2c2d7432..20e880ae32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 4f27dd5af5..2d9e145b8a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index b6e8741bce..12c05851be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 3ab275d8b2..296c93e84d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 84a92844cf..ffcd7f0d89 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index d381d71904..a0fbb353fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 37d55967f0..729e834bf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index afc8a232ff..b2ee36ac21 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index faef825e7b..e9c50c43e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 846e10f692..98ad34421e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 6b5be61df3..df8cb489a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 84a34acd4c..9ff6b63464 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 4ed15b2319..8e5fc2b224 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 378ccb4008..8489a8255f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 5b99bd8613..0ab15f4316 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index a43b7f87e9..89b57dc002 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 50627005f1..286ce1f10a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index b98232fdae..0a32ecd5e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index b594cf6e4f..5caa44509a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index f18fba3bc2..7b45b7050a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 5ba04db663..ea683ccd0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 6828d19a00..c17397faf7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index e75c9823d6..6483bd6da2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 49cce8e9d5..607227078c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index cccd03ce4d..1af052fb63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 73fff51b86..5616cdc520 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index d8ab68fa47..8b10f11921 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 807f27935a..988a2fe2bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 5695adc9cc..9b5b928f7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index fb68f8181f..1b36a0d252 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index ba89bc3ee6..785ecd397e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 3e3f6ec502..82199beb7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 10871d7cec..e18cda6c98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 56e2dce4be..ed23610a9a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index b37f432d39..2e512e089b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 81962fc300..cfd204f045 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 56e6306f24..f161893bda 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 11bcea176b..c37fb70c92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 660e701852..f05aca856e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 69596971ea..cd0f3d4ffc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-
 template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index ebca11eb36..ad22843e37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 5601af4e0b..a457b90f34 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index daa20d6919..51d21df17c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 0f5bbf5dce..0c2a21bf6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 884dffccdd..4e33efc722 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 05d0edb570..f3eb7b0ec0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 40ee28738b..d8db2ebe22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 9ad0b9fab1..72e7fb412e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index a4e20b1cd5..0b4ed8294a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 2132bab644..2e752c9418 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 7933827a89..68366ee2f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 2bf8f82a1d..9d0c50e134 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 2fbbf6236d..8129cbf852 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index d1180dd33e..3d6e897a47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 2c56e4e561..c264d95adc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index e079e07486..fb8e9fb0a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 0d9d667e1d..db28d72f40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 2e0b100ee4..228bb5397c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index b2712fce62..d0152e1600 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 19321447a7..8cb88dd943 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 8d33e6d0aa..25c006c093 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 1a77a9ed26..77ab1fc3e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 14f62535a2..15311470c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index ed8caf20d7..4c98864b26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index a3b553aaa2..d20c61ee11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index c645172e7a..0410708e11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index a925044586..d837f7b54e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index a6d9ec1ee6..7462600fb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 2d3f4711c8..65d1fd39a7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 4e87793d60..c0ea4369af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index b627025e53..b46f0c0c8a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index ff2957c10c..8051de4d96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index c5cf71b097..c1ee8c7693 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 3cda93ebd9..46a38e82df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index d99c733b47..6040d41cd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index e0e604f1c2..db5d5d577c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 9148a2624f..ccc0a02543 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 45d96f13dd..d81ff0d38e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index a0096a6d71..48b74b2bc4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index a16e08a30b..fda07f6cda 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 5adffd0565..43069dd547 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 7004a13a62..bf8afd4242 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index f8cad2c3ae..351f5ea1d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 1270dd2ea6..d06dc1f10c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 647c507925..df91366da4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index a85a5360d6..4c292918bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 3c12b1e8a6..9dc31e3ea8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index fa214ebf72..2bbd4f3dd4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 3d12babd5b..37f18fd7d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 5231f0d2e5..dd5ec21185 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 97c433883e..3afe1c2f86 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index b744f412bf..e9ddc972d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index e9701e2dbb..609b4981c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 0756106348..5fca4f4eea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index ab5423bfd6..fe3a2e2bc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index 6a08c4772c..d077701b99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 44a3a6a76f..501a83e9ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 8444c310e0..d0b619f604 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 3cb04e9d37..af0bc1c85a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index ea7862776b..578454c52f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 809acb6e9d..d20d225cd6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 59c1812b0a..ce76fd765e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 23c34e3854..ca44ac6b0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 3f5085b298..5d7589a162 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-
 template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index da52b4524b..c22b793d35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 1e61eb1e16..f4b7a307aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 136309d34d..c5b1454c5a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 06c6d32525..c8c71960df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 10edbf6c02..de55b8e88c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 0c8ebfca64..577c43def5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index d43472c5c1..9ffa70e780 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 2002eecd6d..71ac1de6fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index ae5874ec2b..f2baaf01df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 8436316d17..18d1940620 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index fc0a04b314..8e87f044df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index f94f947a7e..dbe7c0560f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 875c8acfdf..7a293a9735 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index ec424034e3..dc5f5c749a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 75c82d3856..8b878747f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 1ac2b6c686..1871a6cbed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 4d99c381d5..295e3f4034 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index b39de523c3..e23b3c60b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 57bfe1e9b6..08af2d6677 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 671cf1f5ea..4d2d7e78dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 8d80448325..43fc95070c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 646e3dc930..b85fa82e9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index e3be7a2473..86d8d4776c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index aace937981..e8e862d54d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 22e1faa7b6..76a4e7dcb7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 6f43a6f296..a4b3c633d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 00b6b1fe2e..1ba22ae616 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 8f635c6a98..07813b2c57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 6ce4770a8d..42818cfa92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index b19238d3e4..07b019af4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index cfc0408701..485b647757 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 57280c0f37..ac1bccc146 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 38106adeda..65b67988ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index a98415a603..81616d6af3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 142824508b..9fc0a6c625 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 6d9ce75508..dfbcd25bec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 9f4f7944b6..8650510c3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 05a9e830c3..261017c529 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 469f7ee4ac..842c071d96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index bc76b94c5c..1bf3602e38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index a504db1c5f..302c566e73 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 8a5e31b51b..c3f030c5f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f5c628c18d..070e741168 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2bc167aa74..8011c547d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b06c9143e2..249bf2a54b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a03c7b019b..9fed2aefc2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 542c82ac22..224d5f1bc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 02c6caf0cd..43fea8dee1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 647dfed397..dc70813fc6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 8408f10e5b..10ae8c3026 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 6f6baa1302..4fdbb099c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index fba9304bfa..e5d4365a19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index c319c597a2..e028d1bee9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index e3740d9231..3c47d406b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index e630b82b37..1651af366a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index adaf820009..28fcbfad6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index ac94963dee..34b227fad6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 39d892476c..ccd459e844 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 508db91ecb..20033dee2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index b83f716fde..c9dece923d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 864c547079..3b71014f6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index b3c02ddb12..09ac8a84e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index dd433cf6ba..62df2f2dd3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 2b8bbd000a..07514352b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index c234993595..c0d222f058 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 3e7281c9fb..8d32e0b35b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f2bcef8220..fe11f7f00e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2c17644ac0..45ba2ddd3e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index fa7b75bad0..e8e20cb4d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 8b8d3e18cc..81668563ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index e4f6da1fd2..1961a1a295 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 03ce989bdd..ba07be603b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index dc4d9bce76..15e2f31d8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 3197e15f42..00effd83ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 7707a22baa..de40300749 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index ec91dbaffa..756c1dc187 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 3d57e18f1f..7c5978f3fe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index c851179feb..1dd5dfa0f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 3e0b2cefad..69ebd58335 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 6630c3d74a..3218e1606b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 18683ea06c..831e8b9ac2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index cf38ccdd0f..d7aeb937ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 67e7fc14ce..2659f809d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index e4cb050b11..4668340309 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a6f62c5ecd..dc7f41755f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index faf27d95bb..8d13665117 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index e7552bea0f..07e60021b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 43e0658b35..d562c03844 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index ff26b66be6..3b38e48f68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 76a5236c1a..cc9c0e3771 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index cbb0cdf167..7237f3cab9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 7277f375a3..7f7b87b465 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index e1b1d55d69..fca2defab5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index bff0588147..247d2933f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 9d0eb19ae6..952d91a05e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 80e3e5d310..df612447ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-
 template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 8d3f1699a3..436b35249b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 872b8feb94..673ace243f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index e7e5561949..12f2dce035 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index fad634dd7a..b05db1117d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index 1cee531602..ac8a014bc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index b11085627e..2bb41cd3bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 78f288862a..8c17a20b72 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 14a9250aa5..58357d0f8e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index ea0d4e867b..6b03e2ffd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 3eae57ea0d..b98a212b3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index de9de2f4b7..ba57b065d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index f0309768d2..6b5463311d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 716e34fe4f..c1b145ccd0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index f4982d3b61..ea2ee50829 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index f8bb2bf07d..2b9b0559fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index ba9874ee75..6bad209f7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 0f9de69357..222d1ed50c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 74ac7d90c3..bcad83e85f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index dfd68d0876..249011ee13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 0d83cb462e..15ac9062f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 008d2e68f4..4b833c8f83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 254abd1fa5..3e07c10500 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 38b336e010..276962324e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index efc6e40dec..f43d7b41cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 49924fbf20..1da0732d8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index ef83ee4452..4891094bce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 535f3877a6..d20de70d8a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index a89bc6bb4b..2e552a9973 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 1276d65a6b..85f9097f59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 4a36334e45..456ae223ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 3505c9a975..51cbbf71d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index 169fec04ae..0614b84a2a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index ce25186d36..6db568b7c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index f9633bbfd1..7c14a9f97a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index e5292f882b..3ad15a89ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index aa89d62e83..a0431622e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index c34d945e06..3c5f652c7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 67690c1e5b..562298f722 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index d332e50ea3..9daf7f6c68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 6c9735dd13..1f3b70c843 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 9b0e515e52..1ce7084261 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 8a6aac9d42..f765d967b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 91d7974f7b..65a976a9a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index ac69a855e4..30b56e1b19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 938d8a2ef1..22ece82890 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 9f34327082..d5a7778e5d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 1f5470478b..bc5553560a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 8f30d330e5..4b74c49ef9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 65fc8ffe9b..b0918f6838 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 35b9221d94..432cdd9783 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 9c598402ea..b7f09b7c36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 08ae9091b8..8c6ad2498e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index 6c295a8f96..2b747e5e28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index f1345945fc..0d7c558cd3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 6c212f9ada..3efca37987 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index d934dad1bf..dae892ab78 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 36e76fb541..d2020485ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 56ada77425..a29929b80d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index fdc02134c8..d5f3cdffe1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index c38442bc5d..6a7482d692 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index c31359a772..fc5604b5e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index b57f76adbc..f8741ae4f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index 377af23687..8c4e8581b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index ab938eea33..b29ac4d4f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-
 template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index 04f8ae8996..52e1d5d711 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 3655443b75..055b769f9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 6a2a642e78..9ce3756a6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index 5974a22123..46d4e69b75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index c84e495cf4..5f11a042f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index ff6371c158..3134e1c4ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index 0cdc2d375f..f858eccb53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index 0517654c3f..5da3272f08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index 5dc1e3bab8..ed632d7ea6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 66eaffcd54..d336cc52d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 92af05353e..7095195dd6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index 2e385804d1..312a64a29d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 98a64ebd6f..5747867dc4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index 427f2b4b63..f54dadca5a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index 74a0ad136c..a6b637a297 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index b9b2f4c8ec..47abe27d92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index f04438d2a8..95eb7e0ed8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index 62edc1a2e4..e9c361bd0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index 34d6468ced..5530bb928f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index c023c19de2..0a55926151 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index dc133776e0..5949924e4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 4a1db9bf0e..4ed0179061 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index 9a8ace4a0d..d5df909462 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index e12cd3fff3..8be8afd5ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 171ed578ab..4416036397 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index b442ee2da7..39e2f9fed8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 9fb4d0631f..6172df88a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 71ee24859f..41681f1805 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 6f4707b358..98625d1428 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 02bdcc4836..9d3d732888 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index c8f5664462..bb537cfe2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index b55f1e153d..66769f244c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
index f911866e5b..4c35127f9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
index 887a479675..12a2a61052 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
index 3b3d764be3..885584ef4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
index dd2ea0a10d..a11af5773c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
index a86b9a983d..8d1f0fb7f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
index 931d97d471..50577f7f96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
index d7b05ee2e4..07fcfd2eb6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
index ff4b486a07..dc3690344b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
index e614c73659..b3727732a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
index 187935111c..b8cb896222 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
index 1d2f32df24..a4c2cacf19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
index fc33014b38..2b36d6f33f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
index 84a2d66ae4..f3827c2401 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
index c5ef23857c..6627919bb5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
index d5d35804a2..793fc5c902 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
index 31407a74fb..2d50423e73 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
index 1537f93de8..ffb1b36d60 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
index b3904f8519..db5416d92f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
index bdd98997f1..d5cce31a76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
index 698d72e959..bb3ad0e570 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
index ad78bc332e..2f63665845 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
index 55b72d8fbb..aed425ba5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
index e5d2cb44b6..c3678b42f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
index ee7d81328f..7481a9b9aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
index 68bcf15e3d..f6282217df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
index 80021085e2..0564af6ec1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
index 14d9421658..afbe9a21f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
index 39ce50cdaf..99e9133dce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
index 6ba0e05509..637d40bc17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
index 6d2e6831f4..ca8cb1bed3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
index ffcf316fd8..61f1540aeb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
index e50bbb87f5..cad791039f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,6 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-
 template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,

From bc3db994cfc5a400cf47967ce2f09eb31608a39f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 13 Aug 2024 17:53:05 +0000
Subject: [PATCH 613/837] Fix to the backward Trait

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h     | 1 +
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h     | 1 +
 2 files changed, 2 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 502ab4e9e7..8bcb29bee8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -126,6 +126,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
               kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
+              false, // place-holder for kHasDropout, not used actually
               false, // kDoFp8StaticQuant place-holder
               occupancy>;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 5ca27a0c51..82d9920f6d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -123,6 +123,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
               kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
+              false, // place-holder for kHasDropout, not used actually
               false, // kDoFp8StaticQuant place-holder
               occupancy>;
 

From fa6d8b3a63c9d7e0d1d0183d45be6bba17c36edb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 13 Aug 2024 18:08:28 +0000
Subject: [PATCH 614/837] Set occupancy to -1 to avoid the compiling warning

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h    | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h    | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 8bcb29bee8..6804ce6d6f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -96,7 +96,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       const bool has_local_attention = (param.window_size > 0) ? true : false;
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck_tile::index_t occupancy = 1;
+        constexpr ck_tile::index_t occupancy = -1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 82d9920f6d..d2ba13a319 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -92,7 +92,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       const bool has_local_attention = (param.window_size > 0) ? true : false;
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck_tile::index_t occupancy = 1;
+        constexpr ck_tile::index_t occupancy = -1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 

From c5c7cce9e68881949a7607f3645edf083cf3feca Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 13 Aug 2024 18:57:39 +0000
Subject: [PATCH 615/837] Revert "Set occupancy to -1 to avoid the compiling
 warning"

This reverts commit fa6d8b3a63c9d7e0d1d0183d45be6bba17c36edb.
---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h    | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h    | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 6804ce6d6f..8bcb29bee8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -96,7 +96,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       const bool has_local_attention = (param.window_size > 0) ? true : false;
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck_tile::index_t occupancy = -1;
+        constexpr ck_tile::index_t occupancy = 1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index d2ba13a319..82d9920f6d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -92,7 +92,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       const bool has_local_attention = (param.window_size > 0) ? true : false;
 
       BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck_tile::index_t occupancy = -1;
+        constexpr ck_tile::index_t occupancy = 1;
         constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
         const bool has_dropout = (param.dropout_prob > 0.0f);
 

From d230433eafebdfe06824ee560475efcd39cec2a0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 14 Aug 2024 17:02:32 +0000
Subject: [PATCH 616/837] Add environment variable and compiler definition to
 control the generating of headdim256 instances

---
 setup.py                                      | 10 +++++
 .../hip_fmha/ck_tiled_headdim_switch.h        | 42 +++++++++++++++++++
 2 files changed, 52 insertions(+)

diff --git a/setup.py b/setup.py
index 54a261f66a..6520f049d1 100644
--- a/setup.py
+++ b/setup.py
@@ -402,6 +402,14 @@ def get_extensions():
             "--ptxas-options=-allow-expensive-optimizations=true",
         ]
     elif torch.cuda.is_available() and torch.version.hip:
+        disable_hd256_hip_fmha = os.getenv("DISABLE_HD256_HIP_FMHA", "0")
+        if disable_hd256_hip_fmha == "1":
+            source_hip_maxk_256 = []
+            for ff in source_hip:
+                if ff.endswith("maxk_256.cpp"):
+                    source_hip_maxk_256 += [ff]
+            source_hip = list(set(source_hip) - set(source_hip_maxk_256))
+
         rename_cpp_cu(source_hip)
         rocm_home = os.getenv("ROCM_PATH")
         hip_version = get_hip_version(rocm_home)
@@ -421,6 +429,8 @@ def get_extensions():
         ]
 
         generator_flag = []
+        if disable_hd256_hip_fmha == "1":
+            generator_flag += ["-DFMHA_SUPPORT_MAX_HEADDIM_128=1"]
 
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         extra_compile_args = {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 3e435a6465..ce99023c94 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -9,6 +9,46 @@
 #include <ck_tile/core.hpp>
 #include <stdexcept>
 
+#ifndef FMHA_SUPPORT_MAX_HEADDIM_128
+#define FMHA_SUPPORT_MAX_HEADDIM_128 0
+#endif
+
+#if FMHA_SUPPORT_MAX_HEADDIM_128
+
+#define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+  [&] {                                                                \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
+      constexpr ck_tile::index_t CONST_NAME = 32;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 64;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
+      constexpr ck_tile::index_t CONST_NAME = 128;                     \
+      __VA_ARGS__();                                                   \
+    } else {                                                           \
+      throw std::runtime_error("Head-dim sizes not supported!");       \
+    }                                                                  \
+  }()
+
+#define FMHA_BWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+  [&] {                                                                \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
+      constexpr ck_tile::index_t CONST_NAME = 32;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 64;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
+      constexpr ck_tile::index_t CONST_NAME = 128;                     \
+      __VA_ARGS__();                                                   \
+    } else {                                                           \
+      throw std::runtime_error("Head-dim sizes not supported!");       \
+    }                                                                  \
+  }()
+
+#else
+
 #define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
   [&] {                                                                \
     if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
@@ -46,3 +86,5 @@
       throw std::runtime_error("Head-dim sizes not supported!");       \
     }                                                                  \
   }()
+
+#endif

From 82a07aeab231c85a7280b8e88482b4d0a2930dcb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 14 Aug 2024 17:54:11 +0000
Subject: [PATCH 617/837] Add --ignore-hd256 argument to generate_instance.py
 and some update in this script

---
 .../attention/hip_fmha/generate_instances.py  | 62 ++++++++++++-------
 1 file changed, 41 insertions(+), 21 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index ff72c17bb8..fc27bcc545 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -6,7 +6,9 @@
 #
 
 import os
+import sys
 from pathlib import Path
+from typing import List
 
 FMHA_COPYRIGHT_HEADER = """
 /*
@@ -121,13 +123,13 @@
 }
 
 
-def create_infer_instances(instance_dir: Path) -> None:
+def create_infer_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             for has_causalmask in [True, False]:
                 for has_bias in [True, False]:
                     for has_dropout in [True, False]:
-                        for max_k in [32, 64, 128, 256]:
+                        for max_k in headdims:
                             fname = FMHA_INFER_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
@@ -150,10 +152,10 @@ def create_infer_instances(instance_dir: Path) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + infer_instance_inc + "\n" + infer_instance)
+                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + infer_instance_inc + infer_instance)
 
 
-def create_infer_instances_ref(instance_dir: Path) -> None:
+def create_infer_instances_ref(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             ref_fname = FMHA_INSTANCE_REF_FNAME.format(
@@ -168,7 +170,7 @@ def create_infer_instances_ref(instance_dir: Path) -> None:
             with open(ref_fname, 'a') as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(infer_instance_inc)
-                for max_k in [32, 64, 128, 256]:
+                for max_k in headdims:
                     for has_bias in [True, False]:
                         for has_dropout in [True, False]:
                             for has_causalmask in [True, False]:
@@ -185,13 +187,13 @@ def create_infer_instances_ref(instance_dir: Path) -> None:
                                 file.write(infer_instance)
 
 
-def create_forward_instances(instance_dir: Path) -> None:
+def create_forward_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             for has_causalmask in [True, False]:
                 for has_bias in [True, False]:
                     for has_dropout in [True, False]:
-                        for max_k in [32, 64, 128, 256]:
+                        for max_k in headdims:
                             fname = FMHA_FORWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
@@ -214,10 +216,10 @@ def create_forward_instances(instance_dir: Path) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + forward_instance_inc + "\n" + forward_instance)
+                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + forward_instance_inc + forward_instance)
 
 
-def create_forward_instances_ref(instance_dir: Path) -> None:
+def create_forward_instances_ref(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             ref_fname = FMHA_INSTANCE_REF_FNAME.format(
@@ -232,7 +234,7 @@ def create_forward_instances_ref(instance_dir: Path) -> None:
             with open(ref_fname, 'a') as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(forward_instance_inc)
-                for max_k in [32, 64, 128, 256]:
+                for max_k in headdims:
                     for has_bias in [True, False]:
                         for has_dropout in [True, False]:
                             for has_causalmask in [True, False]:
@@ -249,13 +251,13 @@ def create_forward_instances_ref(instance_dir: Path) -> None:
                                 file.write(forward_instance)
 
 
-def create_backward_instances(instance_dir: Path) -> None:
+def create_backward_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             for has_causalmask in [True, False]:
                 for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
                     for has_dropout in [True, False]:
-                        for max_k in [32, 64, 128, 256]:
+                        for max_k in headdims:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
@@ -280,10 +282,10 @@ def create_backward_instances(instance_dir: Path) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + backward_instance_inc + "\n" + backward_instance)
+                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + backward_instance_inc + backward_instance)
 
 
-def create_backward_instances_ref(instance_dir: Path) -> None:
+def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             ref_fname = FMHA_INSTANCE_REF_FNAME.format(
@@ -298,7 +300,7 @@ def create_backward_instances_ref(instance_dir: Path) -> None:
             with open(ref_fname, 'a') as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(backward_instance_inc)
-                for max_k in [32, 64, 128, 256]:
+                for max_k in headdims:
                     for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
                         for has_dropout in [True, False]:
                             for has_causalmask in [True, False]:
@@ -317,12 +319,30 @@ def create_backward_instances_ref(instance_dir: Path) -> None:
 
 
 if __name__ == "__main__":
+    disable_hd256 = False
+
+    for arg in sys.argv:
+        if arg == "--ignore-hd256":
+            disable_hd256 = True
+
+    if disable_hd256:
+        headdims = [32, 64, 128]
+    else:
+        headdims = [32, 64, 128, 256]
+
     this_dir = os.path.dirname(__file__)
     output_dir = Path(this_dir) / "instances"
     output_dir.mkdir(parents=True, exist_ok=True)
-    create_infer_instances(output_dir)
-    create_infer_instances_ref(output_dir)
-    create_forward_instances(output_dir)
-    create_forward_instances_ref(output_dir)
-    create_backward_instances(output_dir)
-    create_backward_instances_ref(output_dir)
+
+    ## remove existing files in the directory
+    files = os.listdir(output_dir)
+    for ff in files:
+        file_path = os.path.join(output_dir, ff)
+        os.remove(file_path)
+
+    create_infer_instances(output_dir, headdims)
+    create_infer_instances_ref(output_dir, headdims)
+    create_forward_instances(output_dir, headdims)
+    create_forward_instances_ref(output_dir, headdims)
+    create_backward_instances(output_dir, headdims)
+    create_backward_instances_ref(output_dir, headdims)

From 38593d606ab1cdf8b58f94ef02e7c1cda86e20d1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 15 Aug 2024 09:19:04 +0000
Subject: [PATCH 618/837] Add environment variable
 ENABLE_HIP_FMHA_RTN_BF16_CONVERT to enable using rtn bf16 conversion

---
 setup.py | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/setup.py b/setup.py
index 6520f049d1..f648706e2b 100644
--- a/setup.py
+++ b/setup.py
@@ -428,11 +428,16 @@ def get_extensions():
             Path(this_dir) / "third_party" / "composable_kernel_tiled" / "include"
         ]
 
+        use_rtn_bf16_convert = os.getenv("ENABLE_HIP_FMHA_RTN_BF16_CONVERT", "0")
+
         generator_flag = []
         if disable_hd256_hip_fmha == "1":
             generator_flag += ["-DFMHA_SUPPORT_MAX_HEADDIM_128=1"]
 
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
+        if use_rtn_bf16_convert == "1":
+            cc_flag += ["-DCK_TILE_FLOAT_TO_BFLOAT16_DEFAULT=0"]
+
         extra_compile_args = {
             "cxx": ["-O3", "-std=c++17"] + generator_flag,
             "nvcc": [

From 15dc91180912f895512f5784f9b89df51504243c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 15 Aug 2024 17:47:20 +0000
Subject: [PATCH 619/837] Remove commented lines in test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index d42d4cc22c..ed6d6a696a 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -705,10 +705,6 @@ def test_backward(
 
     if op_bw == fmha.ck.BwOp:
         op_fw = fmha.ck.FwOp
-        ##if dtype == torch.bfloat16:
-        ##    pytest.skip(
-        ##        "CK Fmha backward for bfloat16 currently is not very accurate for some cases!"
-        ##    )
         if grad_out_contiguous is False:
             pytest.skip("CK Fmha does not support contiguous layout for grad_out!")
 

From 367274c13ee5930b27b031f0640a66be1ff6d3ba Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 15 Aug 2024 22:42:56 +0000
Subject: [PATCH 620/837] Synchronize to latest ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 17c97f5814..0d79fde5e2 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 17c97f581456dae128b7a6dddd9ec02dacedbd0e
+Subproject commit 0d79fde5e2bb4009de31a63ce1f8ec1facf4c1cc

From f7b28c52a9b00aed07819266a4d54b899e92eb3f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Aug 2024 19:45:57 +0000
Subject: [PATCH 621/837] apply black

---
 setup.py                                      |   2 +-
 .../attention/hip_fmha/generate_instances.py  | 175 +++++++++++-------
 xformers/ops/fmha/ck.py                       |   4 +-
 3 files changed, 110 insertions(+), 71 deletions(-)

diff --git a/setup.py b/setup.py
index f648706e2b..abadb4a17f 100644
--- a/setup.py
+++ b/setup.py
@@ -451,7 +451,7 @@ def get_extensions():
                 "-Werror",
                 "-Woverloaded-virtual",
                 "-mllvm",
-                "-enable-post-misched=0"
+                "-enable-post-misched=0",
             ]
             + generator_flag
             + cc_flag,
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index fc27bcc545..bfbe5f345a 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -35,8 +35,10 @@
     {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
 """
 
-FMHA_INFER_INSTANCE_FNAME = "fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_"\
-                            "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+FMHA_INFER_INSTANCE_FNAME = (
+    "fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_"
+    "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+)
 
 FMHA_FORWARD_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
@@ -52,8 +54,10 @@
     {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
 """
 
-FMHA_FORWARD_INSTANCE_FNAME = "fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_"\
-                              "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+FMHA_FORWARD_INSTANCE_FNAME = (
+    "fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_"
+    "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+)
 
 FMHA_BACKWARD_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
@@ -70,56 +74,55 @@
     {max_k}>({cap_mode}BackwardParams& param, hipStream_t stream);
 """
 
-FMHA_BACKWARD_INSTANCE_FNAME = "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"\
-                               "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+FMHA_BACKWARD_INSTANCE_FNAME = (
+    "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"
+    "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
+)
 
 FMHA_INSTANCE_REF_FNAME = "instances/fmha_{mode}_{function}_{dtype}_instances_ref.h"
 
-BOOL_MAP = {
-    True : "true",
-    False : "false"
-}
+BOOL_MAP = {True: "true", False: "false"}
 
 BOOL_MAP_CAUSALMASK = {
-    True : "has_causalmask",
-    False : "no_causalmask",
+    True: "has_causalmask",
+    False: "no_causalmask",
 }
 
 BOOL_MAP_BIAS = {
-    True : "has_bias",
-    False : "no_bias",
+    True: "has_bias",
+    False: "no_bias",
 }
 
 BOOL_MAP_BIASGRAD = {
-    True : "has_biasgrad",
-    False : "no_biasgrad",
+    True: "has_biasgrad",
+    False: "no_biasgrad",
 }
 
 BOOL_MAP_DROPOUT = {
-    True : "has_dropout",
-    False : "no_dropout",
+    True: "has_dropout",
+    False: "no_dropout",
 }
 
 INT_MAP_MAX_K = {
-    32 : "maxk_32",
-    64 : "maxk_64",
-    128 : "maxk_128",
-    256 : "maxk_256",
+    32: "maxk_32",
+    64: "maxk_64",
+    128: "maxk_128",
+    256: "maxk_256",
 }
 
 TYPE_CTYPE_MAP = {
-    "fp16" : "ck_tile::fp16_t",
-    "bf16" : "ck_tile::bf16_t",
+    "fp16": "ck_tile::fp16_t",
+    "bf16": "ck_tile::bf16_t",
 }
 
 TYPE_FNAME_MAP = {
-    "fp16" : "half",
-    "bf16" : "bfloat16",
+    "fp16": "half",
+    "bf16": "bfloat16",
 }
 
 MODE_NAME_MAP = {
-    "batched" : "Batched",
-    "grouped" : "Grouped",
+    "batched": "Batched",
+    "grouped": "Grouped",
 }
 
 
@@ -133,14 +136,18 @@ def create_infer_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_INFER_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[
+                                    has_causalmask
+                                ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
                             )
-                            infer_instance_inc = FMHA_INFER_INSTANCE_TEMPLATE_INC.format(
-                                mode=mode,
-                                dtype_file=TYPE_FNAME_MAP[dtype],
+                            infer_instance_inc = (
+                                FMHA_INFER_INSTANCE_TEMPLATE_INC.format(
+                                    mode=mode,
+                                    dtype_file=TYPE_FNAME_MAP[dtype],
+                                )
                             )
                             infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
                                 extern="",
@@ -152,7 +159,11 @@ def create_infer_instances(instance_dir: Path, headdims: List) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + infer_instance_inc + infer_instance)
+                            (instance_dir / fname).write_text(
+                                FMHA_COPYRIGHT_HEADER
+                                + infer_instance_inc
+                                + infer_instance
+                            )
 
 
 def create_infer_instances_ref(instance_dir: Path, headdims: List) -> None:
@@ -167,7 +178,7 @@ def create_infer_instances_ref(instance_dir: Path, headdims: List) -> None:
                 mode=mode,
                 dtype_file=TYPE_FNAME_MAP[dtype],
             )
-            with open(ref_fname, 'a') as file:
+            with open(ref_fname, "a") as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(infer_instance_inc)
                 for max_k in headdims:
@@ -197,15 +208,19 @@ def create_forward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_FORWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[
+                                    has_causalmask
+                                ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
                             )
-                            forward_instance_inc = FMHA_FORWARD_INSTANCE_TEMPLATE_INC.format(
-                                mode=mode,
-                                dtype_file=TYPE_FNAME_MAP[dtype],
-                            ) 
+                            forward_instance_inc = (
+                                FMHA_FORWARD_INSTANCE_TEMPLATE_INC.format(
+                                    mode=mode,
+                                    dtype_file=TYPE_FNAME_MAP[dtype],
+                                )
+                            )
                             forward_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
                                 extern="",
                                 mode=mode,
@@ -216,7 +231,11 @@ def create_forward_instances(instance_dir: Path, headdims: List) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + forward_instance_inc + forward_instance)
+                            (instance_dir / fname).write_text(
+                                FMHA_COPYRIGHT_HEADER
+                                + forward_instance_inc
+                                + forward_instance
+                            )
 
 
 def create_forward_instances_ref(instance_dir: Path, headdims: List) -> None:
@@ -231,22 +250,24 @@ def create_forward_instances_ref(instance_dir: Path, headdims: List) -> None:
                 mode=mode,
                 dtype_file=TYPE_FNAME_MAP[dtype],
             )
-            with open(ref_fname, 'a') as file:
+            with open(ref_fname, "a") as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(forward_instance_inc)
                 for max_k in headdims:
                     for has_bias in [True, False]:
                         for has_dropout in [True, False]:
                             for has_causalmask in [True, False]:
-                                forward_instance = FMHA_FORWARD_INSTANCE_TEMPLATE.format(
-                                    extern="extern ",
-                                    mode=mode,
-                                    dtype=TYPE_CTYPE_MAP[dtype],
-                                    has_causalmask=BOOL_MAP[has_causalmask],
-                                    has_bias=BOOL_MAP[has_bias],
-                                    has_dropout=BOOL_MAP[has_dropout],
-                                    max_k=max_k,
-                                    cap_mode=MODE_NAME_MAP[mode],
+                                forward_instance = (
+                                    FMHA_FORWARD_INSTANCE_TEMPLATE.format(
+                                        extern="extern ",
+                                        mode=mode,
+                                        dtype=TYPE_CTYPE_MAP[dtype],
+                                        has_causalmask=BOOL_MAP[has_causalmask],
+                                        has_bias=BOOL_MAP[has_bias],
+                                        has_dropout=BOOL_MAP[has_dropout],
+                                        max_k=max_k,
+                                        cap_mode=MODE_NAME_MAP[mode],
+                                    )
                                 )
                                 file.write(forward_instance)
 
@@ -255,21 +276,29 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
             for has_causalmask in [True, False]:
-                for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
+                for has_bias, has_bias_grad in [
+                    [True, False],
+                    [True, True],
+                    [False, False],
+                ]:
                     for has_dropout in [True, False]:
                         for max_k in headdims:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[has_causalmask],
+                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[
+                                    has_causalmask
+                                ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
                             )
-                            backward_instance_inc = FMHA_BACKWARD_INSTANCE_TEMPLATE_INC.format(
-                                mode=mode,
-                                dtype_file=TYPE_FNAME_MAP[dtype],
+                            backward_instance_inc = (
+                                FMHA_BACKWARD_INSTANCE_TEMPLATE_INC.format(
+                                    mode=mode,
+                                    dtype_file=TYPE_FNAME_MAP[dtype],
+                                )
                             )
                             backward_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
                                 extern="",
@@ -282,7 +311,11 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
                                 max_k=max_k,
                                 cap_mode=MODE_NAME_MAP[mode],
                             )
-                            (instance_dir / fname).write_text(FMHA_COPYRIGHT_HEADER + backward_instance_inc + backward_instance)
+                            (instance_dir / fname).write_text(
+                                FMHA_COPYRIGHT_HEADER
+                                + backward_instance_inc
+                                + backward_instance
+                            )
 
 
 def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
@@ -297,23 +330,29 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
                 mode=mode,
                 dtype_file=TYPE_FNAME_MAP[dtype],
             )
-            with open(ref_fname, 'a') as file:
+            with open(ref_fname, "a") as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(backward_instance_inc)
                 for max_k in headdims:
-                    for has_bias, has_bias_grad in [[True, False], [True, True], [False, False]]:
+                    for has_bias, has_bias_grad in [
+                        [True, False],
+                        [True, True],
+                        [False, False],
+                    ]:
                         for has_dropout in [True, False]:
                             for has_causalmask in [True, False]:
-                                backward_instance = FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
-                                    extern="extern ",
-                                    mode=mode,
-                                    dtype=TYPE_CTYPE_MAP[dtype],
-                                    has_causalmask=BOOL_MAP[has_causalmask],
-                                    has_bias=BOOL_MAP[has_bias],
-                                    has_bias_grad=BOOL_MAP[has_bias_grad],
-                                    has_dropout=BOOL_MAP[has_dropout],
-                                    max_k=max_k,
-                                    cap_mode=MODE_NAME_MAP[mode],
+                                backward_instance = (
+                                    FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
+                                        extern="extern ",
+                                        mode=mode,
+                                        dtype=TYPE_CTYPE_MAP[dtype],
+                                        has_causalmask=BOOL_MAP[has_causalmask],
+                                        has_bias=BOOL_MAP[has_bias],
+                                        has_bias_grad=BOOL_MAP[has_bias_grad],
+                                        has_dropout=BOOL_MAP[has_dropout],
+                                        max_k=max_k,
+                                        cap_mode=MODE_NAME_MAP[mode],
+                                    )
                                 )
                                 file.write(backward_instance)
 
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 47ad90d2f9..889eeb4462 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -344,7 +344,7 @@ class BwOp(AttentionBwOpBase):
     OPERATOR = get_operator("xformers", "efficient_attention_backward_ck")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES
-    SUPPORTED_MAX_K = 256 
+    SUPPORTED_MAX_K = 256
     SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
         type(None),
         torch.Tensor,
@@ -369,7 +369,7 @@ class BwOp(AttentionBwOpBase):
         32,  # 64x64 kernel
         64,
         128,  # 64x128/128x128 kernel
-        256, 
+        256,
     ]
 
     @classmethod

From fd82f20b6c7a3b2f30856d48575065e45cd10028 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Aug 2024 19:50:50 +0000
Subject: [PATCH 622/837] apply flake8

---
 xformers/csrc/attention/hip_fmha/generate_instances.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index bfbe5f345a..d9a2763509 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -373,7 +373,7 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
     output_dir = Path(this_dir) / "instances"
     output_dir.mkdir(parents=True, exist_ok=True)
 
-    ## remove existing files in the directory
+    # remove existing files in the directory
     files = os.listdir(output_dir)
     for ff in files:
         file_path = os.path.join(output_dir, ff)

From 7d21800f684e4d654cdec49e10ed545d03a598f9 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Aug 2024 20:43:02 +0000
Subject: [PATCH 623/837] fix mypy

---
 tests/test_mem_eff_attention.py | 6 +++---
 xformers/attn_bias_utils.py     | 4 ++--
 2 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index ed6d6a696a..ad71241eda 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -37,13 +37,13 @@
 if torch.cuda.is_available():
     compute_capability = torch.cuda.get_device_capability("cuda")
 sm70_or_better_only = pytest.mark.skipif(
-    torch.version.cuda and compute_capability < (7, 0), reason="requires sm70+"
+    torch.version.cuda is not None and compute_capability < (7, 0), reason="requires sm70+"
 )
 sm75_or_better_only = pytest.mark.skipif(
-    torch.version.cuda and compute_capability < (7, 5), reason="requires sm75+"
+    torch.version.cuda is not None and compute_capability < (7, 5), reason="requires sm75+"
 )
 sm80_or_better_only = pytest.mark.skipif(
-    torch.version.cuda and compute_capability < (8, 0), reason="requires sm80+"
+    torch.version.cuda is not None and compute_capability < (8, 0), reason="requires sm80+"
 )
 skip_if_rocm = pytest.mark.skipif(
     torch.version.hip is not None, reason="not supported on ROCm"
diff --git a/xformers/attn_bias_utils.py b/xformers/attn_bias_utils.py
index 224302c4f8..fb8d8207f2 100644
--- a/xformers/attn_bias_utils.py
+++ b/xformers/attn_bias_utils.py
@@ -39,7 +39,7 @@ def create_attn_bias(
     dtype,
     requires_grad: bool,
     fmt: str,
-    op: Type[AttentionOpBase],
+    op: Optional[Type[AttentionOpBase]] = None,
     page_size: Optional[int] = None,
 ):
     if bias_type is None or isinstance(None, bias_type):
@@ -59,7 +59,7 @@ def create_attn_bias(
                 * 3
             )
             attn_bias = attn_bias.expand(batch_size, num_heads, q_len, kv_len)
-        elif issubclass(op, fmha.triton_splitk.FwOp):
+        elif op is not None and issubclass(op, fmha.triton_splitk.FwOp):
             attn_bias = (
                 torch.randn(
                     (batch_size, num_heads_groups, num_heads, q_len, kv_len),

From d6b64568739952fd95bf4eb172d6fbbdd53964d1 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 16 Aug 2024 21:05:42 +0000
Subject: [PATCH 624/837] revert disable flash operator on rocm

---
 xformers/ops/fmha/flash.py | 10 ++--------
 1 file changed, 2 insertions(+), 8 deletions(-)

diff --git a/xformers/ops/fmha/flash.py b/xformers/ops/fmha/flash.py
index 14a8335ec1..49e708dc28 100644
--- a/xformers/ops/fmha/flash.py
+++ b/xformers/ops/fmha/flash.py
@@ -607,10 +607,7 @@ class FwOp(AttentionFwOpBase):
         implementation.
     """
 
-    if torch.version.hip:
-        OPERATOR = None
-    else:
-        OPERATOR = get_operator("xformers_flash", "flash_fwd")
+    OPERATOR = get_operator("xformers_flash", "flash_fwd")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     CUDA_MINIMUM_COMPUTE_CAPABILITY = (8, 0)
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
@@ -812,10 +809,7 @@ def operator_flop(
 class BwOp(AttentionBwOpBase):
     __doc__ = FwOp.__doc__
 
-    if torch.version.hip:
-        OPERATOR = None
-    else:
-        OPERATOR = get_operator("xformers_flash", "flash_bwd")
+    OPERATOR = get_operator("xformers_flash", "flash_bwd")
     SUPPORTED_DEVICES = FwOp.SUPPORTED_DEVICES
     CUDA_MINIMUM_COMPUTE_CAPABILITY = FwOp.CUDA_MINIMUM_COMPUTE_CAPABILITY
     SUPPORTED_DTYPES = FwOp.SUPPORTED_DTYPES

From 87188ea85cd3dc900c431acd2bccd6cc6de6d68d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 16 Aug 2024 22:42:56 +0000
Subject: [PATCH 625/837] Synchronize to ck_tile latest commit again

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 0d79fde5e2..6b533bfc90 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 0d79fde5e2bb4009de31a63ce1f8ec1facf4c1cc
+Subproject commit 6b533bfc907a3deaae7338d923649f2a8410a247

From 5be80a3ac93240d14dcbfd91f200f3bcfb78cc85 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 17 Aug 2024 09:27:57 +0000
Subject: [PATCH 626/837] Re-position the composable_kernel submodule to the
 develop branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 18adab4b01..b642ad5b97 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = ck_tile/fa_bwd_opt
+	branch = develop 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 6b533bfc90..c8b6b64240 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 6b533bfc907a3deaae7338d923649f2a8410a247
+Subproject commit c8b6b64240e840a7decf76dfaa13c37da5294c4a

From 2a5c14134bc58cb12079f9723b4697ae563cdf4e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 17 Aug 2024 12:39:18 +0000
Subject: [PATCH 627/837] Avoid the Async pipeline when khasBias is true

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h     | 4 ++--
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h     | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 05d654dc31..71f787aa6e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -68,8 +68,8 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
       // determine whether to do padding saving some compiling time
       const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-      const bool use_async_pipeline =
-          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+      const bool use_async_pipeline = 
+          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
       if (!use_async_pipeline) {
         BOOL_SWITCH_3(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index d4a6c9dbda..fd81978316 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -63,7 +63,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
       const bool use_async_pipeline =
-          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
 
       if (!use_async_pipeline) {
         BOOL_SWITCH_2(

From 2874842c06d588ac394b96895359d162bb27b73f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 17 Aug 2024 14:10:52 +0000
Subject: [PATCH 628/837] clang-format for two files

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h    | 5 +++--
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h    | 3 ++-
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 71f787aa6e..36cf1b56e7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -68,8 +68,9 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
       // determine whether to do padding saving some compiling time
       const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-      const bool use_async_pipeline = 
-          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+      const bool use_async_pipeline =
+          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+           (MaxK <= 128));
 
       if (!use_async_pipeline) {
         BOOL_SWITCH_3(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index fd81978316..3805108c1e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -63,7 +63,8 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
       const bool use_async_pipeline =
-          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+           (MaxK <= 128));
 
       if (!use_async_pipeline) {
         BOOL_SWITCH_2(

From 7a91589ced0111a8b15da2610438306981f814e8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 17 Aug 2024 15:30:29 +0000
Subject: [PATCH 629/837] Change allocation of grouped mode lse from [H, M] to
 [1, H, M] to match the xformers scripts

---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp      | 8 ++++----
 .../hip_fmha/attention_forward_generic_ck_tiled.cpp       | 6 +++---
 2 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 700adeba58..a1c5421772 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -354,8 +354,8 @@ efficient_attention_backward_ck(
     p.max_seqlen_k = *max_seqlen_k_;
 
     // unpadded lse layout required
-    TORCH_CHECK(p.Hq == logsumexp.size(0));
-    TORCH_CHECK(p.M == logsumexp.size(1));
+    TORCH_CHECK(p.Hq == logsumexp.size(1));
+    TORCH_CHECK(p.M == logsumexp.size(2));
 
     if (scale.has_value())
       p.scale = float(*scale);
@@ -384,8 +384,8 @@ efficient_attention_backward_ck(
         static_cast<int>(grad_out.stride(3))};
 
     p.lsed_strides = {
-        static_cast<int>(logsumexp.stride(0)),
-        static_cast<int>(logsumexp.stride(1))};
+        static_cast<int>(logsumexp.stride(1)),
+        static_cast<int>(logsumexp.stride(2))};
 
     if (use_grad_q_f32) {
       p.grad_q_f32_strides = {
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index fa6e0127ab..4bbfe71ada 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -316,11 +316,11 @@ efficient_attention_forward_ck(
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
-      logsumexp = at::empty({Hq, M}, opts.dtype(at::kFloat));
+      logsumexp = at::empty({1, Hq, M}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
       p.lse_strides = {
-          static_cast<int>(logsumexp.stride(0)),
-          static_cast<int>(logsumexp.stride(1))};
+          static_cast<int>(logsumexp.stride(1)),
+          static_cast<int>(logsumexp.stride(2))};
     } else {
       p.logsumexp_ptr = nullptr;
       p.lse_strides = {0, 0};

From 66efb2c8181bbf1e94bdcc33fab2d93f66c49638 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 20 Aug 2024 08:46:36 +0000
Subject: [PATCH 630/837] Change in generate_instances.py so that this scripts
 can be called from flexible location

---
 .../csrc/attention/hip_fmha/generate_instances.py     | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index d9a2763509..53dd8143c2 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -79,7 +79,7 @@
     "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 )
 
-FMHA_INSTANCE_REF_FNAME = "instances/fmha_{mode}_{function}_{dtype}_instances_ref.h"
+FMHA_INSTANCE_REF_FNAME = "fmha_{mode}_{function}_{dtype}_instances_ref.h"
 
 BOOL_MAP = {True: "true", False: "false"}
 
@@ -174,11 +174,12 @@ def create_infer_instances_ref(instance_dir: Path, headdims: List) -> None:
                 function="infer",
                 dtype=dtype,
             )
+            ref_fname_path = instance_dir / ref_fname
             infer_instance_inc = FMHA_INFER_INSTANCE_TEMPLATE_INC.format(
                 mode=mode,
                 dtype_file=TYPE_FNAME_MAP[dtype],
             )
-            with open(ref_fname, "a") as file:
+            with open(ref_fname_path, "a") as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(infer_instance_inc)
                 for max_k in headdims:
@@ -246,11 +247,12 @@ def create_forward_instances_ref(instance_dir: Path, headdims: List) -> None:
                 function="forward",
                 dtype=dtype,
             )
+            ref_fname_path = instance_dir / ref_fname
             forward_instance_inc = FMHA_FORWARD_INSTANCE_TEMPLATE_INC.format(
                 mode=mode,
                 dtype_file=TYPE_FNAME_MAP[dtype],
             )
-            with open(ref_fname, "a") as file:
+            with open(ref_fname_path, "a") as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(forward_instance_inc)
                 for max_k in headdims:
@@ -326,11 +328,12 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
                 function="backward",
                 dtype=dtype,
             )
+            ref_fname_path = instance_dir / ref_fname
             backward_instance_inc = FMHA_BACKWARD_INSTANCE_TEMPLATE_INC.format(
                 mode=mode,
                 dtype_file=TYPE_FNAME_MAP[dtype],
             )
-            with open(ref_fname, "a") as file:
+            with open(ref_fname_path, "a") as file:
                 file.write(FMHA_COPYRIGHT_HEADER)
                 file.write(backward_instance_inc)
                 for max_k in headdims:

From c19b1f536715ef2400f1bd015559a825431f8b04 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 20 Aug 2024 17:45:27 +0000
Subject: [PATCH 631/837] Add manual for generate_instances.py (.md)

---
 .../attention/hip_fmha/GENERATE_INSTANCES.md  | 35 +++++++++++++++++++
 1 file changed, 35 insertions(+)
 create mode 100644 xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md

diff --git a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
new file mode 100644
index 0000000000..8642facc2b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
@@ -0,0 +1,35 @@
+# generate\_instances.py 
+
+  generate\_instances.py is a simple tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
+  Without generate\_instances.py, manually writing those instances and references will be laborious and easy to get wrong. 
+
+  The instances generated by this scripts are divided into three categories visible from the scripts: 
+
+   * Infer -- which refers to instances for calling inference-only kernels
+   * Forward -- which refers to instances for calling training forward kernels
+   * Backward -- which refers to instances for calling training backward kernels
+
+  generate\_instances.py is to be used by the HIP fmha developers themselves. It is not supposed to be used by the user/xformers developers for 
+  building xformers, since for xformers users, the instances are already well prepared as part of the xformers codes. 
+
+## how to use generate\_instances.py
+
+   * To generate complete instances supported by current implementation
+
+     ```bash
+      #> python xformers/csrc/attention/hip_fmha/generate_instances.py
+     ```
+   
+   * To generate reduced instances (when headdim256 is not required)
+
+     ```bash
+      #> python xformers/csrc/attention/hip_fmha/generate_instances.py --ignore-hd256
+     ```
+   * More options except for `--ignore-hd256` could be added to suppport further customization in generating instances as required
+
+## where the instances files are located
+
+    The instances files (.cpp) and references files (.h) are always located under a folder `instances` that is located under the same directory
+    as generate\_instances.py itself
+
+     

From b450d01abcfa924c3e131d359afa3688f75e892c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 20 Aug 2024 17:54:43 +0000
Subject: [PATCH 632/837] Modification in GENERATE_INSTANCES.md

---
 xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
index 8642facc2b..5f4ed0f90a 100644
--- a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
+++ b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
@@ -1,15 +1,15 @@
 # generate\_instances.py 
 
-  generate\_instances.py is a simple tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
+     generate\_instances.py is a simple tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
   Without generate\_instances.py, manually writing those instances and references will be laborious and easy to get wrong. 
 
-  The instances generated by this scripts are divided into three categories visible from the scripts: 
+     The instances generated by this scripts are divided into three categories visible from the scripts: 
 
    * Infer -- which refers to instances for calling inference-only kernels
    * Forward -- which refers to instances for calling training forward kernels
    * Backward -- which refers to instances for calling training backward kernels
 
-  generate\_instances.py is to be used by the HIP fmha developers themselves. It is not supposed to be used by the user/xformers developers for 
+     generate\_instances.py is to be used by the HIP fmha developers themselves. It is not supposed to be used by the user/xformers developers for 
   building xformers, since for xformers users, the instances are already well prepared as part of the xformers codes. 
 
 ## how to use generate\_instances.py
@@ -29,7 +29,7 @@
 
 ## where the instances files are located
 
-    The instances files (.cpp) and references files (.h) are always located under a folder `instances` that is located under the same directory
-    as generate\_instances.py itself
+   * The instances files (.cpp) and references files (.h) are always located under a folder `instances` that is located under the same directory
+     as generate\_instances.py itself
 
      
From 07dc8e7e67daa44fb3330c5115ca05a25349f76c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 20 Aug 2024 18:02:11 +0000
Subject: [PATCH 633/837] Fix in GENERATE_INSTANCES.md

---
 .../attention/hip_fmha/GENERATE_INSTANCES.md  | 26 +++++++++----------
 1 file changed, 13 insertions(+), 13 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
index 5f4ed0f90a..f4512ffcea 100644
--- a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
+++ b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
@@ -1,35 +1,35 @@
-# generate\_instances.py 
 
-     generate\_instances.py is a simple tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
-  Without generate\_instances.py, manually writing those instances and references will be laborious and easy to get wrong. 
+# generate\_instances.py
+
+     The `generate_instances.py` is a simple tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
+  Without this tool, manually writing those instances and references will be laborious and easy to get wrong. 
 
      The instances generated by this scripts are divided into three categories visible from the scripts: 
 
-   * Infer -- which refers to instances for calling inference-only kernels
-   * Forward -- which refers to instances for calling training forward kernels
-   * Backward -- which refers to instances for calling training backward kernels
+   * Infer, which refers to instances for calling inference-only kernels
+   * Forward, which refers to instances for calling training forward kernels
+   * Backward, which refers to instances for calling training backward kernels
 
-     generate\_instances.py is to be used by the HIP fmha developers themselves. It is not supposed to be used by the user/xformers developers for 
+     The `generate_instances.py` is to be used by the HIP fmha developers themselves. It is not supposed to be used by the xformers users for 
   building xformers, since for xformers users, the instances are already well prepared as part of the xformers codes. 
 
 ## how to use generate\_instances.py
 
    * To generate complete instances supported by current implementation
 
-     ```bash
+     ```
       #> python xformers/csrc/attention/hip_fmha/generate_instances.py
      ```
-   
    * To generate reduced instances (when headdim256 is not required)
 
-     ```bash
+     ``` 
       #> python xformers/csrc/attention/hip_fmha/generate_instances.py --ignore-hd256
      ```
    * More options except for `--ignore-hd256` could be added to suppport further customization in generating instances as required
 
 ## where the instances files are located
-
-   * The instances files (.cpp) and references files (.h) are always located under a folder `instances` that is located under the same directory
-     as generate\_instances.py itself
+   
+     The instances files (.cpp) and references files (.h) are always located under a folder `instances/` that is located under the same directory
+   as `generate_instances.py` itself
 
      
From 72bf6036c585f33d56e65b62edf4b6e668d6b9b8 Mon Sep 17 00:00:00 2001
From: Qianfeng <qianfeng.zhang@amd.com>
Date: Tue, 20 Aug 2024 18:41:50 +0800
Subject: [PATCH 634/837] Update GENERATE_INSTANCES.md

---
 .../attention/hip_fmha/GENERATE_INSTANCES.md  | 30 +++++++++----------
 1 file changed, 14 insertions(+), 16 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
index f4512ffcea..829df66469 100644
--- a/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
+++ b/xformers/csrc/attention/hip_fmha/GENERATE_INSTANCES.md
@@ -1,19 +1,18 @@
 
-# generate\_instances.py
-
-     The `generate_instances.py` is a simple tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
-  Without this tool, manually writing those instances and references will be laborious and easy to get wrong. 
-
-     The instances generated by this scripts are divided into three categories visible from the scripts: 
-
-   * Infer, which refers to instances for calling inference-only kernels
-   * Forward, which refers to instances for calling training forward kernels
-   * Backward, which refers to instances for calling training backward kernels
-
-     The `generate_instances.py` is to be used by the HIP fmha developers themselves. It is not supposed to be used by the xformers users for 
+# Instances generator
+
+  The instances generator is a simple python tool used to generate several hundred of instances (.cpp files) and their references (.h files). 
+  Without this tool, manually writing those instances and references will be very laborious and easy to get wrong. 
+  
+  The instances generated by this scripts are divided into three categories visible from the scripts: 
+   * Infer -- which refers to instances for calling inference-only kernels
+   * Forward -- which refers to instances for calling training forward kernels
+   * Backward -- which refers to instances for calling training backward kernels
+     
+  The instance generator is for being used by the HIP fmha developers themselves. It is not supposed to be used by the xformers users for 
   building xformers, since for xformers users, the instances are already well prepared as part of the xformers codes. 
 
-## how to use generate\_instances.py
+## how to use instance generator
 
    * To generate complete instances supported by current implementation
 
@@ -28,8 +27,7 @@
    * More options except for `--ignore-hd256` could be added to suppport further customization in generating instances as required
 
 ## where the instances files are located
-   
-     The instances files (.cpp) and references files (.h) are always located under a folder `instances/` that is located under the same directory
-   as `generate_instances.py` itself
+   The instances files and references files are always located under a folder `instances/` that is located under the same directory
+   as the file `generate_instances.py` itself
 
      
From e397974ef528ce0fa895ae1e2f2fe57c0e0a43ca Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 20 Aug 2024 19:00:12 +0000
Subject: [PATCH 635/837] clean-up commented codes

---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp      | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index a1c5421772..b470f5990f 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -544,14 +544,6 @@ efficient_attention_backward_ck(
     grad_v = tmp_grad_v_view.sum(3);
   }
 
-  /*
-    if (inDataType == at::ScalarType::Half)
-      grad_q = grad_q_f32.to(torch::kFloat16);
-
-    if (inDataType == at::ScalarType::BFloat16)
-      grad_q = grad_q_f32.to(torch::kBFloat16);
-  */
-
   return std::make_tuple(grad_q, grad_k, grad_v, grad_bias);
 }
 

From 7a04357fdccfe0b698b0f36754869e0fec6534dd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 20 Aug 2024 19:18:03 +0000
Subject: [PATCH 636/837] Revert "Change allocation of grouped mode lse from
 [H, M] to [1, H, M] to match the xformers scripts"

This reverts commit 7a91589ced0111a8b15da2610438306981f814e8.
---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp      | 8 ++++----
 .../hip_fmha/attention_forward_generic_ck_tiled.cpp       | 6 +++---
 2 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index b470f5990f..53df9b20ab 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -354,8 +354,8 @@ efficient_attention_backward_ck(
     p.max_seqlen_k = *max_seqlen_k_;
 
     // unpadded lse layout required
-    TORCH_CHECK(p.Hq == logsumexp.size(1));
-    TORCH_CHECK(p.M == logsumexp.size(2));
+    TORCH_CHECK(p.Hq == logsumexp.size(0));
+    TORCH_CHECK(p.M == logsumexp.size(1));
 
     if (scale.has_value())
       p.scale = float(*scale);
@@ -384,8 +384,8 @@ efficient_attention_backward_ck(
         static_cast<int>(grad_out.stride(3))};
 
     p.lsed_strides = {
-        static_cast<int>(logsumexp.stride(1)),
-        static_cast<int>(logsumexp.stride(2))};
+        static_cast<int>(logsumexp.stride(0)),
+        static_cast<int>(logsumexp.stride(1))};
 
     if (use_grad_q_f32) {
       p.grad_q_f32_strides = {
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 4bbfe71ada..fa6e0127ab 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -316,11 +316,11 @@ efficient_attention_forward_ck(
       p.dropout_prob = 0.0f;
 
     if (p.compute_logsumexp) {
-      logsumexp = at::empty({1, Hq, M}, opts.dtype(at::kFloat));
+      logsumexp = at::empty({Hq, M}, opts.dtype(at::kFloat));
       p.logsumexp_ptr = logsumexp.data_ptr();
       p.lse_strides = {
-          static_cast<int>(logsumexp.stride(1)),
-          static_cast<int>(logsumexp.stride(2))};
+          static_cast<int>(logsumexp.stride(0)),
+          static_cast<int>(logsumexp.stride(1))};
     } else {
       p.logsumexp_ptr = nullptr;
       p.lse_strides = {0, 0};

From 77a2c249d91b654ddf216ed0a72420e6e9e23a66 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 3 Sep 2024 17:02:03 +0000
Subject: [PATCH 637/837] Synchronize to latest ck develop for using the latest
 RTN bf16 convert

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index c8b6b64240..73b67f290f 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit c8b6b64240e840a7decf76dfaa13c37da5294c4a
+Subproject commit 73b67f290f6602fe0461d48a2c103de460f14084

From 4e51efa4cf65a1d4c8df33a044e986cc19c74f2e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 3 Sep 2024 17:03:31 +0000
Subject: [PATCH 638/837] Add c++ extension compiling options for better
 performance on ROCM 6.2

---
 setup.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 6b0d8943d7..9f8101809c 100644
--- a/setup.py
+++ b/setup.py
@@ -453,7 +453,7 @@ def get_extensions():
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         use_rtn_bf16_convert = os.getenv("ENABLE_HIP_FMHA_RTN_BF16_CONVERT", "0")
         if use_rtn_bf16_convert == "1":
-            cc_flag += ["-DCK_TILE_FLOAT_TO_BFLOAT16_DEFAULT=0"]
+            cc_flag += ["-DCK_TILE_FLOAT_TO_BFLOAT16_DEFAULT=3"]
 
         arch_list = os.getenv("HIP_ARCHITECTURES", "native").split()
 
@@ -471,6 +471,12 @@ def get_extensions():
                 "-Woverloaded-virtual",
                 "-mllvm",
                 "-enable-post-misched=0",
+                "-mllvm",
+                "-amdgpu-early-inline-all=true",
+                "-mllvm",
+                "-amdgpu-function-calls=false",
+                "-mllvm",
+                "-greedy-reverse-local-assignment=1"
             ]
             + generator_flag
             + cc_flag,

From 2b081419126d114473702fa04b14e81fe81067fc Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 9 Sep 2024 22:09:23 -0400
Subject: [PATCH 639/837] reformat setup.py

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 9f8101809c..9c3314673f 100644
--- a/setup.py
+++ b/setup.py
@@ -476,7 +476,7 @@ def get_extensions():
                 "-mllvm",
                 "-amdgpu-function-calls=false",
                 "-mllvm",
-                "-greedy-reverse-local-assignment=1"
+                "-greedy-reverse-local-assignment=1",
             ]
             + generator_flag
             + cc_flag,

From 43bb9199d030b478d1a40342dcccfeab98d584d9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Sep 2024 15:56:35 +0000
Subject: [PATCH 640/837] Enable complete BlockDiagonalGappyKeysMask and
 BlockDiagonalPaddedKeysMask support in ck.py

---
 xformers/ops/fmha/ck.py | 22 +++++++++++++++++++---
 1 file changed, 19 insertions(+), 3 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 88c5cfa6e9..a4defb17c3 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -19,8 +19,11 @@
     BlockDiagonalCausalLocalAttentionFromBottomRightMask,
     BlockDiagonalCausalLocalAttentionMask,
     BlockDiagonalCausalMask,
+    BlockDiagonalCausalWithOffsetGappyKeysMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    BlockDiagonalGappyKeysMask,
     BlockDiagonalMask,
+    BlockDiagonalPaddedKeysMask,
     LowerTriangularFromBottomRightLocalAttentionMask,
     LowerTriangularFromBottomRightMask,
     LowerTriangularMask,
@@ -46,7 +49,8 @@ def _get_seqlen_info(
 ) -> Tuple[Optional[torch.Tensor], Optional[torch.Tensor], int, int]:
     attn_bias = inp.attn_bias
     if isinstance(
-        attn_bias, (BlockDiagonalMask, BlockDiagonalCausalWithOffsetPaddedKeysMask)
+        attn_bias,
+        (BlockDiagonalMask, BlockDiagonalPaddedKeysMask, BlockDiagonalGappyKeysMask),
     ):
         attn_bias.k_seqinfo.to(inp.query.device)
         attn_bias.q_seqinfo.to(inp.query.device)
@@ -154,7 +158,10 @@ class FwOp(AttentionFwOpBase):
         LowerTriangularMaskWithTensorBias,
         BlockDiagonalMask,
         BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetGappyKeysMask,
         BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        BlockDiagonalGappyKeysMask,
+        BlockDiagonalPaddedKeysMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
         attn_bias.BlockDiagonalCausalLocalAttentionMask,
         BlockDiagonalCausalLocalAttentionFromBottomRightMask,
@@ -163,6 +170,7 @@ class FwOp(AttentionFwOpBase):
     SUPPORTS_DROPOUT = True
     SUPPORTS_CUSTOM_SCALE = True
     SUPPORTS_DIFFERENT_VALUE_EMBED = True
+    SUPPORTS_PARTIAL = True
     SUPPORTS_BMGHK = True
     NAME = "ckF"
 
@@ -269,7 +277,11 @@ def apply_bmhk(
             seqlen_k=(
                 inp.attn_bias.k_seqinfo.seqlen
                 if isinstance(
-                    inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask
+                    inp.attn_bias,
+                    (
+                        BlockDiagonalGappyKeysMask,
+                        BlockDiagonalPaddedKeysMask,
+                    ),
                 )
                 else None
             ),
@@ -413,7 +425,11 @@ def apply(cls, ctx: Context, inp: Inputs, grad: torch.Tensor) -> Gradients:
             seqlen_k=(
                 inp.attn_bias.k_seqinfo.seqlen
                 if isinstance(
-                    inp.attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask
+                    inp.attn_bias,
+                    (
+                        BlockDiagonalGappyKeysMask,
+                        BlockDiagonalPaddedKeysMask,
+                    ),
                 )
                 else None
             ),

From 8382c7d1e88db1d066532bcb5a9f055cec4b80b4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Sep 2024 23:04:37 +0000
Subject: [PATCH 641/837] Sync to latest ck_tile commits and adapt the
 random_uniform_kernel to some change in ck_tile

---
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/attention_ck_rand_uniform.cpp    |  3 +--
 .../hip_fmha/ck_tiled_rand_uniform_kernel.h   | 25 +++++++++++--------
 3 files changed, 16 insertions(+), 14 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 73b67f290f..4ba52b35dc 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 73b67f290f6602fe0461d48a2c103de460f14084
+Subproject commit 4ba52b35dcebb95f9e826c43ffec72dcadee6b48
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index 94a7250a6d..347502b065 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -59,8 +59,7 @@ at::Tensor rand_uniform_int(
 
   {
     // only work for batched mode
-    using FmhaRandUniformKernel_ =
-        FmhaRandUniformKernel<128, 64, 32, uint8_t, false>;
+    using FmhaRandUniformKernel_ = FmhaRandUniformKernel<uint8_t, false>;
 
     const auto kargs = FmhaRandUniformKernel_::MakeKargs(
         randvals.data_ptr(),
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
index 715d5e4bdf..801960a432 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_rand_uniform_kernel.h
@@ -7,27 +7,30 @@
 #include <ck_tile/ops/fmha.hpp>
 #include <ck_tile/ops/fmha/block/block_dropout.hpp>
 #include <ck_tile/ops/gemm/block/block_gemm_areg_bsmem_creg_v2.hpp>
-#include <ck_tile/ops/gemm/pipeline/block_gemm_pipeline_problem.hpp>
-
-template <
-    ck_tile::index_t MPerBlockTile,
-    ck_tile::index_t NPerBlockTile,
-    ck_tile::index_t KPerBlockTile,
-    typename RandValOutputDataType,
-    bool kIsGroupMode>
+#include <ck_tile/ops/gemm/block/block_gemm_problem.hpp>
+
+template <typename RandValOutputDataType, bool kIsGroupMode>
 struct FmhaRandUniformKernel {
-  static constexpr ck_tile::index_t kBlockSize = 256;
+  using BlockTile = ck_tile::sequence<128, 64, 32>;
+  using WarpTile = ck_tile::sequence<32, 32, 8>;
+  using BlockWarps = ck_tile::sequence<4, 1, 1>;
+
+  using BlockGemmTileShape =
+      ck_tile::TileGemmShape<BlockTile, BlockWarps, WarpTile>;
+
+  static constexpr ck_tile::index_t kBlockSize =
+      BlockGemmTileShape::NumWarps * ck_tile::get_warp_size();
   static constexpr ck_tile::index_t kBlockPerCu = 1;
 
   __device__ static constexpr auto GetBlockGemm() {
     using namespace ck_tile;
 
-    using BlockGemmProblem_ = ck_tile::BlockGemmPipelineProblem<
+    using BlockGemmProblem_ = ck_tile::BlockGemmProblem<
         ck_tile::fp16_t,
         ck_tile::fp16_t,
         float,
         kBlockSize,
-        ck_tile::TileGemmShape<MPerBlockTile, NPerBlockTile, KPerBlockTile>>;
+        BlockGemmTileShape>;
 
     // using the default policy, which use M32xN32xK8 warp_tile
     return ck_tile::BlockGemmARegBSmemCRegV2<BlockGemmProblem_>{};

From 21ae9d98cc756265c7666e1fc40aa24be404bd57 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 22 Sep 2024 22:16:13 +0000
Subject: [PATCH 642/837] Move ck decoder codes to
 xformers/csrc/attention/hip_decoder folder

---
 setup.py                                      |    8 +-
 .../{hip_fmha => hip_decoder}/CMakeLists.txt  |    0
 .../attention_forward_decoder.cpp             |    0
 .../hip_decoder/attention_forward_decoder.cu  |  333 +++++
 .../hip_decoder/attention_forward_decoder.hip |  334 +++++
 .../attention_forward_decoder_hip.cpp         |  334 +++++
 .../attention_forward_decoder_hip.cu          |  334 +++++
 .../attention_forward_splitk.cpp              |    0
 .../hip_decoder/attention_forward_splitk.cu   | 1184 ++++++++++++++++
 .../hip_decoder/attention_forward_splitk.hip  | 1185 +++++++++++++++++
 .../attention_forward_splitk_hip.cpp          | 1185 +++++++++++++++++
 .../attention_forward_splitk_hip.cu           | 1185 +++++++++++++++++
 .../ck_attention_forward_decoder.h            |    0
 .../ck_attention_forward_decoder_hip.h        |  498 +++++++
 .../ck_attention_forward_decoder_splitk.h     |    0
 .../ck_attention_forward_decoder_splitk_hip.h |  715 ++++++++++
 .../ck_attention_inner_product.h              |    0
 .../ck_attention_math_ext.h                   |    0
 18 files changed, 7292 insertions(+), 3 deletions(-)
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/CMakeLists.txt (100%)
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/attention_forward_decoder.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/attention_forward_splitk.cpp (100%)
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp
 create mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/ck_attention_forward_decoder.h (100%)
 create mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/ck_attention_forward_decoder_splitk.h (100%)
 create mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/ck_attention_inner_product.h (100%)
 rename xformers/csrc/attention/{hip_fmha => hip_decoder}/ck_attention_math_ext.h (100%)

diff --git a/setup.py b/setup.py
index 9c3314673f..c57ca4f75e 100644
--- a/setup.py
+++ b/setup.py
@@ -281,11 +281,12 @@ def get_extensions():
     ]
 
     source_hip = glob.glob(
-        os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cpp"),
+        os.path.join(extensions_dir, "attention", "hip_*", "**", "*.cpp"),
         recursive=True,
     )
+
     source_hip_generated = glob.glob(
-        os.path.join(extensions_dir, "attention", "hip_fmha", "**", "*.cu"),
+        os.path.join(extensions_dir, "attention", "hip_*", "**", "*.cu"),
         recursive=True,
     )
     # avoid the temporary .cu files generated under xformers/csrc/attention/hip_fmha
@@ -439,7 +440,8 @@ def get_extensions():
         extension = CUDAExtension
         sources += source_hip_cu
         include_dirs += [
-            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha"
+            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha", 
+            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_decoder"
         ]
 
         include_dirs += [
diff --git a/xformers/csrc/attention/hip_fmha/CMakeLists.txt b/xformers/csrc/attention/hip_decoder/CMakeLists.txt
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/CMakeLists.txt
rename to xformers/csrc/attention/hip_decoder/CMakeLists.txt
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/attention_forward_decoder.cpp
rename to xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu
new file mode 100644
index 0000000000..7f126dd335
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu
@@ -0,0 +1,333 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <c10/cuda/CUDAStream.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+namespace {
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock,
+    int32_t KV_M_MAX = 8192,
+    int32_t K_MAX = K_MAX>
+at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  efficient_attention_forward_decoder_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  return efficient_attention_forward_decoder_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
+}
+
+#ifdef ATTN_FWD_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t H = 4;
+  const int32_t G = 1;
+  auto options = torch::TensorOptions()
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, G, H, D}, options);
+  auto K = at::randn({B, 4096, G, H, D}, options);
+  auto V = at::randn({B, 4096, G, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
+  double qk_scale = 1. / sqrt(D);
+
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+             "n_wavefronts_per_block"
+          << std::endl;
+      return 0;
+    }
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t n_groups = 1;
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q =
+        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+        : at::rand(
+              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::empty_like(Q);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip
new file mode 100644
index 0000000000..e638f47dea
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip
@@ -0,0 +1,334 @@
+// !!! This is a file automatically generated by hipify!!!
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_hip.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+namespace {
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock,
+    int32_t KV_M_MAX = 8192,
+    int32_t K_MAX = K_MAX>
+at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  efficient_attention_forward_decoder_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  return efficient_attention_forward_decoder_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
+}
+
+#ifdef ATTN_FWD_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t H = 4;
+  const int32_t G = 1;
+  auto options = torch::TensorOptions()
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, G, H, D}, options);
+  auto K = at::randn({B, 4096, G, H, D}, options);
+  auto V = at::randn({B, 4096, G, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
+  double qk_scale = 1. / sqrt(D);
+
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+             "n_wavefronts_per_block"
+          << std::endl;
+      return 0;
+    }
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t n_groups = 1;
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q =
+        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+        : at::rand(
+              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::empty_like(Q);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp
new file mode 100644
index 0000000000..e638f47dea
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp
@@ -0,0 +1,334 @@
+// !!! This is a file automatically generated by hipify!!!
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_hip.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+namespace {
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock,
+    int32_t KV_M_MAX = 8192,
+    int32_t K_MAX = K_MAX>
+at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  efficient_attention_forward_decoder_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  return efficient_attention_forward_decoder_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
+}
+
+#ifdef ATTN_FWD_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t H = 4;
+  const int32_t G = 1;
+  auto options = torch::TensorOptions()
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, G, H, D}, options);
+  auto K = at::randn({B, 4096, G, H, D}, options);
+  auto V = at::randn({B, 4096, G, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
+  double qk_scale = 1. / sqrt(D);
+
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+             "n_wavefronts_per_block"
+          << std::endl;
+      return 0;
+    }
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t n_groups = 1;
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q =
+        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+        : at::rand(
+              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::empty_like(Q);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu b/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu
new file mode 100644
index 0000000000..e638f47dea
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu
@@ -0,0 +1,334 @@
+// !!! This is a file automatically generated by hipify!!!
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_hip.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 16;
+constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+namespace {
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock,
+    int32_t KV_M_MAX = 8192,
+    int32_t K_MAX = K_MAX>
+at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
+  TORCH_CHECK(cache_K.size(4) <= K_MAX);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = K_MAX * sizeof(float) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            seq_acc,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  auto O = at::empty_like(XQ);
+  efficient_attention_forward_decoder_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale) {
+  return efficient_attention_forward_decoder_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_ck));
+}
+
+#ifdef ATTN_FWD_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining all the library paths needed for compilation below, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static void do_correctness_check() {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t B = 1;
+  const int32_t H = 4;
+  const int32_t G = 1;
+  auto options = torch::TensorOptions()
+                     .dtype(torch::kFloat32)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, 1, G, H, D}, options);
+  auto K = at::randn({B, 4096, G, H, D}, options);
+  auto V = at::randn({B, 4096, G, H, D}, options);
+  auto seq = at::randint(63, 128, {B}, int_options);
+  double qk_scale = 1. / sqrt(D);
+
+  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
+      XQ, K, V, seq, qk_scale);
+  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
+      XQ, K, V, seq, qk_scale);
+  auto mask = at::isclose(
+      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  printf(
+      "Mismatched elements percentage: %.2f\n",
+      1. - percent_match.item<float>());
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    do_correctness_check();
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 7) {
+      std::cout
+          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
+             "n_wavefronts_per_block"
+          << std::endl;
+      return 0;
+    }
+    const int32_t n_keys = std::stoi(args[0]);
+    const int32_t padding = std::stoi(args[1]);
+    const int32_t batch_size = std::stoi(args[2]);
+    const int32_t n_heads = std::stoi(args[3]);
+    const int32_t n_groups = 1;
+    const int32_t multiquery = (args[4] == "mq");
+    const auto dtype = (args[5] == "f32") ? torch::kFloat32
+        : (args[5] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
+
+    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
+
+    const auto options = torch::TensorOptions()
+                             .dtype(dtype)
+                             .layout(torch::kStrided)
+                             .device(torch::kCUDA, 1)
+                             .requires_grad(false);
+
+    const auto int_options = options.dtype(torch::kInt);
+    const auto Q =
+        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
+    const auto K = multiquery
+        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
+              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
+        : at::rand(
+              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
+    const auto V = at::rand_like(K);
+    auto O = at::empty_like(Q);
+
+    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
+    const double qk_scale = 1. / sqrt(dim_per_head);
+    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
+                             kThreadsPerWavefront,
+                             kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                               \
+  case (n):                                                      \
+    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
+        kThreadsPerWavefront,                                    \
+        (n)>;                                                    \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(Q, K, V, seq, qk_scale, O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/attention_forward_splitk.cpp
rename to xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu
new file mode 100644
index 0000000000..fd70436a36
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu
@@ -0,0 +1,1184 @@
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <c10/cuda/CUDAStream.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_splitk.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 4;
+constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
+constexpr int32_t kMaxKVSequenceLength = 4096;
+constexpr int32_t kLoopUnroll = 16;
+constexpr int32_t kLoopUnrollTail = 2;
+using compute_t = float;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+namespace {
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock>
+at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k,
+    at::Tensor& split_max,
+    at::Tensor& split_sumexp,
+    at::Tensor& split_O,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
+  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
+      WavefrontsPerBlock * sizeof(compute_t);
+  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_splitk_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
+                ck_data_t,
+                kMaxKVSequenceLength,
+                kLoopUnroll,
+                kLoopUnrollTail,
+                compute_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc_ptr = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc_ptr,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+
+  TORCH_CHECK(XQ.dim() == rank);
+  TORCH_CHECK(cache_K.dim() == rank);
+  TORCH_CHECK(cache_V.dim() == rank);
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto K = XQ.size(4);
+
+  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  efficient_attention_forward_decoder_splitk_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(
+      XQ,
+      cache_K,
+      cache_V,
+      seq_kv_lens,
+      qk_scale,
+      split_k,
+      split_max,
+      split_sumexp,
+      O_splits,
+      O);
+
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_splitk_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  return efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(
+      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME(
+          "xformers::efficient_attention_forward_decoder_splitk_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+}
+
+#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining the executed build commands, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_splitk_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& k_seqlens,
+    const int32_t split_k,
+    const int32_t block_size) {
+  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+
+  std::vector<at::Tensor> O_splits;
+  std::vector<at::Tensor> m_splits;
+  std::vector<at::Tensor> l_splits;
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    std::vector<at::Tensor> O_batch;
+    std::vector<at::Tensor> m_batch;
+    std::vector<at::Tensor> l_batch;
+
+    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+      auto seqlen = k_seqlens[b].item<int64_t>();
+      const int64_t t_low =
+          split_idx * (seqlen / split_k / block_size) * block_size;
+      const int64_t t_high = (split_idx + 1 < split_k)
+          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
+          : seqlen;
+
+      const bool empty = t_low == t_high;
+
+      auto S = at::einsum(
+          "mghk, nghk -> mghn",
+          {Q_scaled[b],
+           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      auto m = empty
+          ? at::empty_like(S)
+          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+      auto s = at::exp(at::sub(S, m));
+      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+      auto O = at::einsum(
+          "mghn, nghk -> mghk",
+          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      if (empty) {
+        m = at::empty_like(at::slice(O, -1, 0, 1));
+        l = at::zeros_like(m);
+        m.fill_(ck::NumericLimits<float>::Lowest());
+      }
+      O_batch.push_back(O);
+      m_batch.push_back(m);
+      l_batch.push_back(l);
+    }
+
+    auto O_cat = at::stack(O_batch);
+    auto m_cat = at::stack(m_batch);
+    auto l_cat = at::stack(l_batch);
+
+    O_splits.push_back(O_cat);
+    m_splits.push_back(m_cat);
+    l_splits.push_back(l_cat);
+  }
+
+  auto O_cat = at::stack(O_splits);
+  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
+
+  return std::make_tuple(O_cat, m_cat, l_cat);
+}
+
+static at::Tensor split_reduce_torch(
+    const at::Tensor& O_splits,
+    const at::Tensor& m_splits,
+    const at::Tensor& l_splits,
+    int32_t split_k) {
+  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+  auto global_max =
+      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+  auto global_sumexp = at::zeros_like(global_max);
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
+    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
+    auto alpha = at::exp(log_alpha);
+    alpha.nan_to_num_(1.);
+
+    auto pick_new = at::less(local_max, global_max);
+    auto pick_current_coef = at::where(pick_new, 1., alpha);
+    auto pick_new_coef = at::where(pick_new, alpha, 1.);
+
+    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+    global_sumexp = at::add(
+        at::mul(pick_current_coef, global_sumexp),
+        at::mul(pick_new_coef, local_sumexp));
+    global_max = at::max(local_max, global_max);
+  }
+
+  return at::div(O, global_sumexp);
+}
+
+static at::Tensor efficient_attention_forward_decoder_splitk_torch(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int32_t split_k,
+    int32_t block_size) {
+  auto [O_split, m, l] = split_attention_torch(
+      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
+  auto O = split_reduce_torch(O_split, m, l, split_k);
+  return O.reshape_as(XQ);
+}
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    4,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+      return split_attention_result;
+    }
+  };
+};
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ split_O;
+    const compute_t* __restrict__ split_max;
+    const compute_t* __restrict__ split_sumexp;
+    scalar_t* __restrict__ O;
+
+    const int32_t O_size_m;
+    const int32_t O_size_g;
+    const int32_t O_size_h;
+    const int32_t O_size_k;
+
+    const ptrdiff_t O_stride_split;
+    const ptrdiff_t O_stride_b;
+    const ptrdiff_t O_stride_m;
+    const ptrdiff_t O_stride_g;
+    const ptrdiff_t O_stride_h;
+
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ split_O,
+        const compute_t* __restrict__ split_max,
+        const compute_t* __restrict__ split_sumexp,
+        scalar_t* __restrict__ O,
+        const int32_t O_size_m,
+        const int32_t O_size_g,
+        const int32_t O_size_h,
+        const int32_t O_size_k,
+        const ptrdiff_t O_stride_split,
+        const ptrdiff_t O_stride_b,
+        const ptrdiff_t O_stride_m,
+        const ptrdiff_t O_stride_g,
+        const ptrdiff_t O_stride_h,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          O(O),
+          O_size_m(O_size_m),
+          O_size_g(O_size_g),
+          O_size_h(O_size_h),
+          O_size_k(O_size_k),
+          O_stride_split(O_stride_split),
+          O_stride_b(O_stride_b),
+          O_stride_m(O_stride_m),
+          O_stride_g(O_stride_g),
+          O_stride_h(O_stride_h),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    O_stride_b: " << O_stride_b << std::endl
+          << "    O_stride_m: " << O_stride_m << std::endl
+          << "    O_stride_g: " << O_stride_g << std::endl
+          << "    O_stride_h: " << O_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    O_size_m: " << O_size_m << std::endl
+          << "    O_size_g: " << O_size_g << std::endl
+          << "    O_size_h: " << O_size_h << std::endl
+          << "    O_size_k: " << O_size_k << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto O_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
+          O_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported O_size_k");
+      }
+
+      if (arg.O_size_k % O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for O_size_k");
+      }
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          O_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : O_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.O_size_m,
+          arg.O_size_g,
+          arg.O_size_h,
+          arg.O_size_k,
+          arg.O_stride_split,
+          arg.O_stride_b,
+          arg.O_stride_m,
+          arg.O_stride_g,
+          arg.O_stride_h,
+          arg.split_k);
+      return reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
+    const at::Tensor& XQ,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& seqlen,
+    const int32_t split_k,
+    const int32_t wavefronts_per_block) {
+  at::OptionalDeviceGuard guard(XQ.device());
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto D = XQ.size(4);
+
+  double qk_scale = 1. / sqrt(D);
+
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+          .fill_(ck::NumericLimits<float>::Lowest());
+  auto split_sumexp = at::zeros_like(split_max);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
+
+  int32_t smem_softmax =
+      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
+      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
+                            // sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_split_attention_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc =
+            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return std::make_tuple(split_O, split_max, split_sumexp);
+}
+
+static at::Tensor split_reduce_hip(
+    const at::Tensor& split_O,
+    const at::Tensor& split_max,
+    const at::Tensor& split_sumexp,
+    const int32_t split_k) {
+  at::OptionalDeviceGuard guard(split_O.device());
+
+  auto B = split_O.size(1);
+  auto M = split_O.size(2);
+  auto G = split_O.size(3);
+  auto H = split_O.size(4);
+  auto D = split_O.size(5);
+
+  TORCH_CHECK_EQ(split_k, split_O.size(0));
+  TORCH_CHECK_EQ(split_k, split_max.size(-1));
+  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
+
+  constexpr auto rank = 5;
+
+  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
+  TORCH_CHECK_EQ(split_max.dim(), rank);
+  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
+
+  auto O = at::zeros({B, M, G, H, D}, split_O.options());
+
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto lds_bytes = 0;
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(kThreadsPerWavefront);
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      O.scalar_type(),
+      "efficient_attention_forward_decoder_split_reduce_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            O_acc.size(1),
+            O_acc.size(2),
+            O_acc.size(3),
+            O_acc.size(4),
+            split_O_acc.stride(0),
+            O_acc.stride(0),
+            O_acc.stride(1),
+            O_acc.stride(2),
+            O_acc.stride(3),
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return O;
+}
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
+    const int32_t padding,
+    const int32_t B,
+    const int32_t Hq,
+    const int32_t Hkv,
+    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t G = Hq / Hkv;
+  const int32_t num_queries = 1;
+
+  at::manual_seed(1);
+
+  auto options = torch::TensorOptions()
+                     .dtype(dtype)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
+                    : at::randn({B, padding, G, 1, D}, options)
+                          .expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
+  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
+
+  return std::make_tuple(XQ, K, V, seqlen);
+}
+
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
+  auto mask =
+      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  return 1. - percent_match.item<float>();
+}
+
+static void test_split_attention(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] = split_attention_torch(
+      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
+
+  auto [O_hip, m_hip, l_hip] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
+  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
+  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
+
+  printf(
+      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
+      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
+      "split_sumexp elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      O_percent_mismatch,
+      m_percent_mismatch,
+      l_percent_mismatch);
+}
+
+static void test_split_reduce(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_torch = split_reduce_torch(
+      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
+  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
+
+  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
+  printf(
+      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
+      "percentage: %.2f \n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      hip_torch_mismatch);
+}
+
+static void test_splitk_decoder_e2e_correctness(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  double qk_scale = 1. / sqrt(XQ.size(-1));
+
+  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
+      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
+  auto e2e_mismatch = percent_mismatch(result, gold_result);
+  printf(
+      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
+      "elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      e2e_mismatch);
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_splitk_decoder_e2e_correctness(
+                  padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2}) {
+              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 6) {
+      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
+                   "n_wavefronts_per_block"
+                << std::endl;
+      return 0;
+    }
+    const int32_t padding = std::stoi(args[0]);
+    const int32_t batch_size = std::stoi(args[1]);
+    const int32_t nq_heads = std::stoi(args[2]);
+    const int32_t nkv_heads = std::stoi(args[3]);
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+    auto [Q, K, V, seq] =
+        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
+    auto O = at::empty_like(Q);
+
+    constexpr auto splitk_dim = 0;
+    constexpr auto split_k = 1;
+    auto O_splits = at::stack(O, splitk_dim);
+
+    auto split_max = at::empty(
+        {batch_size, padding, Q.size(2), Q.size(3), split_k},
+        Q.options().dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
+
+    const double qk_scale = 1. / sqrt(Q.size(-1));
+    auto call_ptr =
+        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
+                 kThreadsPerWavefront,
+                 kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                      \
+  case (n):                                                             \
+    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
+        kThreadsPerWavefront,                                           \
+        (n)>;                                                           \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(
+          Q,
+          K,
+          V,
+          seq,
+          qk_scale,
+          split_k,
+          split_max,
+          split_sumexp,
+          O_splits,
+          O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip
new file mode 100644
index 0000000000..1b287b4ccd
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip
@@ -0,0 +1,1185 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_splitk_hip.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 4;
+constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
+constexpr int32_t kMaxKVSequenceLength = 4096;
+constexpr int32_t kLoopUnroll = 16;
+constexpr int32_t kLoopUnrollTail = 2;
+using compute_t = float;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+namespace {
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock>
+at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k,
+    at::Tensor& split_max,
+    at::Tensor& split_sumexp,
+    at::Tensor& split_O,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
+  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
+      WavefrontsPerBlock * sizeof(compute_t);
+  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_splitk_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
+                ck_data_t,
+                kMaxKVSequenceLength,
+                kLoopUnroll,
+                kLoopUnrollTail,
+                compute_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc_ptr = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc_ptr,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+
+  TORCH_CHECK(XQ.dim() == rank);
+  TORCH_CHECK(cache_K.dim() == rank);
+  TORCH_CHECK(cache_V.dim() == rank);
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto K = XQ.size(4);
+
+  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  efficient_attention_forward_decoder_splitk_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(
+      XQ,
+      cache_K,
+      cache_V,
+      seq_kv_lens,
+      qk_scale,
+      split_k,
+      split_max,
+      split_sumexp,
+      O_splits,
+      O);
+
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_splitk_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  return efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(
+      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME(
+          "xformers::efficient_attention_forward_decoder_splitk_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+}
+
+#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining the executed build commands, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_splitk_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& k_seqlens,
+    const int32_t split_k,
+    const int32_t block_size) {
+  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+
+  std::vector<at::Tensor> O_splits;
+  std::vector<at::Tensor> m_splits;
+  std::vector<at::Tensor> l_splits;
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    std::vector<at::Tensor> O_batch;
+    std::vector<at::Tensor> m_batch;
+    std::vector<at::Tensor> l_batch;
+
+    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+      auto seqlen = k_seqlens[b].item<int64_t>();
+      const int64_t t_low =
+          split_idx * (seqlen / split_k / block_size) * block_size;
+      const int64_t t_high = (split_idx + 1 < split_k)
+          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
+          : seqlen;
+
+      const bool empty = t_low == t_high;
+
+      auto S = at::einsum(
+          "mghk, nghk -> mghn",
+          {Q_scaled[b],
+           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      auto m = empty
+          ? at::empty_like(S)
+          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+      auto s = at::exp(at::sub(S, m));
+      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+      auto O = at::einsum(
+          "mghn, nghk -> mghk",
+          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      if (empty) {
+        m = at::empty_like(at::slice(O, -1, 0, 1));
+        l = at::zeros_like(m);
+        m.fill_(ck::NumericLimits<float>::Lowest());
+      }
+      O_batch.push_back(O);
+      m_batch.push_back(m);
+      l_batch.push_back(l);
+    }
+
+    auto O_cat = at::stack(O_batch);
+    auto m_cat = at::stack(m_batch);
+    auto l_cat = at::stack(l_batch);
+
+    O_splits.push_back(O_cat);
+    m_splits.push_back(m_cat);
+    l_splits.push_back(l_cat);
+  }
+
+  auto O_cat = at::stack(O_splits);
+  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
+
+  return std::make_tuple(O_cat, m_cat, l_cat);
+}
+
+static at::Tensor split_reduce_torch(
+    const at::Tensor& O_splits,
+    const at::Tensor& m_splits,
+    const at::Tensor& l_splits,
+    int32_t split_k) {
+  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+  auto global_max =
+      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+  auto global_sumexp = at::zeros_like(global_max);
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
+    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
+    auto alpha = at::exp(log_alpha);
+    alpha.nan_to_num_(1.);
+
+    auto pick_new = at::less(local_max, global_max);
+    auto pick_current_coef = at::where(pick_new, 1., alpha);
+    auto pick_new_coef = at::where(pick_new, alpha, 1.);
+
+    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+    global_sumexp = at::add(
+        at::mul(pick_current_coef, global_sumexp),
+        at::mul(pick_new_coef, local_sumexp));
+    global_max = at::max(local_max, global_max);
+  }
+
+  return at::div(O, global_sumexp);
+}
+
+static at::Tensor efficient_attention_forward_decoder_splitk_torch(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int32_t split_k,
+    int32_t block_size) {
+  auto [O_split, m, l] = split_attention_torch(
+      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
+  auto O = split_reduce_torch(O_split, m, l, split_k);
+  return O.reshape_as(XQ);
+}
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    4,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+      return split_attention_result;
+    }
+  };
+};
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ split_O;
+    const compute_t* __restrict__ split_max;
+    const compute_t* __restrict__ split_sumexp;
+    scalar_t* __restrict__ O;
+
+    const int32_t O_size_m;
+    const int32_t O_size_g;
+    const int32_t O_size_h;
+    const int32_t O_size_k;
+
+    const ptrdiff_t O_stride_split;
+    const ptrdiff_t O_stride_b;
+    const ptrdiff_t O_stride_m;
+    const ptrdiff_t O_stride_g;
+    const ptrdiff_t O_stride_h;
+
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ split_O,
+        const compute_t* __restrict__ split_max,
+        const compute_t* __restrict__ split_sumexp,
+        scalar_t* __restrict__ O,
+        const int32_t O_size_m,
+        const int32_t O_size_g,
+        const int32_t O_size_h,
+        const int32_t O_size_k,
+        const ptrdiff_t O_stride_split,
+        const ptrdiff_t O_stride_b,
+        const ptrdiff_t O_stride_m,
+        const ptrdiff_t O_stride_g,
+        const ptrdiff_t O_stride_h,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          O(O),
+          O_size_m(O_size_m),
+          O_size_g(O_size_g),
+          O_size_h(O_size_h),
+          O_size_k(O_size_k),
+          O_stride_split(O_stride_split),
+          O_stride_b(O_stride_b),
+          O_stride_m(O_stride_m),
+          O_stride_g(O_stride_g),
+          O_stride_h(O_stride_h),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    O_stride_b: " << O_stride_b << std::endl
+          << "    O_stride_m: " << O_stride_m << std::endl
+          << "    O_stride_g: " << O_stride_g << std::endl
+          << "    O_stride_h: " << O_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    O_size_m: " << O_size_m << std::endl
+          << "    O_size_g: " << O_size_g << std::endl
+          << "    O_size_h: " << O_size_h << std::endl
+          << "    O_size_k: " << O_size_k << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto O_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
+          O_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported O_size_k");
+      }
+
+      if (arg.O_size_k % O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for O_size_k");
+      }
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          O_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : O_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.O_size_m,
+          arg.O_size_g,
+          arg.O_size_h,
+          arg.O_size_k,
+          arg.O_stride_split,
+          arg.O_stride_b,
+          arg.O_stride_m,
+          arg.O_stride_g,
+          arg.O_stride_h,
+          arg.split_k);
+      return reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
+    const at::Tensor& XQ,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& seqlen,
+    const int32_t split_k,
+    const int32_t wavefronts_per_block) {
+  at::OptionalDeviceGuard guard(XQ.device());
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto D = XQ.size(4);
+
+  double qk_scale = 1. / sqrt(D);
+
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+          .fill_(ck::NumericLimits<float>::Lowest());
+  auto split_sumexp = at::zeros_like(split_max);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
+
+  int32_t smem_softmax =
+      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
+      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
+                            // sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_split_attention_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc =
+            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return std::make_tuple(split_O, split_max, split_sumexp);
+}
+
+static at::Tensor split_reduce_hip(
+    const at::Tensor& split_O,
+    const at::Tensor& split_max,
+    const at::Tensor& split_sumexp,
+    const int32_t split_k) {
+  at::OptionalDeviceGuard guard(split_O.device());
+
+  auto B = split_O.size(1);
+  auto M = split_O.size(2);
+  auto G = split_O.size(3);
+  auto H = split_O.size(4);
+  auto D = split_O.size(5);
+
+  TORCH_CHECK_EQ(split_k, split_O.size(0));
+  TORCH_CHECK_EQ(split_k, split_max.size(-1));
+  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
+
+  constexpr auto rank = 5;
+
+  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
+  TORCH_CHECK_EQ(split_max.dim(), rank);
+  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
+
+  auto O = at::zeros({B, M, G, H, D}, split_O.options());
+
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto lds_bytes = 0;
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(kThreadsPerWavefront);
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      O.scalar_type(),
+      "efficient_attention_forward_decoder_split_reduce_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            O_acc.size(1),
+            O_acc.size(2),
+            O_acc.size(3),
+            O_acc.size(4),
+            split_O_acc.stride(0),
+            O_acc.stride(0),
+            O_acc.stride(1),
+            O_acc.stride(2),
+            O_acc.stride(3),
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return O;
+}
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
+    const int32_t padding,
+    const int32_t B,
+    const int32_t Hq,
+    const int32_t Hkv,
+    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t G = Hq / Hkv;
+  const int32_t num_queries = 1;
+
+  at::manual_seed(1);
+
+  auto options = torch::TensorOptions()
+                     .dtype(dtype)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
+                    : at::randn({B, padding, G, 1, D}, options)
+                          .expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
+  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
+
+  return std::make_tuple(XQ, K, V, seqlen);
+}
+
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
+  auto mask =
+      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  return 1. - percent_match.item<float>();
+}
+
+static void test_split_attention(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] = split_attention_torch(
+      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
+
+  auto [O_hip, m_hip, l_hip] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
+  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
+  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
+
+  printf(
+      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
+      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
+      "split_sumexp elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      O_percent_mismatch,
+      m_percent_mismatch,
+      l_percent_mismatch);
+}
+
+static void test_split_reduce(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_torch = split_reduce_torch(
+      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
+  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
+
+  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
+  printf(
+      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
+      "percentage: %.2f \n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      hip_torch_mismatch);
+}
+
+static void test_splitk_decoder_e2e_correctness(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  double qk_scale = 1. / sqrt(XQ.size(-1));
+
+  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
+      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
+  auto e2e_mismatch = percent_mismatch(result, gold_result);
+  printf(
+      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
+      "elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      e2e_mismatch);
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_splitk_decoder_e2e_correctness(
+                  padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2}) {
+              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 6) {
+      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
+                   "n_wavefronts_per_block"
+                << std::endl;
+      return 0;
+    }
+    const int32_t padding = std::stoi(args[0]);
+    const int32_t batch_size = std::stoi(args[1]);
+    const int32_t nq_heads = std::stoi(args[2]);
+    const int32_t nkv_heads = std::stoi(args[3]);
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+    auto [Q, K, V, seq] =
+        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
+    auto O = at::empty_like(Q);
+
+    constexpr auto splitk_dim = 0;
+    constexpr auto split_k = 1;
+    auto O_splits = at::stack(O, splitk_dim);
+
+    auto split_max = at::empty(
+        {batch_size, padding, Q.size(2), Q.size(3), split_k},
+        Q.options().dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
+
+    const double qk_scale = 1. / sqrt(Q.size(-1));
+    auto call_ptr =
+        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
+                 kThreadsPerWavefront,
+                 kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                      \
+  case (n):                                                             \
+    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
+        kThreadsPerWavefront,                                           \
+        (n)>;                                                           \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(
+          Q,
+          K,
+          V,
+          seq,
+          qk_scale,
+          split_k,
+          split_max,
+          split_sumexp,
+          O_splits,
+          O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp
new file mode 100644
index 0000000000..1b287b4ccd
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp
@@ -0,0 +1,1185 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_splitk_hip.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 4;
+constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
+constexpr int32_t kMaxKVSequenceLength = 4096;
+constexpr int32_t kLoopUnroll = 16;
+constexpr int32_t kLoopUnrollTail = 2;
+using compute_t = float;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+namespace {
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock>
+at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k,
+    at::Tensor& split_max,
+    at::Tensor& split_sumexp,
+    at::Tensor& split_O,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
+  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
+      WavefrontsPerBlock * sizeof(compute_t);
+  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_splitk_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
+                ck_data_t,
+                kMaxKVSequenceLength,
+                kLoopUnroll,
+                kLoopUnrollTail,
+                compute_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc_ptr = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc_ptr,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+
+  TORCH_CHECK(XQ.dim() == rank);
+  TORCH_CHECK(cache_K.dim() == rank);
+  TORCH_CHECK(cache_V.dim() == rank);
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto K = XQ.size(4);
+
+  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  efficient_attention_forward_decoder_splitk_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(
+      XQ,
+      cache_K,
+      cache_V,
+      seq_kv_lens,
+      qk_scale,
+      split_k,
+      split_max,
+      split_sumexp,
+      O_splits,
+      O);
+
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_splitk_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  return efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(
+      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME(
+          "xformers::efficient_attention_forward_decoder_splitk_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+}
+
+#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining the executed build commands, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_splitk_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& k_seqlens,
+    const int32_t split_k,
+    const int32_t block_size) {
+  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+
+  std::vector<at::Tensor> O_splits;
+  std::vector<at::Tensor> m_splits;
+  std::vector<at::Tensor> l_splits;
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    std::vector<at::Tensor> O_batch;
+    std::vector<at::Tensor> m_batch;
+    std::vector<at::Tensor> l_batch;
+
+    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+      auto seqlen = k_seqlens[b].item<int64_t>();
+      const int64_t t_low =
+          split_idx * (seqlen / split_k / block_size) * block_size;
+      const int64_t t_high = (split_idx + 1 < split_k)
+          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
+          : seqlen;
+
+      const bool empty = t_low == t_high;
+
+      auto S = at::einsum(
+          "mghk, nghk -> mghn",
+          {Q_scaled[b],
+           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      auto m = empty
+          ? at::empty_like(S)
+          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+      auto s = at::exp(at::sub(S, m));
+      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+      auto O = at::einsum(
+          "mghn, nghk -> mghk",
+          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      if (empty) {
+        m = at::empty_like(at::slice(O, -1, 0, 1));
+        l = at::zeros_like(m);
+        m.fill_(ck::NumericLimits<float>::Lowest());
+      }
+      O_batch.push_back(O);
+      m_batch.push_back(m);
+      l_batch.push_back(l);
+    }
+
+    auto O_cat = at::stack(O_batch);
+    auto m_cat = at::stack(m_batch);
+    auto l_cat = at::stack(l_batch);
+
+    O_splits.push_back(O_cat);
+    m_splits.push_back(m_cat);
+    l_splits.push_back(l_cat);
+  }
+
+  auto O_cat = at::stack(O_splits);
+  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
+
+  return std::make_tuple(O_cat, m_cat, l_cat);
+}
+
+static at::Tensor split_reduce_torch(
+    const at::Tensor& O_splits,
+    const at::Tensor& m_splits,
+    const at::Tensor& l_splits,
+    int32_t split_k) {
+  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+  auto global_max =
+      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+  auto global_sumexp = at::zeros_like(global_max);
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
+    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
+    auto alpha = at::exp(log_alpha);
+    alpha.nan_to_num_(1.);
+
+    auto pick_new = at::less(local_max, global_max);
+    auto pick_current_coef = at::where(pick_new, 1., alpha);
+    auto pick_new_coef = at::where(pick_new, alpha, 1.);
+
+    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+    global_sumexp = at::add(
+        at::mul(pick_current_coef, global_sumexp),
+        at::mul(pick_new_coef, local_sumexp));
+    global_max = at::max(local_max, global_max);
+  }
+
+  return at::div(O, global_sumexp);
+}
+
+static at::Tensor efficient_attention_forward_decoder_splitk_torch(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int32_t split_k,
+    int32_t block_size) {
+  auto [O_split, m, l] = split_attention_torch(
+      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
+  auto O = split_reduce_torch(O_split, m, l, split_k);
+  return O.reshape_as(XQ);
+}
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    4,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+      return split_attention_result;
+    }
+  };
+};
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ split_O;
+    const compute_t* __restrict__ split_max;
+    const compute_t* __restrict__ split_sumexp;
+    scalar_t* __restrict__ O;
+
+    const int32_t O_size_m;
+    const int32_t O_size_g;
+    const int32_t O_size_h;
+    const int32_t O_size_k;
+
+    const ptrdiff_t O_stride_split;
+    const ptrdiff_t O_stride_b;
+    const ptrdiff_t O_stride_m;
+    const ptrdiff_t O_stride_g;
+    const ptrdiff_t O_stride_h;
+
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ split_O,
+        const compute_t* __restrict__ split_max,
+        const compute_t* __restrict__ split_sumexp,
+        scalar_t* __restrict__ O,
+        const int32_t O_size_m,
+        const int32_t O_size_g,
+        const int32_t O_size_h,
+        const int32_t O_size_k,
+        const ptrdiff_t O_stride_split,
+        const ptrdiff_t O_stride_b,
+        const ptrdiff_t O_stride_m,
+        const ptrdiff_t O_stride_g,
+        const ptrdiff_t O_stride_h,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          O(O),
+          O_size_m(O_size_m),
+          O_size_g(O_size_g),
+          O_size_h(O_size_h),
+          O_size_k(O_size_k),
+          O_stride_split(O_stride_split),
+          O_stride_b(O_stride_b),
+          O_stride_m(O_stride_m),
+          O_stride_g(O_stride_g),
+          O_stride_h(O_stride_h),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    O_stride_b: " << O_stride_b << std::endl
+          << "    O_stride_m: " << O_stride_m << std::endl
+          << "    O_stride_g: " << O_stride_g << std::endl
+          << "    O_stride_h: " << O_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    O_size_m: " << O_size_m << std::endl
+          << "    O_size_g: " << O_size_g << std::endl
+          << "    O_size_h: " << O_size_h << std::endl
+          << "    O_size_k: " << O_size_k << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto O_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
+          O_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported O_size_k");
+      }
+
+      if (arg.O_size_k % O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for O_size_k");
+      }
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          O_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : O_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.O_size_m,
+          arg.O_size_g,
+          arg.O_size_h,
+          arg.O_size_k,
+          arg.O_stride_split,
+          arg.O_stride_b,
+          arg.O_stride_m,
+          arg.O_stride_g,
+          arg.O_stride_h,
+          arg.split_k);
+      return reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
+    const at::Tensor& XQ,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& seqlen,
+    const int32_t split_k,
+    const int32_t wavefronts_per_block) {
+  at::OptionalDeviceGuard guard(XQ.device());
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto D = XQ.size(4);
+
+  double qk_scale = 1. / sqrt(D);
+
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+          .fill_(ck::NumericLimits<float>::Lowest());
+  auto split_sumexp = at::zeros_like(split_max);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
+
+  int32_t smem_softmax =
+      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
+      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
+                            // sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_split_attention_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc =
+            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return std::make_tuple(split_O, split_max, split_sumexp);
+}
+
+static at::Tensor split_reduce_hip(
+    const at::Tensor& split_O,
+    const at::Tensor& split_max,
+    const at::Tensor& split_sumexp,
+    const int32_t split_k) {
+  at::OptionalDeviceGuard guard(split_O.device());
+
+  auto B = split_O.size(1);
+  auto M = split_O.size(2);
+  auto G = split_O.size(3);
+  auto H = split_O.size(4);
+  auto D = split_O.size(5);
+
+  TORCH_CHECK_EQ(split_k, split_O.size(0));
+  TORCH_CHECK_EQ(split_k, split_max.size(-1));
+  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
+
+  constexpr auto rank = 5;
+
+  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
+  TORCH_CHECK_EQ(split_max.dim(), rank);
+  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
+
+  auto O = at::zeros({B, M, G, H, D}, split_O.options());
+
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto lds_bytes = 0;
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(kThreadsPerWavefront);
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      O.scalar_type(),
+      "efficient_attention_forward_decoder_split_reduce_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            O_acc.size(1),
+            O_acc.size(2),
+            O_acc.size(3),
+            O_acc.size(4),
+            split_O_acc.stride(0),
+            O_acc.stride(0),
+            O_acc.stride(1),
+            O_acc.stride(2),
+            O_acc.stride(3),
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return O;
+}
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
+    const int32_t padding,
+    const int32_t B,
+    const int32_t Hq,
+    const int32_t Hkv,
+    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t G = Hq / Hkv;
+  const int32_t num_queries = 1;
+
+  at::manual_seed(1);
+
+  auto options = torch::TensorOptions()
+                     .dtype(dtype)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
+                    : at::randn({B, padding, G, 1, D}, options)
+                          .expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
+  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
+
+  return std::make_tuple(XQ, K, V, seqlen);
+}
+
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
+  auto mask =
+      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  return 1. - percent_match.item<float>();
+}
+
+static void test_split_attention(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] = split_attention_torch(
+      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
+
+  auto [O_hip, m_hip, l_hip] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
+  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
+  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
+
+  printf(
+      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
+      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
+      "split_sumexp elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      O_percent_mismatch,
+      m_percent_mismatch,
+      l_percent_mismatch);
+}
+
+static void test_split_reduce(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_torch = split_reduce_torch(
+      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
+  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
+
+  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
+  printf(
+      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
+      "percentage: %.2f \n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      hip_torch_mismatch);
+}
+
+static void test_splitk_decoder_e2e_correctness(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  double qk_scale = 1. / sqrt(XQ.size(-1));
+
+  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
+      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
+  auto e2e_mismatch = percent_mismatch(result, gold_result);
+  printf(
+      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
+      "elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      e2e_mismatch);
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_splitk_decoder_e2e_correctness(
+                  padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2}) {
+              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 6) {
+      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
+                   "n_wavefronts_per_block"
+                << std::endl;
+      return 0;
+    }
+    const int32_t padding = std::stoi(args[0]);
+    const int32_t batch_size = std::stoi(args[1]);
+    const int32_t nq_heads = std::stoi(args[2]);
+    const int32_t nkv_heads = std::stoi(args[3]);
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+    auto [Q, K, V, seq] =
+        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
+    auto O = at::empty_like(Q);
+
+    constexpr auto splitk_dim = 0;
+    constexpr auto split_k = 1;
+    auto O_splits = at::stack(O, splitk_dim);
+
+    auto split_max = at::empty(
+        {batch_size, padding, Q.size(2), Q.size(3), split_k},
+        Q.options().dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
+
+    const double qk_scale = 1. / sqrt(Q.size(-1));
+    auto call_ptr =
+        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
+                 kThreadsPerWavefront,
+                 kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                      \
+  case (n):                                                             \
+    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
+        kThreadsPerWavefront,                                           \
+        (n)>;                                                           \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(
+          Q,
+          K,
+          V,
+          seq,
+          qk_scale,
+          split_k,
+          split_max,
+          split_sumexp,
+          O_splits,
+          O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu b/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu
new file mode 100644
index 0000000000..1b287b4ccd
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu
@@ -0,0 +1,1185 @@
+// !!! This is a file automatically generated by hipify!!!
+#include <ATen/Dispatch.h>
+#include <ATen/Functions.h>
+#include <ATen/Tensor.h>
+#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
+#include <torch/library.h>
+
+#include "ck_attention_forward_decoder_splitk_hip.h"
+
+namespace {
+constexpr int32_t kThreadsPerWavefront = 64;
+constexpr int32_t kWavefrontsPerBlock = 4;
+constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
+constexpr int32_t kMaxKVSequenceLength = 4096;
+constexpr int32_t kLoopUnroll = 16;
+constexpr int32_t kLoopUnrollTail = 2;
+using compute_t = float;
+} // namespace
+
+namespace {
+
+template <typename c10_t>
+struct c10_to_data_t;
+template <>
+struct c10_to_data_t<float> {
+  using type = float;
+};
+
+template <>
+struct c10_to_data_t<c10::Half> {
+  using type = ck::half_t;
+};
+
+template <>
+struct c10_to_data_t<c10::BFloat16> {
+  using type = ck::bhalf_t;
+};
+} // namespace
+
+#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
+  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
+  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
+
+#define AT_DISPATCH_SWITCH_3(                               \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
+  AT_DISPATCH_SWITCH(                                       \
+      TYPE,                                                 \
+      NAME,                                                 \
+      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
+
+namespace {
+
+template <
+    int32_t ThreadsPerWavefront,
+    int32_t WavefrontsPerBlock>
+at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k,
+    at::Tensor& split_max,
+    at::Tensor& split_sumexp,
+    at::Tensor& split_O,
+    at::Tensor& O) {
+  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
+  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
+
+  at::OptionalDeviceGuard guard(XQ.device());
+  TORCH_CHECK(XQ.is_cuda());
+  TORCH_CHECK(cache_K.is_cuda());
+  TORCH_CHECK(cache_V.is_cuda());
+
+  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
+
+  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
+  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
+
+  constexpr auto rank = 5;
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+
+  TORCH_CHECK(B <= 1024);
+  TORCH_CHECK(M <= 1024);
+  TORCH_CHECK(H <= 1024);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
+      WavefrontsPerBlock * sizeof(compute_t);
+  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
+      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_splitk_ck",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
+                ck_data_t,
+                kMaxKVSequenceLength,
+                kLoopUnroll,
+                kLoopUnrollTail,
+                compute_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc_ptr = seq_kv_lens
+            ? seq_kv_lens
+                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
+                  .data()
+            : nullptr;
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc_ptr,
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(&arg, {stream});
+      });
+
+  return O;
+}
+
+template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
+at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+
+  TORCH_CHECK(XQ.dim() == rank);
+  TORCH_CHECK(cache_K.dim() == rank);
+  TORCH_CHECK(cache_V.dim() == rank);
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto K = XQ.size(4);
+
+  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
+  auto split_sumexp = at::empty_like(split_max);
+
+  efficient_attention_forward_decoder_splitk_ck_out_impl<
+      ThreadsPerWavefront,
+      WavefrontsPerBlock>(
+      XQ,
+      cache_K,
+      cache_V,
+      seq_kv_lens,
+      qk_scale,
+      split_k,
+      split_max,
+      split_sumexp,
+      O_splits,
+      O);
+
+  return O;
+}
+
+at::Tensor efficient_attention_forward_decoder_splitk_ck(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int64_t split_k) {
+  return efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(
+      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+}
+} // namespace
+
+TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME(
+          "xformers::efficient_attention_forward_decoder_splitk_ck"),
+      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
+}
+
+#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
+
+#include <torch/torch.h>
+
+// clang-format off
+
+/*
+
+(1) hipify
+ > pip install -e /xformers
+
+ For obtaining the executed build commands, add `--verbose`.
+ For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
+
+(2) compile
+ > mkdir build
+ > cd build
+ > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
+       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
+       -D CMAKE_PREFIX_PATH=/opt/rocm \
+       -D CMAKE_BUILD_TYPE=Debug \
+       -D GPU_TARGETS="native" 
+  > make
+
+(3a) run correctness check
+ > ./attention_forward_splitk_decoder_main
+
+(3b) run specific input shape
+ > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
+*/
+
+// clang-format on
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
+    const at::Tensor& Q,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& k_seqlens,
+    const int32_t split_k,
+    const int32_t block_size) {
+  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
+
+  std::vector<at::Tensor> O_splits;
+  std::vector<at::Tensor> m_splits;
+  std::vector<at::Tensor> l_splits;
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    std::vector<at::Tensor> O_batch;
+    std::vector<at::Tensor> m_batch;
+    std::vector<at::Tensor> l_batch;
+
+    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
+      auto seqlen = k_seqlens[b].item<int64_t>();
+      const int64_t t_low =
+          split_idx * (seqlen / split_k / block_size) * block_size;
+      const int64_t t_high = (split_idx + 1 < split_k)
+          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
+          : seqlen;
+
+      const bool empty = t_low == t_high;
+
+      auto S = at::einsum(
+          "mghk, nghk -> mghn",
+          {Q_scaled[b],
+           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      auto m = empty
+          ? at::empty_like(S)
+          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
+      auto s = at::exp(at::sub(S, m));
+      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
+      auto O = at::einsum(
+          "mghn, nghk -> mghk",
+          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
+          /* einsum eval path */ at::nullopt);
+      if (empty) {
+        m = at::empty_like(at::slice(O, -1, 0, 1));
+        l = at::zeros_like(m);
+        m.fill_(ck::NumericLimits<float>::Lowest());
+      }
+      O_batch.push_back(O);
+      m_batch.push_back(m);
+      l_batch.push_back(l);
+    }
+
+    auto O_cat = at::stack(O_batch);
+    auto m_cat = at::stack(m_batch);
+    auto l_cat = at::stack(l_batch);
+
+    O_splits.push_back(O_cat);
+    m_splits.push_back(m_cat);
+    l_splits.push_back(l_cat);
+  }
+
+  auto O_cat = at::stack(O_splits);
+  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
+  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
+
+  return std::make_tuple(O_cat, m_cat, l_cat);
+}
+
+static at::Tensor split_reduce_torch(
+    const at::Tensor& O_splits,
+    const at::Tensor& m_splits,
+    const at::Tensor& l_splits,
+    int32_t split_k) {
+  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
+  auto global_max =
+      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
+  auto global_sumexp = at::zeros_like(global_max);
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
+    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
+    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
+
+    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
+    auto alpha = at::exp(log_alpha);
+    alpha.nan_to_num_(1.);
+
+    auto pick_new = at::less(local_max, global_max);
+    auto pick_current_coef = at::where(pick_new, 1., alpha);
+    auto pick_new_coef = at::where(pick_new, alpha, 1.);
+
+    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
+    global_sumexp = at::add(
+        at::mul(pick_current_coef, global_sumexp),
+        at::mul(pick_new_coef, local_sumexp));
+    global_max = at::max(local_max, global_max);
+  }
+
+  return at::div(O, global_sumexp);
+}
+
+static at::Tensor efficient_attention_forward_decoder_splitk_torch(
+    const at::Tensor& XQ, // [B, 1, G, H, D]
+    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
+    at::optional<at::Tensor> seq_kv_lens, // [B]
+    double qk_scale,
+    int32_t split_k,
+    int32_t block_size) {
+  auto [O_split, m, l] = split_attention_torch(
+      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
+  auto O = split_reduce_torch(O_split, m, l, split_k);
+  return O.reshape_as(XQ);
+}
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    4,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    2,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    1,
+                    kLoopUnroll,
+                    kLoopUnrollTail,
+                    kMaxKVSequenceLength,
+                    compute_t>
+              : nullptr,
+          arg.grid_dim,
+          arg.block_dim,
+          arg.lds_bytes,
+          arg.XQ,
+          arg.cache_K,
+          arg.cache_V,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.seq_kv_lens,
+          arg.XQ_stride_b,
+          arg.XQ_stride_m,
+          arg.XQ_stride_g,
+          arg.XQ_stride_h,
+          arg.K_stride_b,
+          arg.K_stride_m,
+          arg.K_stride_g,
+          arg.K_stride_h,
+          arg.O_stride_split,
+          arg.Q_size_m,
+          arg.Q_size_g,
+          arg.Q_size_h,
+          arg.Q_size_k,
+          arg.K_size_m,
+          arg.multiquery,
+          arg.qk_scale,
+          arg.split_k);
+
+      return split_attention_result;
+    }
+  };
+};
+
+template <typename scalar_t, typename compute_t = float>
+struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ split_O;
+    const compute_t* __restrict__ split_max;
+    const compute_t* __restrict__ split_sumexp;
+    scalar_t* __restrict__ O;
+
+    const int32_t O_size_m;
+    const int32_t O_size_g;
+    const int32_t O_size_h;
+    const int32_t O_size_k;
+
+    const ptrdiff_t O_stride_split;
+    const ptrdiff_t O_stride_b;
+    const ptrdiff_t O_stride_m;
+    const ptrdiff_t O_stride_g;
+    const ptrdiff_t O_stride_h;
+
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ split_O,
+        const compute_t* __restrict__ split_max,
+        const compute_t* __restrict__ split_sumexp,
+        scalar_t* __restrict__ O,
+        const int32_t O_size_m,
+        const int32_t O_size_g,
+        const int32_t O_size_h,
+        const int32_t O_size_k,
+        const ptrdiff_t O_stride_split,
+        const ptrdiff_t O_stride_b,
+        const ptrdiff_t O_stride_m,
+        const ptrdiff_t O_stride_g,
+        const ptrdiff_t O_stride_h,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          O(O),
+          O_size_m(O_size_m),
+          O_size_g(O_size_g),
+          O_size_h(O_size_h),
+          O_size_k(O_size_k),
+          O_stride_split(O_stride_split),
+          O_stride_b(O_stride_b),
+          O_stride_m(O_stride_m),
+          O_stride_g(O_stride_g),
+          O_stride_h(O_stride_h),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    O_stride_b: " << O_stride_b << std::endl
+          << "    O_stride_m: " << O_stride_m << std::endl
+          << "    O_stride_g: " << O_stride_g << std::endl
+          << "    O_stride_h: " << O_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    O_size_m: " << O_size_m << std::endl
+          << "    O_size_g: " << O_size_g << std::endl
+          << "    O_size_h: " << O_size_h << std::endl
+          << "    O_size_k: " << O_size_k << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const Argument& arg,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      auto threads_per_wavefront = arg.block_dim.x;
+      auto O_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
+          O_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported O_size_k");
+      }
+
+      if (arg.O_size_k % O_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for O_size_k");
+      }
+
+      const dim3 reduce_gridsize = {arg.grid_dim.x};
+      const dim3 reduce_blocksize = {arg.block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          O_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : O_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : O_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          arg.split_O,
+          arg.split_max,
+          arg.split_sumexp,
+          arg.O,
+          arg.O_size_m,
+          arg.O_size_g,
+          arg.O_size_h,
+          arg.O_size_k,
+          arg.O_stride_split,
+          arg.O_stride_b,
+          arg.O_stride_m,
+          arg.O_stride_g,
+          arg.O_stride_h,
+          arg.split_k);
+      return reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
+
+static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
+    const at::Tensor& XQ,
+    const at::Tensor& K,
+    const at::Tensor& V,
+    const at::Tensor& seqlen,
+    const int32_t split_k,
+    const int32_t wavefronts_per_block) {
+  at::OptionalDeviceGuard guard(XQ.device());
+
+  auto B = XQ.size(0);
+  auto M = XQ.size(1);
+  auto G = XQ.size(2);
+  auto H = XQ.size(3);
+  auto D = XQ.size(4);
+
+  double qk_scale = 1. / sqrt(D);
+
+  auto O = at::empty_like(XQ);
+  constexpr auto rank = 5;
+  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
+  auto split_max =
+      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
+          .fill_(ck::NumericLimits<float>::Lowest());
+  auto split_sumexp = at::zeros_like(split_max);
+
+  dim3 blocks(B * H * M * G, split_k);
+  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
+
+  int32_t smem_softmax =
+      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
+  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
+      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
+                            // sizeof(O[b][0][h][:])
+  const size_t lds_bytes = max(smem_softmax, smem_output);
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      XQ.scalar_type(),
+      "efficient_attention_forward_decoder_split_attention_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto XQ_acc =
+            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto K_acc =
+            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto V_acc =
+            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto seq_acc =
+            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
+            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            seq_acc.data(),
+            XQ_acc.stride(0),
+            XQ_acc.stride(1),
+            XQ_acc.stride(2),
+            XQ_acc.stride(3),
+            K_acc.stride(0),
+            K_acc.stride(1),
+            K_acc.stride(2),
+            K_acc.stride(3),
+            split_O_acc.stride(0),
+            XQ_acc.size(1),
+            XQ_acc.size(2),
+            XQ_acc.size(3),
+            XQ_acc.size(4),
+            K_acc.size(1),
+            K_acc.size(3) == 1,
+            qk_scale,
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return std::make_tuple(split_O, split_max, split_sumexp);
+}
+
+static at::Tensor split_reduce_hip(
+    const at::Tensor& split_O,
+    const at::Tensor& split_max,
+    const at::Tensor& split_sumexp,
+    const int32_t split_k) {
+  at::OptionalDeviceGuard guard(split_O.device());
+
+  auto B = split_O.size(1);
+  auto M = split_O.size(2);
+  auto G = split_O.size(3);
+  auto H = split_O.size(4);
+  auto D = split_O.size(5);
+
+  TORCH_CHECK_EQ(split_k, split_O.size(0));
+  TORCH_CHECK_EQ(split_k, split_max.size(-1));
+  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
+
+  constexpr auto rank = 5;
+
+  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
+  TORCH_CHECK_EQ(split_max.dim(), rank);
+  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
+
+  auto O = at::zeros({B, M, G, H, D}, split_O.options());
+
+  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto lds_bytes = 0;
+
+  dim3 blocks(B * H * M * G);
+  dim3 threads(kThreadsPerWavefront);
+
+  AT_DISPATCH_SWITCH_3(
+      at::ScalarType::Half,
+      at::ScalarType::BFloat16,
+      at::ScalarType::Float,
+      O.scalar_type(),
+      "efficient_attention_forward_decoder_split_reduce_ck_test",
+      [&] {
+        using ck_data_t = c10_to_data_t<scalar_t>::type;
+        using device_op_t =
+            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
+                ck_data_t>;
+        auto op = device_op_t{};
+
+        auto split_O_acc =
+            split_O
+                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
+        auto O_acc =
+            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
+        auto split_max_acc =
+            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto split_sumexp_acc =
+            split_sumexp
+                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
+        auto arg = device_op_t::Argument(
+            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
+            split_max_acc.data(),
+            split_sumexp_acc.data(),
+            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
+            O_acc.size(1),
+            O_acc.size(2),
+            O_acc.size(3),
+            O_acc.size(4),
+            split_O_acc.stride(0),
+            O_acc.stride(0),
+            O_acc.stride(1),
+            O_acc.stride(2),
+            O_acc.stride(3),
+            split_k,
+            blocks,
+            threads,
+            lds_bytes);
+
+        auto invoker = device_op_t::Invoker{};
+        (void)invoker.Run(arg, {stream});
+      });
+  return O;
+}
+
+std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
+    const int32_t padding,
+    const int32_t B,
+    const int32_t Hq,
+    const int32_t Hkv,
+    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
+  const int32_t D = 4 * kThreadsPerWavefront;
+  const int32_t G = Hq / Hkv;
+  const int32_t num_queries = 1;
+
+  at::manual_seed(1);
+
+  auto options = torch::TensorOptions()
+                     .dtype(dtype)
+                     .layout(torch::kStrided)
+                     .device(torch::kCUDA, 1)
+                     .requires_grad(false);
+  auto int_options = options.dtype(torch::kInt);
+  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
+  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
+                    : at::randn({B, padding, G, 1, D}, options)
+                          .expand({B, padding, G, Hq, D});
+  auto V = at::randn_like(K);
+  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
+
+  return std::make_tuple(XQ, K, V, seqlen);
+}
+
+static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
+  auto mask =
+      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
+  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
+  return 1. - percent_match.item<float>();
+}
+
+static void test_split_attention(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] = split_attention_torch(
+      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
+
+  auto [O_hip, m_hip, l_hip] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
+  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
+  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
+
+  printf(
+      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
+      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
+      "split_sumexp elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      O_percent_mismatch,
+      m_percent_mismatch,
+      l_percent_mismatch);
+}
+
+static void test_split_reduce(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  auto [O_ref, m_ref, l_ref] =
+      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
+
+  auto O_torch = split_reduce_torch(
+      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
+  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
+
+  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
+  printf(
+      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
+      "percentage: %.2f \n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      hip_torch_mismatch);
+}
+
+static void test_splitk_decoder_e2e_correctness(
+    int32_t padding,
+    int32_t batch_size,
+    int32_t Hq,
+    int32_t Hkv,
+    int32_t split_k) {
+  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
+
+  double qk_scale = 1. / sqrt(XQ.size(-1));
+
+  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
+      kThreadsPerWavefront,
+      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
+  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
+      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
+  auto e2e_mismatch = percent_mismatch(result, gold_result);
+  printf(
+      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
+      "elements percentage: %.2f\n",
+      padding,
+      batch_size,
+      Hq,
+      Hkv,
+      split_k,
+      e2e_mismatch);
+}
+
+int main(int argc, char** argv) {
+  if (argc == 1) {
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_splitk_decoder_e2e_correctness(
+                  padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2, 4, 8, 16}) {
+              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+
+    for (auto padding : {32, 4096}) {
+      for (auto batch_size : {1, 8}) {
+        for (auto Hq : {16}) {
+          for (auto Hkv : {16}) {
+            for (auto split_k : {1, 2}) {
+              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
+            }
+          }
+        }
+      }
+    }
+  } else {
+    const auto args = std::vector<std::string>(argv + 1, argv + argc);
+    if (args.size() != 6) {
+      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
+                   "n_wavefronts_per_block"
+                << std::endl;
+      return 0;
+    }
+    const int32_t padding = std::stoi(args[0]);
+    const int32_t batch_size = std::stoi(args[1]);
+    const int32_t nq_heads = std::stoi(args[2]);
+    const int32_t nkv_heads = std::stoi(args[3]);
+    const auto dtype = (args[4] == "f32") ? torch::kFloat32
+        : (args[4] == "f16")              ? torch::kFloat16
+                                          : torch::kBFloat16;
+    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
+
+    auto [Q, K, V, seq] =
+        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
+    auto O = at::empty_like(Q);
+
+    constexpr auto splitk_dim = 0;
+    constexpr auto split_k = 1;
+    auto O_splits = at::stack(O, splitk_dim);
+
+    auto split_max = at::empty(
+        {batch_size, padding, Q.size(2), Q.size(3), split_k},
+        Q.options().dtype(at::kFloat));
+    auto split_sumexp = at::empty_like(split_max);
+
+    const double qk_scale = 1. / sqrt(Q.size(-1));
+    auto call_ptr =
+        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
+                 kThreadsPerWavefront,
+                 kWavefrontsPerBlock>){};
+
+#define SWITCH_CASE_SET_CALLPTR(n)                                      \
+  case (n):                                                             \
+    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
+        kThreadsPerWavefront,                                           \
+        (n)>;                                                           \
+    break;
+
+    switch (n_wavefronts_per_block) {
+      SWITCH_CASE_SET_CALLPTR(1);
+      SWITCH_CASE_SET_CALLPTR(2);
+      SWITCH_CASE_SET_CALLPTR(4);
+      SWITCH_CASE_SET_CALLPTR(8);
+      SWITCH_CASE_SET_CALLPTR(16);
+
+      default:
+        call_ptr = nullptr;
+        break;
+    }
+#undef SWITCH_CASE_SET_CALLPTR
+
+    if (call_ptr) {
+      call_ptr(
+          Q,
+          K,
+          V,
+          seq,
+          qk_scale,
+          split_k,
+          split_max,
+          split_sumexp,
+          O_splits,
+          O);
+    } else {
+      std::cout << "Warning: no kernel was found for wavefronts_per_block="
+                << n_wavefronts_per_block << std::endl;
+    }
+  }
+  return 0;
+}
+
+#endif // MAIN
+
+#undef AT_DISPATCH_CASE_3
+#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder.h
rename to xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder.h
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h
new file mode 100644
index 0000000000..c98de50f05
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h
@@ -0,0 +1,498 @@
+// !!! This is a file automatically generated by hipify!!!
+#include "hip/hip_runtime.h"
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/stream_config.hpp>
+#include <ck/tensor_operation/gpu/device/device_base.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/math.hpp>
+
+#include "ck_attention_inner_product.h"
+#include "ck_attention_math_ext.h"
+
+namespace {
+
+template <typename data_t, int32_t vec_size>
+__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
+    typename ck::vector_type<float, vec_size>::type acc,
+    typename ck::vector_type<data_t, vec_size>::type a,
+    float b) {
+  union {
+    decltype(acc) vec;
+    float arr[vec_size];
+  } acc_u{acc};
+  union {
+    decltype(a) vec;
+    data_t arr[vec_size];
+  } a_u{a};
+
+#pragma unroll
+  for (int32_t i = 0; i < vec_size; ++i) {
+    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+  }
+
+  return acc_u.vec;
+}
+
+template <typename F, int32_t n_threads_per_wavefront = 64>
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
+#pragma unroll
+  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
+    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+  }
+  return val;
+}
+
+template <typename TData, typename TDataVec>
+__forceinline__ __device__ void load_v(
+    const TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec* __restrict__ load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+}
+
+template <typename TData, typename TDataVec>
+__forceinline__ __device__ void store_v(
+    TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+}
+
+template <
+    typename scalar_t,
+    int32_t vec_size = 4,
+    int32_t n_loop_unroll = 16,
+    int32_t n_loop_unroll_tail = 2,
+    int32_t KV_M_MAX = 8192,
+    int32_t n_wavefronts_per_block = 16>
+__global__ void efficient_attention_forward_decoder_ck_kernel(
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O,
+    const int32_t* __restrict__ seq_kv_lens,
+    const ptrdiff_t XQ_stride_b,
+    const ptrdiff_t XQ_stride_m,
+    const ptrdiff_t XQ_stride_g,
+    const ptrdiff_t XQ_stride_h,
+    const ptrdiff_t K_stride_b,
+    const ptrdiff_t K_stride_m,
+    const ptrdiff_t K_stride_g,
+    const ptrdiff_t K_stride_h,
+    const int32_t Q_size_m,
+    const int32_t Q_size_g,
+    const int32_t Q_size_h,
+    const int32_t Q_size_k,
+    const int32_t K_size_m,
+    const bool multiquery,
+    const float qk_scale) {
+  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
+
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
+
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
+  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+  const auto XQO_base_offset =
+      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
+  const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
+      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
+  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_t = float;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  extern __shared__ __align__(16) compute_t smem[];
+
+  data_vec_t q_thread = 0;
+  // Load Q into registers in all wavefronts.
+  // Each thread handles `vec_size` D dimensions
+  if (lane_active_for_io) {
+    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  }
+
+  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+  // Compute S[0:t_max] =
+  // ```
+  // for t in range(t_max):
+  //   S[t] = dot(Q, K[t])
+  // ```
+  // Split the 0:t_max range across wavefronts in a block,
+  // unroll loads to expose more parallelism.
+  // Reduce the dot product with cross-lane operation;
+  // Q and K[t] are in the registers of threads in a single wavefront.
+
+  data_vec_t k_loads[n_loop_unroll] = {};
+
+  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
+  const int32_t t_max_unroll = (t_max / dtt) * dtt;
+
+  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
+    if (lane_active_for_io) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the K[b][t][g][h|0][:] row into registers
+        load_v<data_t, data_vec_t>(
+            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+      }
+    }
+    compute_t qk_accs[n_loop_unroll] = {};
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+          q_thread, k_loads[ttt], qk_accs[ttt]);
+      qk_accs[ttt] *= qk_scale;
+
+      qk_accs[ttt] =
+          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
+      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
+    }
+    if (lane_idx == 0) {
+      auto* __restrict__ smem_base = smem + tt;
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        smem_base[ttt] = qk_accs[ttt];
+      }
+    }
+  }
+
+  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
+  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
+       tt += wavefronts_per_block * n_loop_unroll_tail) {
+    if (lane_active_for_io) {
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the K[b][t][g][h|0][:] row into registers
+          load_v<data_t, data_vec_t>(
+              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        }
+      }
+    }
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      compute_t qk_acc = 0;
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+            q_thread, k_loads[ttt], qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t] = qk_acc;
+        }
+      }
+    }
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+  }
+  // shared across all threads in block
+  max_qk_acc =
+      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+  // each wavefront computes partial sum of exp.
+  compute_t softmax_denominator = 0.0f;
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](auto a, auto b) { return a + b; });
+
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+  }
+  __syncthreads();
+
+  // now, compute sum of exp(x - max(x)) over all intermediate results.
+  softmax_denominator = 0.0;
+  if (lane_idx < wavefronts_per_block) {
+    softmax_denominator = smem[KV_M_MAX + lane_idx];
+  }
+  softmax_denominator = wavefrontReduce(
+      softmax_denominator, [](auto a, auto b) { return a + b; });
+
+  const compute_t softmax_scale_factor = 1. / softmax_denominator;
+  // now, compute the normalization across all threads.
+  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
+    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
+  }
+  __syncthreads();
+
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
+
+  compute_t ps[n_loop_unroll] = {};
+  compute_vec_t o_acc = 0;
+  if (lane_active_for_io) {
+    for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll;
+         tt += dtt) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the V[b][t][g][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<data_t, data_vec_t>(
+            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        ps[ttt] = smem[t];
+      }
+
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        o_acc =
+            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      }
+    }
+
+    for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
+         tt < t_max;
+         tt += wavefronts_per_block * n_loop_unroll_tail) {
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the V[b][t][g][h|0][:] row into registers, reusing K register
+          // storage
+          load_v<data_t, data_vec_t>(
+              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+          ps[ttt] = smem[t];
+        }
+      }
+
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          o_acc =
+              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+        }
+      }
+    }
+  }
+  // now, each thread has partial sums. Write to smem and get accumulated
+  // results back.
+  __syncthreads();
+
+  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+  if (lane_active_for_io) {
+    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+
+  __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0 && lane_active_for_io) {
+    union {
+      compute_vec_t vec = 0;
+      compute_t arr[vec_size];
+    } r;
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      r.vec += partial_r;
+    }
+    // elementwise convert from compute_t result to data_t out to be written
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } bf_r;
+#pragma unroll
+    for (int32_t i = 0; i < vec_size; ++i) {
+      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+    }
+    // write output row O[b][m][g][h][:]
+    data_t* __restrict__ o_ = O + XQO_base_offset;
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+  }
+}
+
+} // namespace
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <typename scalar_t>
+struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const BaseArgument* argp_,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      const Argument* argp = dynamic_cast<const Argument*>(argp_);
+
+      auto threads_per_wavefront = argp->block_dim.x;
+
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      return launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
+              : nullptr,
+          argp->grid_dim,
+          argp->block_dim,
+          argp->lds_bytes,
+          argp->XQ,
+          argp->cache_K,
+          argp->cache_V,
+          argp->O,
+          argp->seq_kv_lens,
+          argp->XQ_stride_b,
+          argp->XQ_stride_m,
+          argp->XQ_stride_g,
+          argp->XQ_stride_h,
+          argp->K_stride_b,
+          argp->K_stride_m,
+          argp->K_stride_g,
+          argp->K_stride_h,
+          argp->Q_size_m,
+          argp->Q_size_g,
+          argp->Q_size_h,
+          argp->Q_size_k,
+          argp->K_size_m,
+          argp->multiquery,
+          argp->qk_scale);
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_attention_forward_decoder_splitk.h
rename to xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h
new file mode 100644
index 0000000000..b762827f3f
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h
@@ -0,0 +1,715 @@
+// !!! This is a file automatically generated by hipify!!!
+#include "hip/hip_runtime.h"
+#pragma once
+
+#include <ck/host_utility/kernel_launch_hip.hpp>
+#include <ck/stream_config.hpp>
+#include <ck/tensor_operation/gpu/device/device_base.hpp>
+#include <ck/utility/data_type.hpp>
+#include <ck/utility/math.hpp>
+
+#include "ck_attention_inner_product.h"
+#include "ck_attention_math_ext.h"
+
+namespace {
+
+template <typename data_t, int32_t vec_size>
+__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
+    typename ck::vector_type<float, vec_size>::type acc,
+    typename ck::vector_type<data_t, vec_size>::type a,
+    float b) {
+  union {
+    decltype(acc) vec;
+    float arr[vec_size];
+  } acc_u{acc};
+  union {
+    decltype(a) vec;
+    data_t arr[vec_size];
+  } a_u{a};
+
+#pragma unroll
+  for (int32_t i = 0; i < vec_size; ++i) {
+    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+  }
+
+  return acc_u.vec;
+}
+
+template <typename F, int32_t n_threads_per_wavefront = 64>
+float __device__ __forceinline__ wavefrontReduce(float val, F f) {
+#pragma unroll
+  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
+    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
+  }
+  return val;
+}
+
+template <typename TData, typename TDataVec>
+__forceinline__ __device__ void load_v(
+    const TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec* __restrict__ load_to) {
+  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
+}
+
+template <typename TData, typename TDataVec>
+__forceinline__ __device__ void store_v(
+    TData* __restrict__ data_ptr,
+    int32_t vector_offset,
+    TDataVec value) {
+  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
+}
+
+template <typename scalar_t, int32_t vec_size = 4, typename compute_t = float>
+__global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
+    const scalar_t* __restrict__ O_splits,
+    const compute_t* __restrict__ split_max,
+    const compute_t* __restrict__ split_sumexp,
+    scalar_t* __restrict__ O,
+    const int32_t Q_size_m,
+    const int32_t Q_size_g,
+    const int32_t Q_size_h,
+    const int32_t Q_size_k,
+    const ptrdiff_t O_stride_split,
+    const ptrdiff_t O_stride_b,
+    const ptrdiff_t O_stride_m,
+    const ptrdiff_t O_stride_g,
+    const ptrdiff_t O_stride_h,
+    const int32_t split_k) {
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  union {
+    data_vec_t vec;
+    data_t arr[vec_size];
+  } O_split_data;
+  union {
+    compute_vec_t vec;
+    compute_t arr[vec_size];
+  } O_split_compute;
+  union {
+    data_vec_t vec;
+    data_t arr[vec_size];
+  } global_O_data;
+  union {
+    compute_vec_t vec;
+    compute_t arr[vec_size];
+  } global_O_compute;
+
+  global_O_compute.vec = 0;
+
+  const int32_t lane_idx = threadIdx.x;
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  if (!lane_active_for_io) {
+    return;
+  }
+
+  compute_t global_sumexp = 0;
+  compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
+
+  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
+    load_v<data_t, data_vec_t>(
+        O_splits + b * O_stride_b + m * O_stride_m + g * O_stride_g +
+            h * O_stride_h + split_idx * O_stride_split,
+        lane_idx,
+        &O_split_data.vec);
+#pragma unroll
+    for (int32_t i = 0; i < vec_size; ++i) {
+      O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
+    }
+    compute_t local_max = *(split_max + blockIdx.x * split_k + split_idx);
+    compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx);
+
+    compute_t log_alpha = -std::abs(local_max - global_max);
+    compute_t alpha =
+        isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+
+    bool pick_new = local_max < global_max;
+    compute_t pick_current_coef = pick_new ? 1. : alpha;
+    compute_t pick_new_coef = pick_new ? alpha : 1.;
+
+    global_sumexp =
+        pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
+    global_O_compute.vec = pick_current_coef * global_O_compute.vec +
+        pick_new_coef * O_split_compute.vec;
+    global_max = ck::math::max(local_max, global_max);
+  }
+  global_O_compute.vec /= global_sumexp;
+#pragma unroll
+  for (int32_t i = 0; i < vec_size; ++i) {
+    global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+  }
+  store_v<data_t, data_vec_t>(
+      O + b * O_stride_b + m * O_stride_m + g * O_stride_g + h * O_stride_h,
+      lane_idx,
+      global_O_data.vec);
+}
+
+template <
+    typename scalar_t,
+    int32_t vec_size,
+    int32_t n_loop_unroll,
+    int32_t n_loop_unroll_tail,
+    int32_t KV_M_MAX,
+    typename compute_t>
+__global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
+    const scalar_t* __restrict__ XQ,
+    const scalar_t* __restrict__ cache_K,
+    const scalar_t* __restrict__ cache_V,
+    scalar_t* __restrict__ O_splits,
+    compute_t* __restrict__ split_max,
+    compute_t* __restrict__ split_sumexp,
+    const int32_t* __restrict__ seq_kv_lens,
+    const ptrdiff_t XQ_stride_b,
+    const ptrdiff_t XQ_stride_m,
+    const ptrdiff_t XQ_stride_g,
+    const ptrdiff_t XQ_stride_h,
+    const ptrdiff_t K_stride_b,
+    const ptrdiff_t K_stride_m,
+    const ptrdiff_t K_stride_g,
+    const ptrdiff_t K_stride_h,
+    const ptrdiff_t O_stride_split,
+    const int32_t Q_size_m,
+    const int32_t Q_size_g,
+    const int32_t Q_size_h,
+    const int32_t Q_size_k,
+    const int32_t K_size_m,
+    const bool multiquery,
+    const float qk_scale,
+    const int32_t split_k) {
+  static_assert(
+      n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
+      "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
+      "(and tail is no-op)");
+
+  // Each block handles a single batch and head and query and group
+  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
+  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
+  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
+  const int32_t h = blockIdx.x % Q_size_h;
+  const int32_t split_idx = blockIdx.y;
+
+  // Note: this is decoding case where we attend to current and all previous
+  // tokens.
+  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
+
+  const int32_t lane_idx = threadIdx.x;
+  const int32_t wavefront_idx = threadIdx.y;
+  // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile
+  // time constants; investigate when optimizing
+  const int32_t threads_per_wavefront = blockDim.x;
+  const int32_t wavefronts_per_block = blockDim.y;
+  const int32_t threads_per_block =
+      threads_per_wavefront * wavefronts_per_block;
+  const int32_t thread_linear_idx =
+      lane_idx + wavefront_idx * threads_per_wavefront;
+  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+  const auto XQO_base_offset =
+      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
+  const auto* __restrict__ q_ = XQ + XQO_base_offset;
+
+  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
+      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
+  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
+  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
+
+  using data_t = scalar_t;
+  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+
+  extern __shared__ __align__(16) compute_t smem[];
+
+  data_vec_t q_thread = 0;
+  // Load Q into registers in all wavefronts.
+  // Each thread handles `vec_size` D dimensions
+  if (lane_active_for_io) {
+    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
+  }
+
+  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+  // Compute S[0:t_max] =
+  // ```
+  // for t in range(t_max):
+  //   S[t] = dot(Q, K[t])
+  // ```
+  // Split the 0:t_max range across wavefronts in a block,
+  // unroll loads to expose more parallelism.
+  // Reduce the dot product with cross-lane operation;
+  // Q and K[t] are in the registers of threads in a single wavefront.
+
+  data_vec_t k_loads[n_loop_unroll] = {};
+
+  const auto dtt = wavefronts_per_block * n_loop_unroll;
+  // only last split gets the tail.
+  // the first (split_k - 1) splits have a number of iterations divisible by
+  // `dtt`
+  const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
+  const int32_t tt_low =
+      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
+  const int32_t tt_high =
+      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
+  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail +
+      n_unrolled_loops * dtt * (split_idx + 1);
+  const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
+
+  for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+    if (lane_active_for_io) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the K[b][t][g][h|0][:] row into registers
+        load_v<data_t, data_vec_t>(
+            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+      }
+    }
+#pragma unroll n_loop_unroll
+    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+      compute_t qk_acc = 0;
+      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+          q_thread, k_loads[ttt], qk_acc);
+      qk_acc *= qk_scale;
+
+      qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+      max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+      if (lane_idx == 0) {
+        smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
+      }
+    }
+  }
+
+  for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+    if (lane_active_for_io) {
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the K[b][t][g][h|0][:] row into registers
+          load_v<data_t, data_vec_t>(
+              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        }
+      }
+    }
+#pragma unroll n_loop_unroll_tail
+    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+      compute_t qk_acc = 0;
+      const int32_t t = tt + ttt;
+      if (t < t_max) {
+        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+            q_thread, k_loads[ttt], qk_acc);
+        qk_acc *= qk_scale;
+
+        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+        // write accumulated sums to smem.
+        if (lane_idx == 0) {
+          smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
+        }
+      }
+    }
+  }
+
+  // Use shared reduction to compute max and compute softmax on shared memory.
+  // write max acc
+  if (lane_idx == 0) {
+    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
+  }
+  __syncthreads();
+  if (lane_idx < wavefronts_per_block) {
+    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+  }
+  // shared across all threads in block
+  max_qk_acc =
+      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
+
+  if (wavefront_idx == 0 && lane_idx == 0) {
+    split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
+  }
+
+  // each wavefront computes partial sum of exp.
+  { // softmax reduce begin
+    compute_t softmax_denominator = 0.0f;
+    const int32_t t_low = n_unrolled_loops * dtt * split_idx;
+    const int32_t t_high = (split_idx + 1 < split_k)
+        ? n_unrolled_loops * dtt * (split_idx + 1)
+        : t_max;
+    for (int32_t t = t_low + thread_linear_idx; t < t_high;
+         t += threads_per_block) {
+      const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
+      softmax_denominator += s;
+      smem[t - t_low] = s;
+    }
+    softmax_denominator = wavefrontReduce(
+        softmax_denominator, [](auto a, auto b) { return a + b; });
+
+    if (lane_idx == 0) {
+      smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+    }
+    __syncthreads();
+
+    // now, compute sum of exp(x - max(x)) over all intermediate results.
+    softmax_denominator = 0.0;
+    if (lane_idx < wavefronts_per_block) {
+      softmax_denominator = smem[KV_M_MAX + lane_idx];
+    }
+    softmax_denominator = wavefrontReduce(
+        softmax_denominator, [](auto a, auto b) { return a + b; });
+
+    if (wavefront_idx == 0 && lane_idx == 0) {
+      split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+    }
+  } // softmax reduce end
+
+  // Split T across wavefronts in a block
+  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+  // outputs are of size float[D]
+
+  compute_t ps[n_loop_unroll] = {};
+  compute_vec_t o_acc = 0;
+  if (lane_active_for_io) {
+    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        const int32_t t = tt + ttt;
+        // load the V[b][t][g][h|0][:] row into registers, reusing K register
+        // storage
+        load_v<data_t, data_vec_t>(
+            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+        ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+      }
+
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        o_acc =
+            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      }
+    }
+
+    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          // load the V[b][t][g][h|0][:] row into registers, reusing K register
+          // storage
+          load_v<data_t, data_vec_t>(
+              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+          ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+          o_acc =
+              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+        }
+      }
+    }
+  }
+  __syncthreads();
+
+  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
+  if (lane_active_for_io) {
+    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
+  }
+
+  __syncthreads();
+  // sum up partial D rows from other wavefronts
+  if (wavefront_idx == 0 && lane_active_for_io) {
+    union {
+      compute_vec_t vec = 0;
+      compute_t arr[vec_size];
+    } r;
+    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+      compute_vec_t partial_r;
+      load_v<compute_t, compute_vec_t>(
+          smem, w * threads_per_wavefront + lane_idx, &partial_r);
+      r.vec += partial_r;
+    }
+    // elementwise convert from compute_t result to data_t out to be written
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } bf_r;
+#pragma unroll
+    for (int32_t i = 0; i < vec_size; ++i) {
+      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+    }
+    // write output row O[b][m][g][h][:]
+    data_t* __restrict__ o_ =
+        O_splits + XQO_base_offset + split_idx * O_stride_split;
+    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
+  }
+}
+
+} // namespace
+
+namespace ck {
+namespace tensor_operation {
+namespace device {
+template <
+    typename scalar_t,
+    int32_t KV_M_MAX,
+    int32_t n_loop_unroll,
+    int32_t n_loop_unroll_tail,
+    typename compute_t>
+struct FMHADecoderSplitKDeviceOp : public BaseOperator {
+  using DeviceOp = FMHADecoderSplitKDeviceOp;
+  struct Argument : public BaseArgument {
+    const scalar_t* __restrict__ XQ;
+    const scalar_t* __restrict__ cache_K;
+    const scalar_t* __restrict__ cache_V;
+    scalar_t* __restrict__ O;
+    scalar_t* __restrict__ split_O;
+    compute_t* __restrict__ split_max;
+    compute_t* __restrict__ split_sumexp;
+    const int32_t* __restrict__ seq_kv_lens;
+    const ptrdiff_t XQ_stride_b;
+    const ptrdiff_t XQ_stride_m;
+    const ptrdiff_t XQ_stride_g;
+    const ptrdiff_t XQ_stride_h;
+    const ptrdiff_t K_stride_b;
+    const ptrdiff_t K_stride_m;
+    const ptrdiff_t K_stride_g;
+    const ptrdiff_t K_stride_h;
+    const ptrdiff_t O_stride_split;
+    const int32_t Q_size_m;
+    const int32_t Q_size_g;
+    const int32_t Q_size_h;
+    const int32_t Q_size_k;
+    const int32_t K_size_m;
+    const bool multiquery;
+    const float qk_scale;
+    const int32_t split_k;
+
+    const dim3 grid_dim;
+    const dim3 block_dim;
+    const size_t lds_bytes;
+
+    Argument(
+        const scalar_t* __restrict__ XQ,
+        const scalar_t* __restrict__ cache_K,
+        const scalar_t* __restrict__ cache_V,
+        scalar_t* __restrict__ O,
+        scalar_t* __restrict__ split_O,
+        compute_t* __restrict__ split_max,
+        compute_t* __restrict__ split_sumexp,
+        const int32_t* __restrict__ seq_kv_lens,
+        const ptrdiff_t XQ_stride_b,
+        const ptrdiff_t XQ_stride_m,
+        const ptrdiff_t XQ_stride_g,
+        const ptrdiff_t XQ_stride_h,
+        const ptrdiff_t K_stride_b,
+        const ptrdiff_t K_stride_m,
+        const ptrdiff_t K_stride_g,
+        const ptrdiff_t K_stride_h,
+        const ptrdiff_t O_stride_split,
+        const int32_t Q_size_m,
+        const int32_t Q_size_g,
+        const int32_t Q_size_h,
+        const int32_t Q_size_k,
+        const int32_t K_size_m,
+        const bool multiquery,
+        const float qk_scale,
+        const int32_t split_k,
+        // launch params
+        const dim3 grid_dim,
+        const dim3 block_dim,
+        const size_t lds_bytes)
+        : XQ(XQ),
+          cache_K(cache_K),
+          cache_V(cache_V),
+          O(O),
+          split_O(split_O),
+          split_max(split_max),
+          split_sumexp(split_sumexp),
+          seq_kv_lens(seq_kv_lens),
+          XQ_stride_b(XQ_stride_b),
+          XQ_stride_m(XQ_stride_m),
+          XQ_stride_g(XQ_stride_g),
+          XQ_stride_h(XQ_stride_h),
+          K_stride_b(K_stride_b),
+          K_stride_m(K_stride_m),
+          K_stride_g(K_stride_g),
+          K_stride_h(K_stride_h),
+          O_stride_split(O_stride_split),
+          Q_size_m(Q_size_m),
+          Q_size_g(Q_size_g),
+          Q_size_h(Q_size_h),
+          Q_size_k(Q_size_k),
+          K_size_m(K_size_m),
+          multiquery(multiquery),
+          qk_scale(qk_scale),
+          split_k(split_k),
+          // launch params
+          grid_dim(grid_dim),
+          block_dim(block_dim),
+          lds_bytes(lds_bytes) {}
+
+    std::string str() const {
+      std::ostringstream oss;
+      oss << "Argument { " << std::endl
+          << "    XQ: " << XQ << std::endl
+          << "    cache_K: " << cache_K << std::endl
+          << "    cache_V: " << cache_V << std::endl
+          << "    O: " << O << std::endl
+          << "    split_O: " << split_O << std::endl
+          << "    split_max: " << split_max << std::endl
+          << "    split_sumexp: " << split_sumexp << std::endl
+          << "    seq_kv_lens: " << seq_kv_lens << std::endl
+          << "    XQ_stride_b: " << XQ_stride_b << std::endl
+          << "    XQ_stride_m: " << XQ_stride_m << std::endl
+          << "    XQ_stride_g: " << XQ_stride_g << std::endl
+          << "    XQ_stride_h: " << XQ_stride_h << std::endl
+          << "    K_stride_b: " << K_stride_b << std::endl
+          << "    K_stride_m: " << K_stride_m << std::endl
+          << "    K_stride_g: " << K_stride_g << std::endl
+          << "    K_stride_h: " << K_stride_h << std::endl
+          << "    O_stride_split: " << O_stride_split << std::endl
+          << "    Q_size_m: " << Q_size_m << std::endl
+          << "    Q_size_g: " << Q_size_g << std::endl
+          << "    Q_size_h: " << Q_size_h << std::endl
+          << "    Q_size_k: " << Q_size_k << std::endl
+          << "    K_size_m: " << K_size_m << std::endl
+          << "    multiquery: " << multiquery << std::endl
+          << "    qk_scale: " << qk_scale << std::endl
+          << "    split_k: " << split_k << std::endl
+          << std::endl
+          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
+          << grid_dim.z << std::endl
+          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
+          << block_dim.z << std::endl
+          << "    lds_bytes: " << lds_bytes << std::endl
+          << "}";
+      return oss.str();
+    }
+  };
+
+  struct Invoker : public BaseInvoker {
+    using Argument = DeviceOp::Argument;
+    float Run(
+        const BaseArgument* argp_,
+        const StreamConfig& stream_config = StreamConfig{}) {
+      const Argument* argp = dynamic_cast<const Argument*>(argp_);
+
+      auto threads_per_wavefront = argp->block_dim.x;
+      auto Q_size_k_alignment_necessary = 0;
+
+      for (auto vec_size : {4, 2, 1}) {
+        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
+          Q_size_k_alignment_necessary = vec_size;
+        }
+      }
+
+      if (!Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported Q_size_k");
+      }
+
+      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
+        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      }
+
+      float split_attention_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 4,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 2,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_ck_kernel<
+                    scalar_t,
+                    /* vec_size */ 1,
+                    n_loop_unroll,
+                    n_loop_unroll_tail,
+                    KV_M_MAX,
+                    compute_t>
+              : nullptr,
+          argp->grid_dim,
+          argp->block_dim,
+          argp->lds_bytes,
+          argp->XQ,
+          argp->cache_K,
+          argp->cache_V,
+          argp->split_O,
+          argp->split_max,
+          argp->split_sumexp,
+          argp->seq_kv_lens,
+          argp->XQ_stride_b,
+          argp->XQ_stride_m,
+          argp->XQ_stride_g,
+          argp->XQ_stride_h,
+          argp->K_stride_b,
+          argp->K_stride_m,
+          argp->K_stride_g,
+          argp->K_stride_h,
+          argp->O_stride_split,
+          argp->Q_size_m,
+          argp->Q_size_g,
+          argp->Q_size_h,
+          argp->Q_size_k,
+          argp->K_size_m,
+          argp->multiquery,
+          argp->qk_scale,
+          argp->split_k);
+
+      const dim3 reduce_gridsize = {argp->grid_dim.x};
+      const dim3 reduce_blocksize = {argp->block_dim.x};
+      constexpr int32_t reduce_lds_bytes = 0;
+      float reduce_result = launch_and_time_kernel(
+          stream_config,
+          Q_size_k_alignment_necessary == 4
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    4>
+              : Q_size_k_alignment_necessary == 2
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    2>
+              : Q_size_k_alignment_necessary == 1
+              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
+                    scalar_t,
+                    1>
+              : nullptr,
+          reduce_gridsize,
+          reduce_blocksize,
+          reduce_lds_bytes,
+          argp->split_O,
+          argp->split_max,
+          argp->split_sumexp,
+          argp->O,
+          argp->Q_size_m,
+          argp->Q_size_g,
+          argp->Q_size_h,
+          argp->Q_size_k,
+          argp->O_stride_split,
+          argp->XQ_stride_b,
+          argp->XQ_stride_m,
+          argp->XQ_stride_g,
+          argp->XQ_stride_h,
+          argp->split_k);
+      return split_attention_result + reduce_result;
+    }
+  };
+};
+} // namespace device
+} // namespace tensor_operation
+} // namespace ck
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_inner_product.h b/xformers/csrc/attention/hip_decoder/ck_attention_inner_product.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_attention_inner_product.h
rename to xformers/csrc/attention/hip_decoder/ck_attention_inner_product.h
diff --git a/xformers/csrc/attention/hip_fmha/ck_attention_math_ext.h b/xformers/csrc/attention/hip_decoder/ck_attention_math_ext.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_attention_math_ext.h
rename to xformers/csrc/attention/hip_decoder/ck_attention_math_ext.h

From fb3628d6953a31afc0383d7b105b08d17c15471c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 22 Sep 2024 22:32:23 +0000
Subject: [PATCH 643/837] Sync to latest ck_tile commits for fixing NaN when
 seqlen_k == 0

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 4ba52b35dc..770d2b7725 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 4ba52b35dcebb95f9e826c43ffec72dcadee6b48
+Subproject commit 770d2b77253b5bfbcc794d4133e7ecada63cdd44

From ffa9906c7d9204f4fd91ee0a4d87590b61420956 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 22 Sep 2024 23:08:14 +0000
Subject: [PATCH 644/837] Separate the kernel/pipeline dispatch into two files
 for infer/forward

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 173 +-------------
 .../ck_tiled_fmha_batched_forward_dispatch.h  | 180 ++++++++++++++
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 206 +---------------
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 213 +++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 167 +------------
 .../ck_tiled_fmha_grouped_forward_dispatch.h  | 174 ++++++++++++++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 212 +----------------
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 219 ++++++++++++++++++
 8 files changed, 790 insertions(+), 754 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 20c1b2c3ef..a2f76ccb40 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -6,178 +6,7 @@
  */
 #pragma once
 
-#include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
-#include <ck_tile/ops/epilogue.hpp>
-#include <ck_tile/ops/fmha.hpp>
-
-#include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
-#include "ck_tiled_fmha_params.h"
-
-template <
-    typename ScalarType,
-    bool kHasCausalMask,
-    bool kHasBias,
-    bool kHasDropout,
-    ck_tile::index_t MaxK>
-struct batched_forward_causalmask_bias_dropout_dispatch {
-  template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
-      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
-      false, // kIsGroupMode
-      FmhaMask,
-      FmhaTraits>;
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-      using FmhaFwdTilePartitioner_ =
-          ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
-      const bool pad_seqlen_k =
-          (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
-      const bool pad_headdim_q =
-          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
-      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
-
-      // usually headdim_q and headdim_v are same, consider them together to
-      // determine whether to do padding saving some compiling time
-      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-      const bool use_async_pipeline =
-          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
-
-      BOOL_SWITCH_3(
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_seqlen_k,
-          kPadSeqLenK,
-          pad_headdim,
-          kPadHeadDim,
-          [&] {
-            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDim, // kPadHeadDimQ
-                kPadHeadDim, // kPadHeadDimV
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                true, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-            using FmhaFwdPipeline_ =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-            using FmhaFwdEpilogue_ =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDim>>;
-
-            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                FmhaFwdTilePartitioner_,
-                FmhaFwdPipeline_,
-                FmhaFwdEpilogue_>;
-
-            RunWithKernel<FmhaFwdKernel_>(param, stream);
-          });
-    });
-  };
-
-  template <typename FmhaFwdKernel>
-  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
-    const auto kargs = [&] {
-      return FmhaFwdKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          nullptr, // rand_val_ptr
-          param.logsumexp_ptr,
-          param.out_ptr,
-          param.M, // seqlen_q
-          param.N, // seqlen_k
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.scale,
-          1.0f, // scale_p
-          1.0f, // scale_o
-          param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
-                              // stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[2],
-          0, // stride_randval
-          param.out_strides[1],
-          param.q_strides[2], // q, k, v, bias, randval, lse, out tensor
-                              // head-dim stride
-          param.k_strides[2],
-          param.v_strides[2],
-          param.attn_bias_strides[1],
-          0, // nhead_randva
-          param.lse_strides[1], // nhead_stride_lse
-          param.out_strides[2],
-          param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
-                              // batch-dim stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[0],
-          0, // batch_stride_randval
-          param.lse_strides[0], // batch_stride_lse
-          param.out_strides[0],
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type,
-          param.dropout_prob, // dropout ratio
-          false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
-    }();
-
-    dim3 kGridSize =
-        FmhaFwdKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
-    constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
-
-    (void)ck_tile::launch_kernel(
-        ck_tile::stream_config{stream, false},
-        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
-            FmhaFwdKernel{}, kGridSize, kBlockSize, 0, kargs));
-  };
-};
+#include "ck_tiled_fmha_batched_forward_dispatch.h"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
new file mode 100644
index 0000000000..2a5270f6f1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -0,0 +1,180 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasDropout,
+    ck_tile::index_t MaxK>
+struct batched_forward_causalmask_bias_dropout_dispatch {
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      false, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+      using FmhaFwdTilePartitioner_ =
+          ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
+      constexpr ck_tile::index_t occupancy =
+          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
+      const bool pad_seqlen_k =
+          (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
+      const bool pad_headdim_q =
+          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+      const bool use_async_pipeline =
+          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+
+      BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim,
+          kPadHeadDim,
+          [&] {
+            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ
+                kPadHeadDim, // kPadHeadDimV
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                true, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+            using FmhaFwdPipeline_ =
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+            using FmhaFwdEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDim>>;
+
+            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                FmhaFwdTilePartitioner_,
+                FmhaFwdPipeline_,
+                FmhaFwdEpilogue_>;
+
+            RunWithKernel<FmhaFwdKernel_>(param, stream);
+          });
+    });
+  };
+
+  template <typename FmhaFwdKernel>
+  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaFwdKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
+          param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          0, // stride_randval
+          param.out_strides[1],
+          param.q_strides[2], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          0, // nhead_randva
+          param.lse_strides[1], // nhead_stride_lse
+          param.out_strides[2],
+          param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
+                              // batch-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          0, // batch_stride_randval
+          param.lse_strides[0], // batch_stride_lse
+          param.out_strides[0],
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
+          param.dropout_prob, // dropout ratio
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
+    }();
+
+    dim3 kGridSize =
+        FmhaFwdKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 36cf1b56e7..78164eef8b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -6,211 +6,7 @@
  */
 #pragma once
 
-#include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
-#include <ck_tile/ops/epilogue.hpp>
-#include <ck_tile/ops/fmha.hpp>
-
-#include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
-#include "ck_tiled_fmha_params.h"
-#include "ck_tiled_headdim_switch.h"
-
-template <
-    typename ScalarType,
-    bool kHasCausalMask,
-    bool kHasBias,
-    bool kHasDropout,
-    ck_tile::index_t MaxK>
-struct batched_infer_causalmask_bias_dropout_dispatch {
-  template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
-      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
-      false, // kIsGroupMode
-      FmhaMask,
-      FmhaTraits>;
-
-  static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-      const bool pad_seqlen_k =
-          (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
-      const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-      const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-
-      // usually headdim_q and headdim_v are same, consider them together to
-      // determine whether to do padding saving some compiling time
-      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-      const bool use_async_pipeline =
-          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-           (MaxK <= 128));
-
-      if (!use_async_pipeline) {
-        BOOL_SWITCH_3(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaTraits = ck_tile::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  kHasDropout,
-                  false, // kDoFp8StaticQuant place-holder
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                      kPadSeqLenQ,
-                      kPadHeadDim>>;
-
-              using FmhaKernel = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            });
-      } else {
-        BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-          using FmhaTraits = ck_tile::TileFmhaTraits<
-              true, // kPadSeqLenQ,
-              kPadSeqLenK,
-              true, // kPadHeadDimQ,
-              true, // kPadHeadDimV,
-              kBiasEnum,
-              false, // kHasBiasGrad place-holder
-              false, // kStoreLSE
-              kHasDropout,
-              false, // kDoFp8StaticQuant place-holder
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-          using FmhaPipeline =
-              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
-
-          using FmhaEpilogue =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                  true,
-                  true>>;
-
-          using FmhaKernel = ck_tile::
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        });
-      };
-    });
-  };
-
-  template <typename FmhaKernel>
-  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
-    const auto kargs = [&] {
-      return FmhaKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          nullptr, // rand_val_ptr
-          nullptr, // lse_ptr
-          param.out_ptr,
-          param.M, // seqlen_q
-          param.N, // seqlen_k
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.scale,
-          1.0f, // scale_p
-          1.0f, // scale_o
-          param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
-                              // stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[2],
-          0, // stride_randval
-          param.out_strides[1],
-          param.q_strides[2], // q, k, v, bias, randval, lse, out tensor
-                              // head-dim stride
-          param.k_strides[2],
-          param.v_strides[2],
-          param.attn_bias_strides[1],
-          0, // nhead_stride_randval
-          0, // nhead_stride_lse
-          param.out_strides[2],
-          param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
-                              // batch-dim stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[0],
-          0, // batch_stride_randval
-          0, // batch_stride_lse
-          param.out_strides[0],
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type,
-          param.dropout_prob, // dropout ratio
-          false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
-    }();
-
-    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
-    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-    (void)ck_tile::launch_kernel(
-        ck_tile::stream_config{stream, false},
-        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
-            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
-  };
-};
+#include "ck_tiled_fmha_batched_infer_dispatch.h"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
new file mode 100644
index 0000000000..43b90d1f3c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -0,0 +1,213 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+#include "ck_tiled_headdim_switch.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasDropout,
+    ck_tile::index_t MaxK>
+struct batched_infer_causalmask_bias_dropout_dispatch {
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      false, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+      using FmhaShape = FmhaFwdShape<MaxK>;
+      using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
+      constexpr ck_tile::index_t occupancy =
+          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+      const bool pad_seqlen_k =
+          (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+      const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+      const bool use_async_pipeline =
+          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+           (MaxK <= 128));
+
+      if (!use_async_pipeline) {
+        BOOL_SWITCH_3(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim,
+            kPadHeadDim,
+            [&] {
+              using FmhaTraits = ck_tile::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  kHasDropout,
+                  false, // kDoFp8StaticQuant place-holder
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                      kPadSeqLenQ,
+                      kPadHeadDim>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            });
+      } else {
+        BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
+          using FmhaTraits = ck_tile::TileFmhaTraits<
+              true, // kPadSeqLenQ,
+              kPadSeqLenK,
+              true, // kPadHeadDimQ,
+              true, // kPadHeadDimV,
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              false, // kStoreLSE
+              kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  true,
+                  true>>;
+
+          using FmhaKernel = ck_tile::
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        });
+      };
+    });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(BatchedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
+          nullptr, // lse_ptr
+          param.out_ptr,
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
+          param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          0, // stride_randval
+          param.out_strides[1],
+          param.q_strides[2], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          0, // nhead_stride_randval
+          0, // nhead_stride_lse
+          param.out_strides[2],
+          param.q_strides[0], // q, k, v, bias, randval, lse, out tensor
+                              // batch-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          0, // batch_stride_randval
+          0, // batch_stride_lse
+          param.out_strides[0],
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
+          param.dropout_prob, // dropout ratio
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 519a5ea89e..af6813be26 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -6,172 +6,7 @@
  */
 #pragma once
 
-#include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
-#include <ck_tile/ops/epilogue.hpp>
-#include <ck_tile/ops/fmha.hpp>
-
-#include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
-#include "ck_tiled_fmha_params.h"
-
-template <
-    typename ScalarType,
-    bool kHasCausalMask,
-    bool kHasBias,
-    bool kHasDropout,
-    ck_tile::index_t MaxK>
-struct grouped_forward_causalmask_bias_dropout_dispatch {
-  template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
-      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
-      true, // kIsGroupMode
-      FmhaMask,
-      FmhaTraits>;
-
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-
-      constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
-          : (MaxK == 256)                                 ? 1
-                                                          : 2;
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      constexpr bool kPadSeqLenQ = true;
-      constexpr bool kPadSeqLenK = true;
-
-      const bool pad_headdim_q =
-          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
-      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
-
-      BOOL_SWITCH_2(
-          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDimQ,
-                kPadHeadDimV,
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                true, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-            using FmhaFwdPipeline_ =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-            using FmhaFwdEpilogue_ =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDimV>>;
-
-            if (param.seqlen_k_dev_ptr !=
-                nullptr) { // seqlen_k of batches are padded
-              using FmhaTilePartitioner =
-                  ck_tile::FmhaFwdTilePartitioner_HBS<FmhaFwdShape_>;
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            } else {
-              using FmhaTilePartitioner =
-                  ck_tile::FmhaFwdTilePartitioner_SHB<FmhaFwdShape_>;
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            }
-          });
-    });
-  };
-
-  template <typename FmhaFwdKernel>
-  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
-    const auto kargs = [&] {
-      return FmhaFwdKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          nullptr, // rand_val_ptr
-          param.logsumexp_ptr,
-          param.out_ptr,
-          param.seqstart_q_dev_ptr,
-          param.seqstart_k_dev_ptr,
-          param.seqlen_k_dev_ptr,
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.scale,
-          1.0f, // scale_p
-          1.0f, // scale_o
-          param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
-                              // stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[2],
-          0, // stride_randval
-          param.out_strides[0],
-          param.q_strides[1], // q, k, v, bias, randval, lse, out tensor
-                              // head-dim stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[1],
-          0, // nhead_stride_randval
-          param.lse_strides[0],
-          param.out_strides[1],
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type,
-          param.dropout_prob,
-          false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
-    }();
-
-    dim3 kGridSize = FmhaFwdKernel::GridSize(
-        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
-    constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
-
-    (void)ck_tile::launch_kernel(
-        ck_tile::stream_config{stream, false},
-        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
-            FmhaFwdKernel{}, kGridSize, kBlockSize, 0, kargs));
-  };
-};
+#include "ck_tiled_fmha_grouped_forward_dispatch.h"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
new file mode 100644
index 0000000000..747cb7a3cb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -0,0 +1,174 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasDropout,
+    ck_tile::index_t MaxK>
+struct grouped_forward_causalmask_bias_dropout_dispatch {
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      true, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+
+      constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
+          : (MaxK == 256)                                 ? 1
+                                                          : 2;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      const bool pad_headdim_q =
+          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                true, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+            using FmhaFwdPipeline_ =
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+            using FmhaFwdEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDimV>>;
+
+            if (param.seqlen_k_dev_ptr !=
+                nullptr) { // seqlen_k of batches are padded
+              using FmhaTilePartitioner =
+                  ck_tile::FmhaFwdTilePartitioner_HBS<FmhaFwdShape_>;
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
+            } else {
+              using FmhaTilePartitioner =
+                  ck_tile::FmhaFwdTilePartitioner_SHB<FmhaFwdShape_>;
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithKernel<FmhaFwdKernel_>(param, stream);
+            }
+          });
+    });
+  };
+
+  template <typename FmhaFwdKernel>
+  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaFwdKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
+          param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          0, // stride_randval
+          param.out_strides[0],
+          param.q_strides[1], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          0, // nhead_stride_randval
+          param.lse_strides[0],
+          param.out_strides[1],
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
+          param.dropout_prob,
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
+    }();
+
+    dim3 kGridSize = FmhaFwdKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 3805108c1e..f33f4d7315 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -6,217 +6,7 @@
  */
 #pragma once
 
-#include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
-#include <ck_tile/ops/epilogue.hpp>
-#include <ck_tile/ops/fmha.hpp>
-
-#include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
-#include "ck_tiled_fmha_params.h"
-#include "ck_tiled_headdim_switch.h"
-
-template <
-    typename ScalarType,
-    bool kHasCausalMask,
-    bool kHasBias,
-    bool kHasDropout,
-    ck_tile::index_t MaxK>
-struct grouped_infer_causalmask_bias_dropout_dispatch {
-  template <typename FmhaTraits, typename FmhaMask>
-  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
-      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
-      true, // kIsGroupMode
-      FmhaMask,
-      FmhaTraits>;
-
-  static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaShape = FmhaFwdShape<MaxK>;
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      constexpr bool kPadSeqLenQ = true;
-      constexpr bool kPadSeqLenK = true;
-
-      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-      const bool use_async_pipeline =
-          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-           (MaxK <= 128));
-
-      if (!use_async_pipeline) {
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck_tile::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  kHasDropout,
-                  false, // kDoFp8StaticQuant place-holder
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                      kPadSeqLenQ,
-                      kPadHeadDimV>>;
-
-              if (param.seqlen_k_dev_ptr !=
-                  nullptr) { // seqlen_k of batches are padded
-                using FmhaTilePartitioner =
-                    ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
-                using FmhaKernel = ck_tile::FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              } else {
-                using FmhaTilePartitioner =
-                    ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
-                using FmhaKernel = ck_tile::FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              }
-            });
-      } else {
-        using FmhaTraits = ck_tile::TileFmhaTraits<
-            true, // kPadSeqLenQ,
-            kPadSeqLenK,
-            true, // kPadHeadDimQ,
-            true, // kPadHeadDimV,
-            kBiasEnum,
-            false, // kHasBiasGrad place-holder
-            false, // kStoreLSE
-            kHasDropout,
-            false, // kDoFp8StaticQuant place-holder
-            occupancy>;
-
-        using FmhaPipelineProblem =
-            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-        using FmhaPipeline =
-            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
-
-        using FmhaEpilogue =
-            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                true,
-                true>>;
-
-        if (param.seqlen_k_dev_ptr !=
-            nullptr) { // seqlen_k of batches are padded
-          using FmhaTilePartitioner =
-              ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
-          using FmhaKernel = ck_tile::
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        } else {
-          using FmhaTilePartitioner =
-              ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
-          using FmhaKernel = ck_tile::
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        }
-      }
-    });
-  };
-
-  template <typename FmhaKernel>
-  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
-    const auto kargs = [&] {
-      return FmhaKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          nullptr, // rand_val_ptr
-          nullptr, // lse_ptr
-          param.out_ptr,
-          param.seqstart_q_dev_ptr,
-          param.seqstart_k_dev_ptr,
-          param.seqlen_k_dev_ptr,
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.scale,
-          1.0f, // scale_p
-          1.0f, // scale_o
-          param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
-                              // stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[2],
-          0, // stride_randval
-          param.out_strides[0],
-          param.q_strides[1], // q, k, v, bias, randval, lse, out tensor
-                              // head-dim stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[1],
-          0, // nhead_stride_randval
-          0, // nhead_stride_lse
-          param.out_strides[1],
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type,
-          param.dropout_prob,
-          false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
-    }();
-
-    dim3 kGridSize = FmhaKernel::GridSize(
-        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
-    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
-    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
-
-    (void)ck_tile::launch_kernel(
-        ck_tile::stream_config{stream, false},
-        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
-            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
-  };
-};
+#include "ck_tiled_fmha_grouped_infer_dispatch.h"
 
 template <
     typename ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
new file mode 100644
index 0000000000..bd87dc43fa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -0,0 +1,219 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+#include "ck_tiled_headdim_switch.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    bool kHasDropout,
+    ck_tile::index_t MaxK>
+struct grouped_infer_causalmask_bias_dropout_dispatch {
+  template <typename FmhaTraits, typename FmhaMask>
+  using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
+      typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::RandValOutputDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+      FmhaFwdShape<MaxK>,
+      true, // kIsGroupMode
+      FmhaMask,
+      FmhaTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+      using FmhaShape = FmhaFwdShape<MaxK>;
+      constexpr ck_tile::index_t occupancy =
+          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+      const bool use_async_pipeline =
+          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+           (MaxK <= 128));
+
+      if (!use_async_pipeline) {
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck_tile::TileFmhaTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  kHasDropout,
+                  false, // kDoFp8StaticQuant place-holder
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                      kPadSeqLenQ,
+                      kPadHeadDimV>>;
+
+              if (param.seqlen_k_dev_ptr !=
+                  nullptr) { // seqlen_k of batches are padded
+                using FmhaTilePartitioner =
+                    ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
+                using FmhaKernel = ck_tile::FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTilePartitioner =
+                    ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
+                using FmhaKernel = ck_tile::FmhaFwdKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithKernel<FmhaKernel>(param, stream);
+              }
+            });
+      } else {
+        using FmhaTraits = ck_tile::TileFmhaTraits<
+            true, // kPadSeqLenQ,
+            kPadSeqLenK,
+            true, // kPadHeadDimQ,
+            true, // kPadHeadDimV,
+            kBiasEnum,
+            false, // kHasBiasGrad place-holder
+            false, // kStoreLSE
+            kHasDropout,
+            false, // kDoFp8StaticQuant place-holder
+            occupancy>;
+
+        using FmhaPipelineProblem =
+            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+        using FmhaPipeline =
+            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+
+        using FmhaEpilogue =
+            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                true,
+                true>>;
+
+        if (param.seqlen_k_dev_ptr !=
+            nullptr) { // seqlen_k of batches are padded
+          using FmhaTilePartitioner =
+              ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
+          using FmhaKernel = ck_tile::
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        } else {
+          using FmhaTilePartitioner =
+              ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
+          using FmhaKernel = ck_tile::
+              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        }
+      }
+    });
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithKernel(GroupedForwardParams& param, hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // rand_val_ptr
+          nullptr, // lse_ptr
+          param.out_ptr,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
+          param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
+                              // stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          0, // stride_randval
+          param.out_strides[0],
+          param.q_strides[1], // q, k, v, bias, randval, lse, out tensor
+                              // head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          0, // nhead_stride_randval
+          0, // nhead_stride_lse
+          param.out_strides[1],
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
+          param.dropout_prob,
+          false, // is_store_randval
+          {param.philox_seed, param.philox_offset});
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};

From 221860e1303110ec267cbb78e2bbd16c0e1945c7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 22 Sep 2024 23:19:59 +0000
Subject: [PATCH 645/837] Remove unused member variable in GroupedForwardParams

---
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h | 1 -
 1 file changed, 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index ce86f6df40..b09a79d0d5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -92,7 +92,6 @@ struct GroupedInferParams {
 };
 
 struct GroupedForwardParams : public GroupedInferParams {
-  bool use_dropout;
   bool compute_logsumexp;
 
   float dropout_prob;

From 6a07c16b3aa85aeff3eee360f7dfd35d966ee8bf Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 24 Sep 2024 23:53:21 +0000
Subject: [PATCH 646/837] delete autogenerated files

---
 .../hip_decoder/attention_forward_decoder.cu  |  333 -----
 .../hip_decoder/attention_forward_decoder.hip |  334 -----
 .../attention_forward_decoder_hip.cpp         |  334 -----
 .../attention_forward_decoder_hip.cu          |  334 -----
 .../hip_decoder/attention_forward_splitk.cu   | 1184 ----------------
 .../hip_decoder/attention_forward_splitk.hip  | 1185 -----------------
 .../attention_forward_splitk_hip.cpp          | 1185 -----------------
 .../attention_forward_splitk_hip.cu           | 1185 -----------------
 8 files changed, 6074 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu

diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu
deleted file mode 100644
index 7f126dd335..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cu
+++ /dev/null
@@ -1,333 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <c10/cuda/CUDAStream.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-namespace {
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock,
-    int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = K_MAX>
-at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
-}
-
-#ifdef ATTN_FWD_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining all the library paths needed for compilation below, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static void do_correctness_check() {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t H = 4;
-  const int32_t G = 1;
-  auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, G, H, D}, options);
-  auto K = at::randn({B, 4096, G, H, D}, options);
-  auto V = at::randn({B, 4096, G, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
-
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
-      std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-             "n_wavefronts_per_block"
-          << std::endl;
-      return 0;
-    }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t n_groups = 1;
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q =
-        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-        : at::rand(
-              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
-    auto O = at::empty_like(Q);
-
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip
deleted file mode 100644
index e638f47dea..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.hip
+++ /dev/null
@@ -1,334 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_hip.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-namespace {
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock,
-    int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = K_MAX>
-at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
-}
-
-#ifdef ATTN_FWD_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining all the library paths needed for compilation below, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static void do_correctness_check() {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t H = 4;
-  const int32_t G = 1;
-  auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, G, H, D}, options);
-  auto K = at::randn({B, 4096, G, H, D}, options);
-  auto V = at::randn({B, 4096, G, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
-
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
-      std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-             "n_wavefronts_per_block"
-          << std::endl;
-      return 0;
-    }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t n_groups = 1;
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q =
-        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-        : at::rand(
-              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
-    auto O = at::empty_like(Q);
-
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp
deleted file mode 100644
index e638f47dea..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cpp
+++ /dev/null
@@ -1,334 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_hip.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-namespace {
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock,
-    int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = K_MAX>
-at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
-}
-
-#ifdef ATTN_FWD_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining all the library paths needed for compilation below, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static void do_correctness_check() {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t H = 4;
-  const int32_t G = 1;
-  auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, G, H, D}, options);
-  auto K = at::randn({B, 4096, G, H, D}, options);
-  auto V = at::randn({B, 4096, G, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
-
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
-      std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-             "n_wavefronts_per_block"
-          << std::endl;
-      return 0;
-    }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t n_groups = 1;
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q =
-        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-        : at::rand(
-              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
-    auto O = at::empty_like(Q);
-
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu b/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu
deleted file mode 100644
index e638f47dea..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_decoder_hip.cu
+++ /dev/null
@@ -1,334 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_hip.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-namespace {
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock,
-    int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = K_MAX>
-at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
-}
-
-#ifdef ATTN_FWD_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining all the library paths needed for compilation below, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static void do_correctness_check() {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t H = 4;
-  const int32_t G = 1;
-  auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, G, H, D}, options);
-  auto K = at::randn({B, 4096, G, H, D}, options);
-  auto V = at::randn({B, 4096, G, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
-
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
-      std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-             "n_wavefronts_per_block"
-          << std::endl;
-      return 0;
-    }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t n_groups = 1;
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q =
-        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-        : at::rand(
-              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
-    auto O = at::empty_like(Q);
-
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu
deleted file mode 100644
index fd70436a36..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cu
+++ /dev/null
@@ -1,1184 +0,0 @@
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <c10/cuda/CUDAStream.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_splitk.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 4;
-constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
-constexpr int32_t kMaxKVSequenceLength = 4096;
-constexpr int32_t kLoopUnroll = 16;
-constexpr int32_t kLoopUnrollTail = 2;
-using compute_t = float;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-namespace {
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock>
-at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k,
-    at::Tensor& split_max,
-    at::Tensor& split_sumexp,
-    at::Tensor& split_O,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
-  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
-      WavefrontsPerBlock * sizeof(compute_t);
-  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_splitk_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
-                ck_data_t,
-                kMaxKVSequenceLength,
-                kLoopUnroll,
-                kLoopUnrollTail,
-                compute_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc_ptr = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc_ptr,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-
-  TORCH_CHECK(XQ.dim() == rank);
-  TORCH_CHECK(cache_K.dim() == rank);
-  TORCH_CHECK(cache_V.dim() == rank);
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto K = XQ.size(4);
-
-  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-  auto split_sumexp = at::empty_like(split_max);
-
-  efficient_attention_forward_decoder_splitk_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(
-      XQ,
-      cache_K,
-      cache_V,
-      seq_kv_lens,
-      qk_scale,
-      split_k,
-      split_max,
-      split_sumexp,
-      O_splits,
-      O);
-
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  return efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(
-      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME(
-          "xformers::efficient_attention_forward_decoder_splitk_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
-}
-
-#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining the executed build commands, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_splitk_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& k_seqlens,
-    const int32_t split_k,
-    const int32_t block_size) {
-  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-  std::vector<at::Tensor> O_splits;
-  std::vector<at::Tensor> m_splits;
-  std::vector<at::Tensor> l_splits;
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    std::vector<at::Tensor> O_batch;
-    std::vector<at::Tensor> m_batch;
-    std::vector<at::Tensor> l_batch;
-
-    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-      auto seqlen = k_seqlens[b].item<int64_t>();
-      const int64_t t_low =
-          split_idx * (seqlen / split_k / block_size) * block_size;
-      const int64_t t_high = (split_idx + 1 < split_k)
-          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-          : seqlen;
-
-      const bool empty = t_low == t_high;
-
-      auto S = at::einsum(
-          "mghk, nghk -> mghn",
-          {Q_scaled[b],
-           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      auto m = empty
-          ? at::empty_like(S)
-          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-      auto s = at::exp(at::sub(S, m));
-      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-      auto O = at::einsum(
-          "mghn, nghk -> mghk",
-          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      if (empty) {
-        m = at::empty_like(at::slice(O, -1, 0, 1));
-        l = at::zeros_like(m);
-        m.fill_(ck::NumericLimits<float>::Lowest());
-      }
-      O_batch.push_back(O);
-      m_batch.push_back(m);
-      l_batch.push_back(l);
-    }
-
-    auto O_cat = at::stack(O_batch);
-    auto m_cat = at::stack(m_batch);
-    auto l_cat = at::stack(l_batch);
-
-    O_splits.push_back(O_cat);
-    m_splits.push_back(m_cat);
-    l_splits.push_back(l_cat);
-  }
-
-  auto O_cat = at::stack(O_splits);
-  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
-
-  return std::make_tuple(O_cat, m_cat, l_cat);
-}
-
-static at::Tensor split_reduce_torch(
-    const at::Tensor& O_splits,
-    const at::Tensor& m_splits,
-    const at::Tensor& l_splits,
-    int32_t split_k) {
-  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-  auto global_max =
-      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-  auto global_sumexp = at::zeros_like(global_max);
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
-    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
-    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-    auto alpha = at::exp(log_alpha);
-    alpha.nan_to_num_(1.);
-
-    auto pick_new = at::less(local_max, global_max);
-    auto pick_current_coef = at::where(pick_new, 1., alpha);
-    auto pick_new_coef = at::where(pick_new, alpha, 1.);
-
-    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-    global_sumexp = at::add(
-        at::mul(pick_current_coef, global_sumexp),
-        at::mul(pick_new_coef, local_sumexp));
-    global_max = at::max(local_max, global_max);
-  }
-
-  return at::div(O, global_sumexp);
-}
-
-static at::Tensor efficient_attention_forward_decoder_splitk_torch(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int32_t split_k,
-    int32_t block_size) {
-  auto [O_split, m, l] = split_attention_torch(
-      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-  auto O = split_reduce_torch(O_split, m, l, split_k);
-  return O.reshape_as(XQ);
-}
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    4,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-      return split_attention_result;
-    }
-  };
-};
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ split_O;
-    const compute_t* __restrict__ split_max;
-    const compute_t* __restrict__ split_sumexp;
-    scalar_t* __restrict__ O;
-
-    const int32_t O_size_m;
-    const int32_t O_size_g;
-    const int32_t O_size_h;
-    const int32_t O_size_k;
-
-    const ptrdiff_t O_stride_split;
-    const ptrdiff_t O_stride_b;
-    const ptrdiff_t O_stride_m;
-    const ptrdiff_t O_stride_g;
-    const ptrdiff_t O_stride_h;
-
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ split_O,
-        const compute_t* __restrict__ split_max,
-        const compute_t* __restrict__ split_sumexp,
-        scalar_t* __restrict__ O,
-        const int32_t O_size_m,
-        const int32_t O_size_g,
-        const int32_t O_size_h,
-        const int32_t O_size_k,
-        const ptrdiff_t O_stride_split,
-        const ptrdiff_t O_stride_b,
-        const ptrdiff_t O_stride_m,
-        const ptrdiff_t O_stride_g,
-        const ptrdiff_t O_stride_h,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          O(O),
-          O_size_m(O_size_m),
-          O_size_g(O_size_g),
-          O_size_h(O_size_h),
-          O_size_k(O_size_k),
-          O_stride_split(O_stride_split),
-          O_stride_b(O_stride_b),
-          O_stride_m(O_stride_m),
-          O_stride_g(O_stride_g),
-          O_stride_h(O_stride_h),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    O_stride_b: " << O_stride_b << std::endl
-          << "    O_stride_m: " << O_stride_m << std::endl
-          << "    O_stride_g: " << O_stride_g << std::endl
-          << "    O_stride_h: " << O_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    O_size_m: " << O_size_m << std::endl
-          << "    O_size_g: " << O_size_g << std::endl
-          << "    O_size_h: " << O_size_h << std::endl
-          << "    O_size_k: " << O_size_k << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto O_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
-          O_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported O_size_k");
-      }
-
-      if (arg.O_size_k % O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for O_size_k");
-      }
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          O_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : O_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : O_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.O_size_m,
-          arg.O_size_g,
-          arg.O_size_h,
-          arg.O_size_k,
-          arg.O_stride_split,
-          arg.O_stride_b,
-          arg.O_stride_m,
-          arg.O_stride_g,
-          arg.O_stride_h,
-          arg.split_k);
-      return reduce_result;
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
-    const at::Tensor& XQ,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& seqlen,
-    const int32_t split_k,
-    const int32_t wavefronts_per_block) {
-  at::OptionalDeviceGuard guard(XQ.device());
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto D = XQ.size(4);
-
-  double qk_scale = 1. / sqrt(D);
-
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-          .fill_(ck::NumericLimits<float>::Lowest());
-  auto split_sumexp = at::zeros_like(split_max);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
-
-  int32_t smem_softmax =
-      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
-      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
-                            // sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_split_attention_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc =
-            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc.data(),
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return std::make_tuple(split_O, split_max, split_sumexp);
-}
-
-static at::Tensor split_reduce_hip(
-    const at::Tensor& split_O,
-    const at::Tensor& split_max,
-    const at::Tensor& split_sumexp,
-    const int32_t split_k) {
-  at::OptionalDeviceGuard guard(split_O.device());
-
-  auto B = split_O.size(1);
-  auto M = split_O.size(2);
-  auto G = split_O.size(3);
-  auto H = split_O.size(4);
-  auto D = split_O.size(5);
-
-  TORCH_CHECK_EQ(split_k, split_O.size(0));
-  TORCH_CHECK_EQ(split_k, split_max.size(-1));
-  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
-
-  constexpr auto rank = 5;
-
-  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
-  TORCH_CHECK_EQ(split_max.dim(), rank);
-  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
-
-  auto O = at::zeros({B, M, G, H, D}, split_O.options());
-
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-  auto lds_bytes = 0;
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(kThreadsPerWavefront);
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      O.scalar_type(),
-      "efficient_attention_forward_decoder_split_reduce_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            O_acc.size(1),
-            O_acc.size(2),
-            O_acc.size(3),
-            O_acc.size(4),
-            split_O_acc.stride(0),
-            O_acc.stride(0),
-            O_acc.stride(1),
-            O_acc.stride(2),
-            O_acc.stride(3),
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return O;
-}
-
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
-    const int32_t padding,
-    const int32_t B,
-    const int32_t Hq,
-    const int32_t Hkv,
-    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t G = Hq / Hkv;
-  const int32_t num_queries = 1;
-
-  at::manual_seed(1);
-
-  auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
-                    : at::randn({B, padding, G, 1, D}, options)
-                          .expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
-
-  return std::make_tuple(XQ, K, V, seqlen);
-}
-
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
-  auto mask =
-      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  return 1. - percent_match.item<float>();
-}
-
-static void test_split_attention(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] = split_attention_torch(
-      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
-
-  auto [O_hip, m_hip, l_hip] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
-  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
-  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
-
-  printf(
-      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
-      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
-      "split_sumexp elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      O_percent_mismatch,
-      m_percent_mismatch,
-      l_percent_mismatch);
-}
-
-static void test_split_reduce(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_torch = split_reduce_torch(
-      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
-
-  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-  printf(
-      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
-      "percentage: %.2f \n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      hip_torch_mismatch);
-}
-
-static void test_splitk_decoder_e2e_correctness(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  double qk_scale = 1. / sqrt(XQ.size(-1));
-
-  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
-      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
-  auto e2e_mismatch = percent_mismatch(result, gold_result);
-  printf(
-      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
-      "elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      e2e_mismatch);
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_splitk_decoder_e2e_correctness(
-                  padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2}) {
-              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 6) {
-      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
-                   "n_wavefronts_per_block"
-                << std::endl;
-      return 0;
-    }
-    const int32_t padding = std::stoi(args[0]);
-    const int32_t batch_size = std::stoi(args[1]);
-    const int32_t nq_heads = std::stoi(args[2]);
-    const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-    auto [Q, K, V, seq] =
-        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-    auto O = at::empty_like(Q);
-
-    constexpr auto splitk_dim = 0;
-    constexpr auto split_k = 1;
-    auto O_splits = at::stack(O, splitk_dim);
-
-    auto split_max = at::empty(
-        {batch_size, padding, Q.size(2), Q.size(3), split_k},
-        Q.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    const double qk_scale = 1. / sqrt(Q.size(-1));
-    auto call_ptr =
-        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
-                 kThreadsPerWavefront,
-                 kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                      \
-  case (n):                                                             \
-    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
-        kThreadsPerWavefront,                                           \
-        (n)>;                                                           \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(
-          Q,
-          K,
-          V,
-          seq,
-          qk_scale,
-          split_k,
-          split_max,
-          split_sumexp,
-          O_splits,
-          O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip
deleted file mode 100644
index 1b287b4ccd..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.hip
+++ /dev/null
@@ -1,1185 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_splitk_hip.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 4;
-constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
-constexpr int32_t kMaxKVSequenceLength = 4096;
-constexpr int32_t kLoopUnroll = 16;
-constexpr int32_t kLoopUnrollTail = 2;
-using compute_t = float;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-namespace {
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock>
-at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k,
-    at::Tensor& split_max,
-    at::Tensor& split_sumexp,
-    at::Tensor& split_O,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
-  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
-      WavefrontsPerBlock * sizeof(compute_t);
-  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_splitk_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
-                ck_data_t,
-                kMaxKVSequenceLength,
-                kLoopUnroll,
-                kLoopUnrollTail,
-                compute_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc_ptr = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc_ptr,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-
-  TORCH_CHECK(XQ.dim() == rank);
-  TORCH_CHECK(cache_K.dim() == rank);
-  TORCH_CHECK(cache_V.dim() == rank);
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto K = XQ.size(4);
-
-  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-  auto split_sumexp = at::empty_like(split_max);
-
-  efficient_attention_forward_decoder_splitk_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(
-      XQ,
-      cache_K,
-      cache_V,
-      seq_kv_lens,
-      qk_scale,
-      split_k,
-      split_max,
-      split_sumexp,
-      O_splits,
-      O);
-
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  return efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(
-      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME(
-          "xformers::efficient_attention_forward_decoder_splitk_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
-}
-
-#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining the executed build commands, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_splitk_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& k_seqlens,
-    const int32_t split_k,
-    const int32_t block_size) {
-  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-  std::vector<at::Tensor> O_splits;
-  std::vector<at::Tensor> m_splits;
-  std::vector<at::Tensor> l_splits;
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    std::vector<at::Tensor> O_batch;
-    std::vector<at::Tensor> m_batch;
-    std::vector<at::Tensor> l_batch;
-
-    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-      auto seqlen = k_seqlens[b].item<int64_t>();
-      const int64_t t_low =
-          split_idx * (seqlen / split_k / block_size) * block_size;
-      const int64_t t_high = (split_idx + 1 < split_k)
-          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-          : seqlen;
-
-      const bool empty = t_low == t_high;
-
-      auto S = at::einsum(
-          "mghk, nghk -> mghn",
-          {Q_scaled[b],
-           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      auto m = empty
-          ? at::empty_like(S)
-          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-      auto s = at::exp(at::sub(S, m));
-      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-      auto O = at::einsum(
-          "mghn, nghk -> mghk",
-          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      if (empty) {
-        m = at::empty_like(at::slice(O, -1, 0, 1));
-        l = at::zeros_like(m);
-        m.fill_(ck::NumericLimits<float>::Lowest());
-      }
-      O_batch.push_back(O);
-      m_batch.push_back(m);
-      l_batch.push_back(l);
-    }
-
-    auto O_cat = at::stack(O_batch);
-    auto m_cat = at::stack(m_batch);
-    auto l_cat = at::stack(l_batch);
-
-    O_splits.push_back(O_cat);
-    m_splits.push_back(m_cat);
-    l_splits.push_back(l_cat);
-  }
-
-  auto O_cat = at::stack(O_splits);
-  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
-
-  return std::make_tuple(O_cat, m_cat, l_cat);
-}
-
-static at::Tensor split_reduce_torch(
-    const at::Tensor& O_splits,
-    const at::Tensor& m_splits,
-    const at::Tensor& l_splits,
-    int32_t split_k) {
-  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-  auto global_max =
-      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-  auto global_sumexp = at::zeros_like(global_max);
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
-    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
-    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-    auto alpha = at::exp(log_alpha);
-    alpha.nan_to_num_(1.);
-
-    auto pick_new = at::less(local_max, global_max);
-    auto pick_current_coef = at::where(pick_new, 1., alpha);
-    auto pick_new_coef = at::where(pick_new, alpha, 1.);
-
-    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-    global_sumexp = at::add(
-        at::mul(pick_current_coef, global_sumexp),
-        at::mul(pick_new_coef, local_sumexp));
-    global_max = at::max(local_max, global_max);
-  }
-
-  return at::div(O, global_sumexp);
-}
-
-static at::Tensor efficient_attention_forward_decoder_splitk_torch(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int32_t split_k,
-    int32_t block_size) {
-  auto [O_split, m, l] = split_attention_torch(
-      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-  auto O = split_reduce_torch(O_split, m, l, split_k);
-  return O.reshape_as(XQ);
-}
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    4,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-      return split_attention_result;
-    }
-  };
-};
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ split_O;
-    const compute_t* __restrict__ split_max;
-    const compute_t* __restrict__ split_sumexp;
-    scalar_t* __restrict__ O;
-
-    const int32_t O_size_m;
-    const int32_t O_size_g;
-    const int32_t O_size_h;
-    const int32_t O_size_k;
-
-    const ptrdiff_t O_stride_split;
-    const ptrdiff_t O_stride_b;
-    const ptrdiff_t O_stride_m;
-    const ptrdiff_t O_stride_g;
-    const ptrdiff_t O_stride_h;
-
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ split_O,
-        const compute_t* __restrict__ split_max,
-        const compute_t* __restrict__ split_sumexp,
-        scalar_t* __restrict__ O,
-        const int32_t O_size_m,
-        const int32_t O_size_g,
-        const int32_t O_size_h,
-        const int32_t O_size_k,
-        const ptrdiff_t O_stride_split,
-        const ptrdiff_t O_stride_b,
-        const ptrdiff_t O_stride_m,
-        const ptrdiff_t O_stride_g,
-        const ptrdiff_t O_stride_h,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          O(O),
-          O_size_m(O_size_m),
-          O_size_g(O_size_g),
-          O_size_h(O_size_h),
-          O_size_k(O_size_k),
-          O_stride_split(O_stride_split),
-          O_stride_b(O_stride_b),
-          O_stride_m(O_stride_m),
-          O_stride_g(O_stride_g),
-          O_stride_h(O_stride_h),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    O_stride_b: " << O_stride_b << std::endl
-          << "    O_stride_m: " << O_stride_m << std::endl
-          << "    O_stride_g: " << O_stride_g << std::endl
-          << "    O_stride_h: " << O_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    O_size_m: " << O_size_m << std::endl
-          << "    O_size_g: " << O_size_g << std::endl
-          << "    O_size_h: " << O_size_h << std::endl
-          << "    O_size_k: " << O_size_k << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto O_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
-          O_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported O_size_k");
-      }
-
-      if (arg.O_size_k % O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for O_size_k");
-      }
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          O_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : O_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : O_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.O_size_m,
-          arg.O_size_g,
-          arg.O_size_h,
-          arg.O_size_k,
-          arg.O_stride_split,
-          arg.O_stride_b,
-          arg.O_stride_m,
-          arg.O_stride_g,
-          arg.O_stride_h,
-          arg.split_k);
-      return reduce_result;
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
-    const at::Tensor& XQ,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& seqlen,
-    const int32_t split_k,
-    const int32_t wavefronts_per_block) {
-  at::OptionalDeviceGuard guard(XQ.device());
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto D = XQ.size(4);
-
-  double qk_scale = 1. / sqrt(D);
-
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-          .fill_(ck::NumericLimits<float>::Lowest());
-  auto split_sumexp = at::zeros_like(split_max);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
-
-  int32_t smem_softmax =
-      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
-      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
-                            // sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_split_attention_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc =
-            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc.data(),
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return std::make_tuple(split_O, split_max, split_sumexp);
-}
-
-static at::Tensor split_reduce_hip(
-    const at::Tensor& split_O,
-    const at::Tensor& split_max,
-    const at::Tensor& split_sumexp,
-    const int32_t split_k) {
-  at::OptionalDeviceGuard guard(split_O.device());
-
-  auto B = split_O.size(1);
-  auto M = split_O.size(2);
-  auto G = split_O.size(3);
-  auto H = split_O.size(4);
-  auto D = split_O.size(5);
-
-  TORCH_CHECK_EQ(split_k, split_O.size(0));
-  TORCH_CHECK_EQ(split_k, split_max.size(-1));
-  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
-
-  constexpr auto rank = 5;
-
-  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
-  TORCH_CHECK_EQ(split_max.dim(), rank);
-  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
-
-  auto O = at::zeros({B, M, G, H, D}, split_O.options());
-
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-  auto lds_bytes = 0;
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(kThreadsPerWavefront);
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      O.scalar_type(),
-      "efficient_attention_forward_decoder_split_reduce_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            O_acc.size(1),
-            O_acc.size(2),
-            O_acc.size(3),
-            O_acc.size(4),
-            split_O_acc.stride(0),
-            O_acc.stride(0),
-            O_acc.stride(1),
-            O_acc.stride(2),
-            O_acc.stride(3),
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return O;
-}
-
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
-    const int32_t padding,
-    const int32_t B,
-    const int32_t Hq,
-    const int32_t Hkv,
-    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t G = Hq / Hkv;
-  const int32_t num_queries = 1;
-
-  at::manual_seed(1);
-
-  auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
-                    : at::randn({B, padding, G, 1, D}, options)
-                          .expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
-
-  return std::make_tuple(XQ, K, V, seqlen);
-}
-
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
-  auto mask =
-      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  return 1. - percent_match.item<float>();
-}
-
-static void test_split_attention(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] = split_attention_torch(
-      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
-
-  auto [O_hip, m_hip, l_hip] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
-  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
-  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
-
-  printf(
-      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
-      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
-      "split_sumexp elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      O_percent_mismatch,
-      m_percent_mismatch,
-      l_percent_mismatch);
-}
-
-static void test_split_reduce(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_torch = split_reduce_torch(
-      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
-
-  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-  printf(
-      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
-      "percentage: %.2f \n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      hip_torch_mismatch);
-}
-
-static void test_splitk_decoder_e2e_correctness(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  double qk_scale = 1. / sqrt(XQ.size(-1));
-
-  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
-      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
-  auto e2e_mismatch = percent_mismatch(result, gold_result);
-  printf(
-      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
-      "elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      e2e_mismatch);
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_splitk_decoder_e2e_correctness(
-                  padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2}) {
-              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 6) {
-      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
-                   "n_wavefronts_per_block"
-                << std::endl;
-      return 0;
-    }
-    const int32_t padding = std::stoi(args[0]);
-    const int32_t batch_size = std::stoi(args[1]);
-    const int32_t nq_heads = std::stoi(args[2]);
-    const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-    auto [Q, K, V, seq] =
-        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-    auto O = at::empty_like(Q);
-
-    constexpr auto splitk_dim = 0;
-    constexpr auto split_k = 1;
-    auto O_splits = at::stack(O, splitk_dim);
-
-    auto split_max = at::empty(
-        {batch_size, padding, Q.size(2), Q.size(3), split_k},
-        Q.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    const double qk_scale = 1. / sqrt(Q.size(-1));
-    auto call_ptr =
-        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
-                 kThreadsPerWavefront,
-                 kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                      \
-  case (n):                                                             \
-    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
-        kThreadsPerWavefront,                                           \
-        (n)>;                                                           \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(
-          Q,
-          K,
-          V,
-          seq,
-          qk_scale,
-          split_k,
-          split_max,
-          split_sumexp,
-          O_splits,
-          O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp
deleted file mode 100644
index 1b287b4ccd..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cpp
+++ /dev/null
@@ -1,1185 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_splitk_hip.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 4;
-constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
-constexpr int32_t kMaxKVSequenceLength = 4096;
-constexpr int32_t kLoopUnroll = 16;
-constexpr int32_t kLoopUnrollTail = 2;
-using compute_t = float;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-namespace {
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock>
-at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k,
-    at::Tensor& split_max,
-    at::Tensor& split_sumexp,
-    at::Tensor& split_O,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
-  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
-      WavefrontsPerBlock * sizeof(compute_t);
-  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_splitk_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
-                ck_data_t,
-                kMaxKVSequenceLength,
-                kLoopUnroll,
-                kLoopUnrollTail,
-                compute_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc_ptr = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc_ptr,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-
-  TORCH_CHECK(XQ.dim() == rank);
-  TORCH_CHECK(cache_K.dim() == rank);
-  TORCH_CHECK(cache_V.dim() == rank);
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto K = XQ.size(4);
-
-  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-  auto split_sumexp = at::empty_like(split_max);
-
-  efficient_attention_forward_decoder_splitk_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(
-      XQ,
-      cache_K,
-      cache_V,
-      seq_kv_lens,
-      qk_scale,
-      split_k,
-      split_max,
-      split_sumexp,
-      O_splits,
-      O);
-
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  return efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(
-      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME(
-          "xformers::efficient_attention_forward_decoder_splitk_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
-}
-
-#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining the executed build commands, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_splitk_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& k_seqlens,
-    const int32_t split_k,
-    const int32_t block_size) {
-  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-  std::vector<at::Tensor> O_splits;
-  std::vector<at::Tensor> m_splits;
-  std::vector<at::Tensor> l_splits;
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    std::vector<at::Tensor> O_batch;
-    std::vector<at::Tensor> m_batch;
-    std::vector<at::Tensor> l_batch;
-
-    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-      auto seqlen = k_seqlens[b].item<int64_t>();
-      const int64_t t_low =
-          split_idx * (seqlen / split_k / block_size) * block_size;
-      const int64_t t_high = (split_idx + 1 < split_k)
-          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-          : seqlen;
-
-      const bool empty = t_low == t_high;
-
-      auto S = at::einsum(
-          "mghk, nghk -> mghn",
-          {Q_scaled[b],
-           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      auto m = empty
-          ? at::empty_like(S)
-          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-      auto s = at::exp(at::sub(S, m));
-      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-      auto O = at::einsum(
-          "mghn, nghk -> mghk",
-          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      if (empty) {
-        m = at::empty_like(at::slice(O, -1, 0, 1));
-        l = at::zeros_like(m);
-        m.fill_(ck::NumericLimits<float>::Lowest());
-      }
-      O_batch.push_back(O);
-      m_batch.push_back(m);
-      l_batch.push_back(l);
-    }
-
-    auto O_cat = at::stack(O_batch);
-    auto m_cat = at::stack(m_batch);
-    auto l_cat = at::stack(l_batch);
-
-    O_splits.push_back(O_cat);
-    m_splits.push_back(m_cat);
-    l_splits.push_back(l_cat);
-  }
-
-  auto O_cat = at::stack(O_splits);
-  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
-
-  return std::make_tuple(O_cat, m_cat, l_cat);
-}
-
-static at::Tensor split_reduce_torch(
-    const at::Tensor& O_splits,
-    const at::Tensor& m_splits,
-    const at::Tensor& l_splits,
-    int32_t split_k) {
-  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-  auto global_max =
-      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-  auto global_sumexp = at::zeros_like(global_max);
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
-    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
-    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-    auto alpha = at::exp(log_alpha);
-    alpha.nan_to_num_(1.);
-
-    auto pick_new = at::less(local_max, global_max);
-    auto pick_current_coef = at::where(pick_new, 1., alpha);
-    auto pick_new_coef = at::where(pick_new, alpha, 1.);
-
-    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-    global_sumexp = at::add(
-        at::mul(pick_current_coef, global_sumexp),
-        at::mul(pick_new_coef, local_sumexp));
-    global_max = at::max(local_max, global_max);
-  }
-
-  return at::div(O, global_sumexp);
-}
-
-static at::Tensor efficient_attention_forward_decoder_splitk_torch(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int32_t split_k,
-    int32_t block_size) {
-  auto [O_split, m, l] = split_attention_torch(
-      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-  auto O = split_reduce_torch(O_split, m, l, split_k);
-  return O.reshape_as(XQ);
-}
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    4,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-      return split_attention_result;
-    }
-  };
-};
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ split_O;
-    const compute_t* __restrict__ split_max;
-    const compute_t* __restrict__ split_sumexp;
-    scalar_t* __restrict__ O;
-
-    const int32_t O_size_m;
-    const int32_t O_size_g;
-    const int32_t O_size_h;
-    const int32_t O_size_k;
-
-    const ptrdiff_t O_stride_split;
-    const ptrdiff_t O_stride_b;
-    const ptrdiff_t O_stride_m;
-    const ptrdiff_t O_stride_g;
-    const ptrdiff_t O_stride_h;
-
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ split_O,
-        const compute_t* __restrict__ split_max,
-        const compute_t* __restrict__ split_sumexp,
-        scalar_t* __restrict__ O,
-        const int32_t O_size_m,
-        const int32_t O_size_g,
-        const int32_t O_size_h,
-        const int32_t O_size_k,
-        const ptrdiff_t O_stride_split,
-        const ptrdiff_t O_stride_b,
-        const ptrdiff_t O_stride_m,
-        const ptrdiff_t O_stride_g,
-        const ptrdiff_t O_stride_h,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          O(O),
-          O_size_m(O_size_m),
-          O_size_g(O_size_g),
-          O_size_h(O_size_h),
-          O_size_k(O_size_k),
-          O_stride_split(O_stride_split),
-          O_stride_b(O_stride_b),
-          O_stride_m(O_stride_m),
-          O_stride_g(O_stride_g),
-          O_stride_h(O_stride_h),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    O_stride_b: " << O_stride_b << std::endl
-          << "    O_stride_m: " << O_stride_m << std::endl
-          << "    O_stride_g: " << O_stride_g << std::endl
-          << "    O_stride_h: " << O_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    O_size_m: " << O_size_m << std::endl
-          << "    O_size_g: " << O_size_g << std::endl
-          << "    O_size_h: " << O_size_h << std::endl
-          << "    O_size_k: " << O_size_k << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto O_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
-          O_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported O_size_k");
-      }
-
-      if (arg.O_size_k % O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for O_size_k");
-      }
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          O_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : O_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : O_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.O_size_m,
-          arg.O_size_g,
-          arg.O_size_h,
-          arg.O_size_k,
-          arg.O_stride_split,
-          arg.O_stride_b,
-          arg.O_stride_m,
-          arg.O_stride_g,
-          arg.O_stride_h,
-          arg.split_k);
-      return reduce_result;
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
-    const at::Tensor& XQ,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& seqlen,
-    const int32_t split_k,
-    const int32_t wavefronts_per_block) {
-  at::OptionalDeviceGuard guard(XQ.device());
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto D = XQ.size(4);
-
-  double qk_scale = 1. / sqrt(D);
-
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-          .fill_(ck::NumericLimits<float>::Lowest());
-  auto split_sumexp = at::zeros_like(split_max);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
-
-  int32_t smem_softmax =
-      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
-      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
-                            // sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_split_attention_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc =
-            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc.data(),
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return std::make_tuple(split_O, split_max, split_sumexp);
-}
-
-static at::Tensor split_reduce_hip(
-    const at::Tensor& split_O,
-    const at::Tensor& split_max,
-    const at::Tensor& split_sumexp,
-    const int32_t split_k) {
-  at::OptionalDeviceGuard guard(split_O.device());
-
-  auto B = split_O.size(1);
-  auto M = split_O.size(2);
-  auto G = split_O.size(3);
-  auto H = split_O.size(4);
-  auto D = split_O.size(5);
-
-  TORCH_CHECK_EQ(split_k, split_O.size(0));
-  TORCH_CHECK_EQ(split_k, split_max.size(-1));
-  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
-
-  constexpr auto rank = 5;
-
-  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
-  TORCH_CHECK_EQ(split_max.dim(), rank);
-  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
-
-  auto O = at::zeros({B, M, G, H, D}, split_O.options());
-
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-  auto lds_bytes = 0;
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(kThreadsPerWavefront);
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      O.scalar_type(),
-      "efficient_attention_forward_decoder_split_reduce_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            O_acc.size(1),
-            O_acc.size(2),
-            O_acc.size(3),
-            O_acc.size(4),
-            split_O_acc.stride(0),
-            O_acc.stride(0),
-            O_acc.stride(1),
-            O_acc.stride(2),
-            O_acc.stride(3),
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return O;
-}
-
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
-    const int32_t padding,
-    const int32_t B,
-    const int32_t Hq,
-    const int32_t Hkv,
-    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t G = Hq / Hkv;
-  const int32_t num_queries = 1;
-
-  at::manual_seed(1);
-
-  auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
-                    : at::randn({B, padding, G, 1, D}, options)
-                          .expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
-
-  return std::make_tuple(XQ, K, V, seqlen);
-}
-
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
-  auto mask =
-      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  return 1. - percent_match.item<float>();
-}
-
-static void test_split_attention(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] = split_attention_torch(
-      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
-
-  auto [O_hip, m_hip, l_hip] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
-  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
-  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
-
-  printf(
-      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
-      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
-      "split_sumexp elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      O_percent_mismatch,
-      m_percent_mismatch,
-      l_percent_mismatch);
-}
-
-static void test_split_reduce(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_torch = split_reduce_torch(
-      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
-
-  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-  printf(
-      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
-      "percentage: %.2f \n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      hip_torch_mismatch);
-}
-
-static void test_splitk_decoder_e2e_correctness(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  double qk_scale = 1. / sqrt(XQ.size(-1));
-
-  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
-      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
-  auto e2e_mismatch = percent_mismatch(result, gold_result);
-  printf(
-      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
-      "elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      e2e_mismatch);
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_splitk_decoder_e2e_correctness(
-                  padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2}) {
-              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 6) {
-      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
-                   "n_wavefronts_per_block"
-                << std::endl;
-      return 0;
-    }
-    const int32_t padding = std::stoi(args[0]);
-    const int32_t batch_size = std::stoi(args[1]);
-    const int32_t nq_heads = std::stoi(args[2]);
-    const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-    auto [Q, K, V, seq] =
-        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-    auto O = at::empty_like(Q);
-
-    constexpr auto splitk_dim = 0;
-    constexpr auto split_k = 1;
-    auto O_splits = at::stack(O, splitk_dim);
-
-    auto split_max = at::empty(
-        {batch_size, padding, Q.size(2), Q.size(3), split_k},
-        Q.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    const double qk_scale = 1. / sqrt(Q.size(-1));
-    auto call_ptr =
-        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
-                 kThreadsPerWavefront,
-                 kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                      \
-  case (n):                                                             \
-    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
-        kThreadsPerWavefront,                                           \
-        (n)>;                                                           \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(
-          Q,
-          K,
-          V,
-          seq,
-          qk_scale,
-          split_k,
-          split_max,
-          split_sumexp,
-          O_splits,
-          O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu b/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu
deleted file mode 100644
index 1b287b4ccd..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk_hip.cu
+++ /dev/null
@@ -1,1185 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <ATen/hip/impl/HIPStreamMasqueradingAsCUDA.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder_splitk_hip.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 4;
-constexpr int32_t kMaxHeadDimension = 4 * kThreadsPerWavefront;
-constexpr int32_t kMaxKVSequenceLength = 4096;
-constexpr int32_t kLoopUnroll = 16;
-constexpr int32_t kLoopUnrollTail = 2;
-using compute_t = float;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-namespace {
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock>
-at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k,
-    at::Tensor& split_max,
-    at::Tensor& split_sumexp,
-    at::Tensor& split_O,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == kMaxHeadDimension, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) / split_k <= kMaxKVSequenceLength);
-  TORCH_CHECK(cache_K.size(4) <= kMaxHeadDimension);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
-      WavefrontsPerBlock * sizeof(compute_t);
-  int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_splitk_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
-                ck_data_t,
-                kMaxKVSequenceLength,
-                kLoopUnroll,
-                kLoopUnrollTail,
-                compute_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc_ptr = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc_ptr,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-
-  TORCH_CHECK(XQ.dim() == rank);
-  TORCH_CHECK(cache_K.dim() == rank);
-  TORCH_CHECK(cache_V.dim() == rank);
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto K = XQ.size(4);
-
-  auto O_splits = at::empty({split_k, B, M, G, H, K}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat));
-  auto split_sumexp = at::empty_like(split_max);
-
-  efficient_attention_forward_decoder_splitk_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(
-      XQ,
-      cache_K,
-      cache_V,
-      seq_kv_lens,
-      qk_scale,
-      split_k,
-      split_max,
-      split_sumexp,
-      O_splits,
-      O);
-
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_splitk_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
-  return efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(
-      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME(
-          "xformers::efficient_attention_forward_decoder_splitk_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
-}
-
-#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining the executed build commands, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_splitk_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& k_seqlens,
-    const int32_t split_k,
-    const int32_t block_size) {
-  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-  std::vector<at::Tensor> O_splits;
-  std::vector<at::Tensor> m_splits;
-  std::vector<at::Tensor> l_splits;
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    std::vector<at::Tensor> O_batch;
-    std::vector<at::Tensor> m_batch;
-    std::vector<at::Tensor> l_batch;
-
-    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-      auto seqlen = k_seqlens[b].item<int64_t>();
-      const int64_t t_low =
-          split_idx * (seqlen / split_k / block_size) * block_size;
-      const int64_t t_high = (split_idx + 1 < split_k)
-          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-          : seqlen;
-
-      const bool empty = t_low == t_high;
-
-      auto S = at::einsum(
-          "mghk, nghk -> mghn",
-          {Q_scaled[b],
-           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      auto m = empty
-          ? at::empty_like(S)
-          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-      auto s = at::exp(at::sub(S, m));
-      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-      auto O = at::einsum(
-          "mghn, nghk -> mghk",
-          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      if (empty) {
-        m = at::empty_like(at::slice(O, -1, 0, 1));
-        l = at::zeros_like(m);
-        m.fill_(ck::NumericLimits<float>::Lowest());
-      }
-      O_batch.push_back(O);
-      m_batch.push_back(m);
-      l_batch.push_back(l);
-    }
-
-    auto O_cat = at::stack(O_batch);
-    auto m_cat = at::stack(m_batch);
-    auto l_cat = at::stack(l_batch);
-
-    O_splits.push_back(O_cat);
-    m_splits.push_back(m_cat);
-    l_splits.push_back(l_cat);
-  }
-
-  auto O_cat = at::stack(O_splits);
-  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
-
-  return std::make_tuple(O_cat, m_cat, l_cat);
-}
-
-static at::Tensor split_reduce_torch(
-    const at::Tensor& O_splits,
-    const at::Tensor& m_splits,
-    const at::Tensor& l_splits,
-    int32_t split_k) {
-  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-  auto global_max =
-      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-  auto global_sumexp = at::zeros_like(global_max);
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
-    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
-    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-    auto alpha = at::exp(log_alpha);
-    alpha.nan_to_num_(1.);
-
-    auto pick_new = at::less(local_max, global_max);
-    auto pick_current_coef = at::where(pick_new, 1., alpha);
-    auto pick_new_coef = at::where(pick_new, alpha, 1.);
-
-    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-    global_sumexp = at::add(
-        at::mul(pick_current_coef, global_sumexp),
-        at::mul(pick_new_coef, local_sumexp));
-    global_max = at::max(local_max, global_max);
-  }
-
-  return at::div(O, global_sumexp);
-}
-
-static at::Tensor efficient_attention_forward_decoder_splitk_torch(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int32_t split_k,
-    int32_t block_size) {
-  auto [O_split, m, l] = split_attention_torch(
-      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-  auto O = split_reduce_torch(O_split, m, l, split_k);
-  return O.reshape_as(XQ);
-}
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    4,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-      return split_attention_result;
-    }
-  };
-};
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ split_O;
-    const compute_t* __restrict__ split_max;
-    const compute_t* __restrict__ split_sumexp;
-    scalar_t* __restrict__ O;
-
-    const int32_t O_size_m;
-    const int32_t O_size_g;
-    const int32_t O_size_h;
-    const int32_t O_size_k;
-
-    const ptrdiff_t O_stride_split;
-    const ptrdiff_t O_stride_b;
-    const ptrdiff_t O_stride_m;
-    const ptrdiff_t O_stride_g;
-    const ptrdiff_t O_stride_h;
-
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ split_O,
-        const compute_t* __restrict__ split_max,
-        const compute_t* __restrict__ split_sumexp,
-        scalar_t* __restrict__ O,
-        const int32_t O_size_m,
-        const int32_t O_size_g,
-        const int32_t O_size_h,
-        const int32_t O_size_k,
-        const ptrdiff_t O_stride_split,
-        const ptrdiff_t O_stride_b,
-        const ptrdiff_t O_stride_m,
-        const ptrdiff_t O_stride_g,
-        const ptrdiff_t O_stride_h,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          O(O),
-          O_size_m(O_size_m),
-          O_size_g(O_size_g),
-          O_size_h(O_size_h),
-          O_size_k(O_size_k),
-          O_stride_split(O_stride_split),
-          O_stride_b(O_stride_b),
-          O_stride_m(O_stride_m),
-          O_stride_g(O_stride_g),
-          O_stride_h(O_stride_h),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    O_stride_b: " << O_stride_b << std::endl
-          << "    O_stride_m: " << O_stride_m << std::endl
-          << "    O_stride_g: " << O_stride_g << std::endl
-          << "    O_stride_h: " << O_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    O_size_m: " << O_size_m << std::endl
-          << "    O_size_g: " << O_size_g << std::endl
-          << "    O_size_h: " << O_size_h << std::endl
-          << "    O_size_k: " << O_size_k << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto O_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
-          O_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported O_size_k");
-      }
-
-      if (arg.O_size_k % O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for O_size_k");
-      }
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          O_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : O_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : O_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.O_size_m,
-          arg.O_size_g,
-          arg.O_size_h,
-          arg.O_size_k,
-          arg.O_stride_split,
-          arg.O_stride_b,
-          arg.O_stride_m,
-          arg.O_stride_g,
-          arg.O_stride_h,
-          arg.split_k);
-      return reduce_result;
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
-    const at::Tensor& XQ,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& seqlen,
-    const int32_t split_k,
-    const int32_t wavefronts_per_block) {
-  at::OptionalDeviceGuard guard(XQ.device());
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto D = XQ.size(4);
-
-  double qk_scale = 1. / sqrt(D);
-
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-          .fill_(ck::NumericLimits<float>::Lowest());
-  auto split_sumexp = at::zeros_like(split_max);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
-
-  int32_t smem_softmax =
-      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
-      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
-                            // sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_split_attention_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc =
-            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc.data(),
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return std::make_tuple(split_O, split_max, split_sumexp);
-}
-
-static at::Tensor split_reduce_hip(
-    const at::Tensor& split_O,
-    const at::Tensor& split_max,
-    const at::Tensor& split_sumexp,
-    const int32_t split_k) {
-  at::OptionalDeviceGuard guard(split_O.device());
-
-  auto B = split_O.size(1);
-  auto M = split_O.size(2);
-  auto G = split_O.size(3);
-  auto H = split_O.size(4);
-  auto D = split_O.size(5);
-
-  TORCH_CHECK_EQ(split_k, split_O.size(0));
-  TORCH_CHECK_EQ(split_k, split_max.size(-1));
-  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
-
-  constexpr auto rank = 5;
-
-  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
-  TORCH_CHECK_EQ(split_max.dim(), rank);
-  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
-
-  auto O = at::zeros({B, M, G, H, D}, split_O.options());
-
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-  auto lds_bytes = 0;
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(kThreadsPerWavefront);
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      O.scalar_type(),
-      "efficient_attention_forward_decoder_split_reduce_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            O_acc.size(1),
-            O_acc.size(2),
-            O_acc.size(3),
-            O_acc.size(4),
-            split_O_acc.stride(0),
-            O_acc.stride(0),
-            O_acc.stride(1),
-            O_acc.stride(2),
-            O_acc.stride(3),
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return O;
-}
-
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
-    const int32_t padding,
-    const int32_t B,
-    const int32_t Hq,
-    const int32_t Hkv,
-    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t G = Hq / Hkv;
-  const int32_t num_queries = 1;
-
-  at::manual_seed(1);
-
-  auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
-                    : at::randn({B, padding, G, 1, D}, options)
-                          .expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
-
-  return std::make_tuple(XQ, K, V, seqlen);
-}
-
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
-  auto mask =
-      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  return 1. - percent_match.item<float>();
-}
-
-static void test_split_attention(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] = split_attention_torch(
-      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
-
-  auto [O_hip, m_hip, l_hip] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
-  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
-  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
-
-  printf(
-      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
-      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
-      "split_sumexp elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      O_percent_mismatch,
-      m_percent_mismatch,
-      l_percent_mismatch);
-}
-
-static void test_split_reduce(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_torch = split_reduce_torch(
-      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
-
-  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-  printf(
-      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
-      "percentage: %.2f \n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      hip_torch_mismatch);
-}
-
-static void test_splitk_decoder_e2e_correctness(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  double qk_scale = 1. / sqrt(XQ.size(-1));
-
-  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
-      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
-  auto e2e_mismatch = percent_mismatch(result, gold_result);
-  printf(
-      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
-      "elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      e2e_mismatch);
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_splitk_decoder_e2e_correctness(
-                  padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2}) {
-              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 6) {
-      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
-                   "n_wavefronts_per_block"
-                << std::endl;
-      return 0;
-    }
-    const int32_t padding = std::stoi(args[0]);
-    const int32_t batch_size = std::stoi(args[1]);
-    const int32_t nq_heads = std::stoi(args[2]);
-    const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-    auto [Q, K, V, seq] =
-        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-    auto O = at::empty_like(Q);
-
-    constexpr auto splitk_dim = 0;
-    constexpr auto split_k = 1;
-    auto O_splits = at::stack(O, splitk_dim);
-
-    auto split_max = at::empty(
-        {batch_size, padding, Q.size(2), Q.size(3), split_k},
-        Q.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    const double qk_scale = 1. / sqrt(Q.size(-1));
-    auto call_ptr =
-        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
-                 kThreadsPerWavefront,
-                 kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                      \
-  case (n):                                                             \
-    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
-        kThreadsPerWavefront,                                           \
-        (n)>;                                                           \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(
-          Q,
-          K,
-          V,
-          seq,
-          qk_scale,
-          split_k,
-          split_max,
-          split_sumexp,
-          O_splits,
-          O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3

From 74355e99e4a19ca96f8304dad3b868b1392af77c Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 25 Sep 2024 00:18:58 +0000
Subject: [PATCH 647/837] delete autogenerated files (2)

---
 .../ck_attention_forward_decoder_hip.h        | 498 ------------
 .../ck_attention_forward_decoder_splitk_hip.h | 715 ------------------
 2 files changed, 1213 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h
 delete mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h

diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h
deleted file mode 100644
index c98de50f05..0000000000
--- a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_hip.h
+++ /dev/null
@@ -1,498 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include "hip/hip_runtime.h"
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/host_utility/kernel_launch_hip.hpp>
-#include <ck/stream_config.hpp>
-#include <ck/tensor_operation/gpu/device/device_base.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/math.hpp>
-
-#include "ck_attention_inner_product.h"
-#include "ck_attention_math_ext.h"
-
-namespace {
-
-template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
-    typename ck::vector_type<float, vec_size>::type acc,
-    typename ck::vector_type<data_t, vec_size>::type a,
-    float b) {
-  union {
-    decltype(acc) vec;
-    float arr[vec_size];
-  } acc_u{acc};
-  union {
-    decltype(a) vec;
-    data_t arr[vec_size];
-  } a_u{a};
-
-#pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-  }
-
-  return acc_u.vec;
-}
-
-template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f) {
-#pragma unroll
-  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
-    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-  }
-  return val;
-}
-
-template <typename TData, typename TDataVec>
-__forceinline__ __device__ void load_v(
-    const TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec* __restrict__ load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
-}
-
-template <typename TData, typename TDataVec>
-__forceinline__ __device__ void store_v(
-    TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
-}
-
-template <
-    typename scalar_t,
-    int32_t vec_size = 4,
-    int32_t n_loop_unroll = 16,
-    int32_t n_loop_unroll_tail = 2,
-    int32_t KV_M_MAX = 8192,
-    int32_t n_wavefronts_per_block = 16>
-__global__ void efficient_attention_forward_decoder_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O,
-    const int32_t* __restrict__ seq_kv_lens,
-    const ptrdiff_t XQ_stride_b,
-    const ptrdiff_t XQ_stride_m,
-    const ptrdiff_t XQ_stride_g,
-    const ptrdiff_t XQ_stride_h,
-    const ptrdiff_t K_stride_b,
-    const ptrdiff_t K_stride_m,
-    const ptrdiff_t K_stride_g,
-    const ptrdiff_t K_stride_h,
-    const int32_t Q_size_m,
-    const int32_t Q_size_g,
-    const int32_t Q_size_h,
-    const int32_t Q_size_k,
-    const int32_t K_size_m,
-    const bool multiquery,
-    const float qk_scale) {
-  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
-
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-  const auto XQO_base_offset =
-      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-  const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
-      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_t = float;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  extern __shared__ __align__(16) compute_t smem[];
-
-  data_vec_t q_thread = 0;
-  // Load Q into registers in all wavefronts.
-  // Each thread handles `vec_size` D dimensions
-  if (lane_active_for_io) {
-    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  }
-
-  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-  // Compute S[0:t_max] =
-  // ```
-  // for t in range(t_max):
-  //   S[t] = dot(Q, K[t])
-  // ```
-  // Split the 0:t_max range across wavefronts in a block,
-  // unroll loads to expose more parallelism.
-  // Reduce the dot product with cross-lane operation;
-  // Q and K[t] are in the registers of threads in a single wavefront.
-
-  data_vec_t k_loads[n_loop_unroll] = {};
-
-  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
-  const int32_t t_max_unroll = (t_max / dtt) * dtt;
-
-  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the K[b][t][g][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-      }
-    }
-    compute_t qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-          q_thread, k_loads[ttt], qk_accs[ttt]);
-      qk_accs[ttt] *= qk_scale;
-
-      qk_accs[ttt] =
-          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
-    }
-    if (lane_idx == 0) {
-      auto* __restrict__ smem_base = smem + tt;
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        smem_base[ttt] = qk_accs[ttt];
-      }
-    }
-  }
-
-  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-       tt += wavefronts_per_block * n_loop_unroll_tail) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the K[b][t][g][h|0][:] row into registers
-          load_v<data_t, data_vec_t>(
-              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        }
-      }
-    }
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      compute_t qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-            q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
-
-        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
-        if (lane_idx == 0) {
-          smem[t] = qk_acc;
-        }
-      }
-    }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc =
-      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-  // each wavefront computes partial sum of exp.
-  compute_t softmax_denominator = 0.0f;
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-  }
-  __syncthreads();
-
-  // now, compute sum of exp(x - max(x)) over all intermediate results.
-  softmax_denominator = 0.0;
-  if (lane_idx < wavefronts_per_block) {
-    softmax_denominator = smem[KV_M_MAX + lane_idx];
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  const compute_t softmax_scale_factor = 1. / softmax_denominator;
-  // now, compute the normalization across all threads.
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
-  }
-  __syncthreads();
-
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
-
-  compute_t ps[n_loop_unroll] = {};
-  compute_vec_t o_acc = 0;
-  if (lane_active_for_io) {
-    for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll;
-         tt += dtt) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the V[b][t][g][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t];
-      }
-
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        o_acc =
-            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-      }
-    }
-
-    for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
-         tt < t_max;
-         tt += wavefronts_per_block * n_loop_unroll_tail) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the V[b][t][g][h|0][:] row into registers, reusing K register
-          // storage
-          load_v<data_t, data_vec_t>(
-              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-          ps[ttt] = smem[t];
-        }
-      }
-
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          o_acc =
-              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-        }
-      }
-    }
-  }
-  // now, each thread has partial sums. Write to smem and get accumulated
-  // results back.
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-  if (lane_active_for_io) {
-    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-  }
-
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0 && lane_active_for_io) {
-    union {
-      compute_vec_t vec = 0;
-      compute_t arr[vec_size];
-    } r;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r.vec += partial_r;
-    }
-    // elementwise convert from compute_t result to data_t out to be written
-    union {
-      data_vec_t vec;
-      data_t arr[vec_size];
-    } bf_r;
-#pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-    }
-    // write output row O[b][m][g][h][:]
-    data_t* __restrict__ o_ = O + XQO_base_offset;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-  }
-}
-
-} // namespace
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-template <typename scalar_t>
-struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const BaseArgument* argp_,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      const Argument* argp = dynamic_cast<const Argument*>(argp_);
-
-      auto threads_per_wavefront = argp->block_dim.x;
-
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      return launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-              : nullptr,
-          argp->grid_dim,
-          argp->block_dim,
-          argp->lds_bytes,
-          argp->XQ,
-          argp->cache_K,
-          argp->cache_V,
-          argp->O,
-          argp->seq_kv_lens,
-          argp->XQ_stride_b,
-          argp->XQ_stride_m,
-          argp->XQ_stride_g,
-          argp->XQ_stride_h,
-          argp->K_stride_b,
-          argp->K_stride_m,
-          argp->K_stride_g,
-          argp->K_stride_h,
-          argp->Q_size_m,
-          argp->Q_size_g,
-          argp->Q_size_h,
-          argp->Q_size_k,
-          argp->K_size_m,
-          argp->multiquery,
-          argp->qk_scale);
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h
deleted file mode 100644
index b762827f3f..0000000000
--- a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk_hip.h
+++ /dev/null
@@ -1,715 +0,0 @@
-// !!! This is a file automatically generated by hipify!!!
-#include "hip/hip_runtime.h"
-#pragma once
-
-#include <ck/host_utility/kernel_launch_hip.hpp>
-#include <ck/stream_config.hpp>
-#include <ck/tensor_operation/gpu/device/device_base.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/math.hpp>
-
-#include "ck_attention_inner_product.h"
-#include "ck_attention_math_ext.h"
-
-namespace {
-
-template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
-    typename ck::vector_type<float, vec_size>::type acc,
-    typename ck::vector_type<data_t, vec_size>::type a,
-    float b) {
-  union {
-    decltype(acc) vec;
-    float arr[vec_size];
-  } acc_u{acc};
-  union {
-    decltype(a) vec;
-    data_t arr[vec_size];
-  } a_u{a};
-
-#pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-  }
-
-  return acc_u.vec;
-}
-
-template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f) {
-#pragma unroll
-  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
-    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-  }
-  return val;
-}
-
-template <typename TData, typename TDataVec>
-__forceinline__ __device__ void load_v(
-    const TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec* __restrict__ load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
-}
-
-template <typename TData, typename TDataVec>
-__forceinline__ __device__ void store_v(
-    TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
-}
-
-template <typename scalar_t, int32_t vec_size = 4, typename compute_t = float>
-__global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
-    const scalar_t* __restrict__ O_splits,
-    const compute_t* __restrict__ split_max,
-    const compute_t* __restrict__ split_sumexp,
-    scalar_t* __restrict__ O,
-    const int32_t Q_size_m,
-    const int32_t Q_size_g,
-    const int32_t Q_size_h,
-    const int32_t Q_size_k,
-    const ptrdiff_t O_stride_split,
-    const ptrdiff_t O_stride_b,
-    const ptrdiff_t O_stride_m,
-    const ptrdiff_t O_stride_g,
-    const ptrdiff_t O_stride_h,
-    const int32_t split_k) {
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  union {
-    data_vec_t vec;
-    data_t arr[vec_size];
-  } O_split_data;
-  union {
-    compute_vec_t vec;
-    compute_t arr[vec_size];
-  } O_split_compute;
-  union {
-    data_vec_t vec;
-    data_t arr[vec_size];
-  } global_O_data;
-  union {
-    compute_vec_t vec;
-    compute_t arr[vec_size];
-  } global_O_compute;
-
-  global_O_compute.vec = 0;
-
-  const int32_t lane_idx = threadIdx.x;
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  if (!lane_active_for_io) {
-    return;
-  }
-
-  compute_t global_sumexp = 0;
-  compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    load_v<data_t, data_vec_t>(
-        O_splits + b * O_stride_b + m * O_stride_m + g * O_stride_g +
-            h * O_stride_h + split_idx * O_stride_split,
-        lane_idx,
-        &O_split_data.vec);
-#pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
-    }
-    compute_t local_max = *(split_max + blockIdx.x * split_k + split_idx);
-    compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx);
-
-    compute_t log_alpha = -std::abs(local_max - global_max);
-    compute_t alpha =
-        isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
-
-    bool pick_new = local_max < global_max;
-    compute_t pick_current_coef = pick_new ? 1. : alpha;
-    compute_t pick_new_coef = pick_new ? alpha : 1.;
-
-    global_sumexp =
-        pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
-    global_O_compute.vec = pick_current_coef * global_O_compute.vec +
-        pick_new_coef * O_split_compute.vec;
-    global_max = ck::math::max(local_max, global_max);
-  }
-  global_O_compute.vec /= global_sumexp;
-#pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
-  }
-  store_v<data_t, data_vec_t>(
-      O + b * O_stride_b + m * O_stride_m + g * O_stride_g + h * O_stride_h,
-      lane_idx,
-      global_O_data.vec);
-}
-
-template <
-    typename scalar_t,
-    int32_t vec_size,
-    int32_t n_loop_unroll,
-    int32_t n_loop_unroll_tail,
-    int32_t KV_M_MAX,
-    typename compute_t>
-__global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O_splits,
-    compute_t* __restrict__ split_max,
-    compute_t* __restrict__ split_sumexp,
-    const int32_t* __restrict__ seq_kv_lens,
-    const ptrdiff_t XQ_stride_b,
-    const ptrdiff_t XQ_stride_m,
-    const ptrdiff_t XQ_stride_g,
-    const ptrdiff_t XQ_stride_h,
-    const ptrdiff_t K_stride_b,
-    const ptrdiff_t K_stride_m,
-    const ptrdiff_t K_stride_g,
-    const ptrdiff_t K_stride_h,
-    const ptrdiff_t O_stride_split,
-    const int32_t Q_size_m,
-    const int32_t Q_size_g,
-    const int32_t Q_size_h,
-    const int32_t Q_size_k,
-    const int32_t K_size_m,
-    const bool multiquery,
-    const float qk_scale,
-    const int32_t split_k) {
-  static_assert(
-      n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
-      "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
-      "(and tail is no-op)");
-
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-  const int32_t split_idx = blockIdx.y;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile
-  // time constants; investigate when optimizing
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-  const auto XQO_base_offset =
-      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-  const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
-      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  extern __shared__ __align__(16) compute_t smem[];
-
-  data_vec_t q_thread = 0;
-  // Load Q into registers in all wavefronts.
-  // Each thread handles `vec_size` D dimensions
-  if (lane_active_for_io) {
-    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  }
-
-  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-  // Compute S[0:t_max] =
-  // ```
-  // for t in range(t_max):
-  //   S[t] = dot(Q, K[t])
-  // ```
-  // Split the 0:t_max range across wavefronts in a block,
-  // unroll loads to expose more parallelism.
-  // Reduce the dot product with cross-lane operation;
-  // Q and K[t] are in the registers of threads in a single wavefront.
-
-  data_vec_t k_loads[n_loop_unroll] = {};
-
-  const auto dtt = wavefronts_per_block * n_loop_unroll;
-  // only last split gets the tail.
-  // the first (split_k - 1) splits have a number of iterations divisible by
-  // `dtt`
-  const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
-  const int32_t tt_low =
-      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
-  const int32_t tt_high =
-      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
-  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail +
-      n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
-
-  for (auto tt = tt_low; tt < tt_high; tt += dtt) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the K[b][t][g][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-      }
-    }
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      compute_t qk_acc = 0;
-      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-          q_thread, k_loads[ttt], qk_acc);
-      qk_acc *= qk_scale;
-
-      qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-      max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-      if (lane_idx == 0) {
-        smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
-      }
-    }
-  }
-
-  for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the K[b][t][g][h|0][:] row into registers
-          load_v<data_t, data_vec_t>(
-              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        }
-      }
-    }
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      compute_t qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-            q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
-
-        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
-        if (lane_idx == 0) {
-          smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
-        }
-      }
-    }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc =
-      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-  if (wavefront_idx == 0 && lane_idx == 0) {
-    split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
-  }
-
-  // each wavefront computes partial sum of exp.
-  { // softmax reduce begin
-    compute_t softmax_denominator = 0.0f;
-    const int32_t t_low = n_unrolled_loops * dtt * split_idx;
-    const int32_t t_high = (split_idx + 1 < split_k)
-        ? n_unrolled_loops * dtt * (split_idx + 1)
-        : t_max;
-    for (int32_t t = t_low + thread_linear_idx; t < t_high;
-         t += threads_per_block) {
-      const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
-      softmax_denominator += s;
-      smem[t - t_low] = s;
-    }
-    softmax_denominator = wavefrontReduce(
-        softmax_denominator, [](auto a, auto b) { return a + b; });
-
-    if (lane_idx == 0) {
-      smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-    }
-    __syncthreads();
-
-    // now, compute sum of exp(x - max(x)) over all intermediate results.
-    softmax_denominator = 0.0;
-    if (lane_idx < wavefronts_per_block) {
-      softmax_denominator = smem[KV_M_MAX + lane_idx];
-    }
-    softmax_denominator = wavefrontReduce(
-        softmax_denominator, [](auto a, auto b) { return a + b; });
-
-    if (wavefront_idx == 0 && lane_idx == 0) {
-      split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
-    }
-  } // softmax reduce end
-
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
-
-  compute_t ps[n_loop_unroll] = {};
-  compute_vec_t o_acc = 0;
-  if (lane_active_for_io) {
-    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the V[b][t][g][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
-      }
-
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        o_acc =
-            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-      }
-    }
-
-    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the V[b][t][g][h|0][:] row into registers, reusing K register
-          // storage
-          load_v<data_t, data_vec_t>(
-              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-          ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
-          o_acc =
-              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-        }
-      }
-    }
-  }
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-  if (lane_active_for_io) {
-    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-  }
-
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0 && lane_active_for_io) {
-    union {
-      compute_vec_t vec = 0;
-      compute_t arr[vec_size];
-    } r;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r.vec += partial_r;
-    }
-    // elementwise convert from compute_t result to data_t out to be written
-    union {
-      data_vec_t vec;
-      data_t arr[vec_size];
-    } bf_r;
-#pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-    }
-    // write output row O[b][m][g][h][:]
-    data_t* __restrict__ o_ =
-        O_splits + XQO_base_offset + split_idx * O_stride_split;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-  }
-}
-
-} // namespace
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-template <
-    typename scalar_t,
-    int32_t KV_M_MAX,
-    int32_t n_loop_unroll,
-    int32_t n_loop_unroll_tail,
-    typename compute_t>
-struct FMHADecoderSplitKDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitKDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const BaseArgument* argp_,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      const Argument* argp = dynamic_cast<const Argument*>(argp_);
-
-      auto threads_per_wavefront = argp->block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 4,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 2,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 1,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : nullptr,
-          argp->grid_dim,
-          argp->block_dim,
-          argp->lds_bytes,
-          argp->XQ,
-          argp->cache_K,
-          argp->cache_V,
-          argp->split_O,
-          argp->split_max,
-          argp->split_sumexp,
-          argp->seq_kv_lens,
-          argp->XQ_stride_b,
-          argp->XQ_stride_m,
-          argp->XQ_stride_g,
-          argp->XQ_stride_h,
-          argp->K_stride_b,
-          argp->K_stride_m,
-          argp->K_stride_g,
-          argp->K_stride_h,
-          argp->O_stride_split,
-          argp->Q_size_m,
-          argp->Q_size_g,
-          argp->Q_size_h,
-          argp->Q_size_k,
-          argp->K_size_m,
-          argp->multiquery,
-          argp->qk_scale,
-          argp->split_k);
-
-      const dim3 reduce_gridsize = {argp->grid_dim.x};
-      const dim3 reduce_blocksize = {argp->block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          argp->split_O,
-          argp->split_max,
-          argp->split_sumexp,
-          argp->O,
-          argp->Q_size_m,
-          argp->Q_size_g,
-          argp->Q_size_h,
-          argp->Q_size_k,
-          argp->O_stride_split,
-          argp->XQ_stride_b,
-          argp->XQ_stride_m,
-          argp->XQ_stride_g,
-          argp->XQ_stride_h,
-          argp->split_k);
-      return split_attention_result + reduce_result;
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck

From 0dbdc5fe54b5731c41b94e522fc7c8385f86dde7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 23 Sep 2024 00:12:56 +0000
Subject: [PATCH 648/837] Initial add support of fmha-forward splitk (copmiling
 passed)

---
 .../attention_forward_generic_ck_tiled.cpp    |  67 ++++
 .../csrc/attention/hip_fmha/ck_fmha_util.h    |  14 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  20 +-
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 287 ++++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  20 +-
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 287 ++++++++++++++++++
 .../ck_tiled_fmha_fwd_splitkv_selector.h      |  65 ++++
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  20 +-
 ...ed_fmha_grouped_forward_splitkv_dispatch.h | 271 +++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  20 +-
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 269 ++++++++++++++++
 .../ck_tiled_fmha_num_kv_split_switch.h       |  29 ++
 .../attention/hip_fmha/ck_tiled_fmha_params.h |  29 ++
 13 files changed, 1373 insertions(+), 25 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index b17c036aee..4cb39e4872 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -19,6 +19,7 @@
 #include <ATen/cuda/CUDAGraphsUtils.cuh>
 
 #include "ck_fmha_util.h"
+#include "ck_tiled_fmha_fwd_splitkv_selector.h"
 #include "ck_tiled_fmha_params.h"
 
 extern void batched_forward_fp16(
@@ -121,6 +122,9 @@ efficient_attention_forward_ck(
 
   at::Tensor out = at::empty({B, M, Hq, Kv}, opts);
 
+  at::Tensor logsumexp_acc;
+  at::Tensor out_acc;
+
   const bool use_dropout = std::fpclassify(dropout_p) != FP_ZERO;
   int64_t philox_seed;
   int64_t philox_offset;
@@ -225,6 +229,34 @@ efficient_attention_forward_ck(
       p.logsumexp_ptr = nullptr;
       p.lse_strides = {0, 0, 0};
     }
+
+    // added for support split_kv
+    p.num_kv_splits =
+        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 128);
+
+    // fmha fwd split-kv kernel does not support dropout
+    p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
+
+    if (p.use_split_kv) {
+      out_acc =
+          at::empty({p.num_kv_splits, B, M, Hq, Kv}, opts.dtype(at::kFloat));
+      p.out_acc_ptr = out_acc.data_ptr();
+      p.out_acc_strides = {
+          static_cast<int>(out_acc.stride(0)),
+          static_cast<int>(out_acc.stride(1)),
+          static_cast<int>(out_acc.stride(2)),
+          static_cast<int>(out_acc.stride(3)),
+          static_cast<int>(out_acc.stride(4))};
+
+      logsumexp_acc =
+          at::empty({p.num_kv_splits, B, Hq, M}, opts.dtype(at::kFloat));
+      p.logsumexp_acc_ptr = logsumexp_acc.data_ptr();
+      p.lse_acc_strides = {
+          static_cast<int>(logsumexp_acc.stride(0)),
+          static_cast<int>(logsumexp_acc.stride(1)),
+          static_cast<int>(logsumexp_acc.stride(2)),
+          static_cast<int>(logsumexp_acc.stride(3))};
+    }
   };
 
   auto set_grouped_forward_params = [&](GroupedForwardParams& p) {
@@ -325,6 +357,31 @@ efficient_attention_forward_ck(
       p.logsumexp_ptr = nullptr;
       p.lse_strides = {0, 0};
     }
+
+    // added for support split_kv
+    p.num_kv_splits = get_num_kv_splits_heuristic(
+        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 128);
+
+    // fmha fwd split-kv kernel does not support dropout
+    p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
+
+    if (p.use_split_kv) {
+      out_acc = at::empty({p.num_kv_splits, M, Hq, Kv}, opts.dtype(at::kFloat));
+      p.out_acc_ptr = out_acc.data_ptr();
+      p.out_acc_strides = {
+          static_cast<int>(out_acc.stride(0)),
+          static_cast<int>(out_acc.stride(1)),
+          static_cast<int>(out_acc.stride(2)),
+          static_cast<int>(out_acc.stride(3))};
+
+      logsumexp_acc =
+          at::empty({p.num_kv_splits, 1, Hq, M}, opts.dtype(at::kFloat));
+      p.logsumexp_acc_ptr = logsumexp_acc.data_ptr();
+      p.lse_acc_strides = {
+          static_cast<int>(logsumexp_acc.stride(0)),
+          static_cast<int>(logsumexp_acc.stride(2)),
+          static_cast<int>(logsumexp_acc.stride(3))};
+    }
   };
 
   auto inDataType = query.scalar_type();
@@ -334,6 +391,11 @@ efficient_attention_forward_ck(
 
     set_batched_forward_params(batched_forward_params);
 
+    if (batched_forward_params.use_split_kv)
+      std::cout << "Batched mode using split-kv kernel! num_splts = " << batched_forward_params.num_kv_splits << std::endl;
+    else
+      std::cout << "Batched mode using normal kernel! num_splts = " << batched_forward_params.num_kv_splits << std::endl;
+
     if (!batched_forward_params.compute_logsumexp) {
       if (inDataType == at::ScalarType::Half) {
         batched_infer_fp16(batched_forward_params, stream);
@@ -354,6 +416,11 @@ efficient_attention_forward_ck(
 
     set_grouped_forward_params(grouped_forward_params);
 
+    if (grouped_forward_params.use_split_kv)
+      std::cout << "Grouped mode using split-kv kernel! num_splts = " << grouped_forward_params.num_kv_splits << std::endl;
+    else
+      std::cout << "Grouped mode using normal kernel! num_splts = " << grouped_forward_params.num_kv_splits << std::endl;
+
     if (!grouped_forward_params.compute_logsumexp) {
       if (inDataType == at::ScalarType::Half) {
         grouped_infer_fp16(grouped_forward_params, stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index b782f96ee0..7ce9f03c4b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -75,7 +75,7 @@ static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
  * expand the bias as needed - be careful to only create a view with different
  * shape/strides, no copies allowed.
  */
-inline at::Tensor get_bias_4d_view(
+static inline at::Tensor get_bias_4d_view(
     const at::Tensor& bias,
     int batch_sz,
     int n_heads,
@@ -108,3 +108,15 @@ inline at::Tensor get_bias_4d_view(
       TORCH_CHECK(false, "bias can only have ndims in {2, 3, 4}");
   }
 }
+
+static inline int get_number_of_cu() {
+  int device;
+
+  HIP_CALL_CHECK(hipGetDevice(&device));
+
+  hipDeviceProp_t props;
+
+  HIP_CALL_CHECK(hipGetDeviceProperties(&props, device));
+
+  return props.multiProcessorCount;
+}
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index a2f76ccb40..9e84e69711 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
+#include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -17,10 +18,17 @@ template <
 void run_batched_forward_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_forward_causalmask_bias_dropout_dispatch<
-      ScalarType,
-      kHasCausalMask,
-      kHasBias,
-      kHasDropout,
-      MaxK>::Run(param, stream);
+  if (!param.use_split_kv)
+    batched_forward_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        kHasDropout,
+        MaxK>::Run(param, stream);
+  else
+    batched_forward_splitkv_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
new file mode 100644
index 0000000000..97e2fa41bd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -0,0 +1,287 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
+  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          FmhaFwdShape<MaxK>,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          false, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    {
+      const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+        using FmhaShape = FmhaFwdShape<MaxK>;
+        using FmhaTilePartitioner =
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
+        constexpr ck_tile::index_t occupancy = -1;
+
+        constexpr auto kBiasEnum = kHasBias
+            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+        const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+        const bool pad_seqlen_k =
+            (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+        const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+
+        // usually headdim_q and headdim_v are same, consider them together to
+        // determine whether to do padding saving some compiling time
+        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+        BOOL_SWITCH_3(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim,
+            kPadHeadDim,
+            [&] {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      kPadSeqLenQ,
+                      kPadHeadDim>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            });
+      });
+    }
+
+    {
+      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
+                param.num_kv_splits, kLogMaxSplits, [&] {
+                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+                      kPadSeqLenQ,
+                      kPadHeadDimV,
+                      true, // kStoreLSE
+                      false, // kDoFp8StaticQuant place-holder
+                      kLogMaxSplits,
+                      -1>;
+
+                  using FmhaPipelineProblem =
+                      FmhaSplitKVCombinePipelineProblemTemp<
+                          kM0,
+                          kN1,
+                          FmhaTraits>;
+
+                  using FmhaPipeline =
+                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
+                          FmhaPipelineProblem>;
+
+                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                      ck_tile::Default2DEpilogueProblem<
+                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                          kPadSeqLenQ,
+                          kPadHeadDimV>>;
+
+                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+                      FmhaTilePartitioner,
+                      FmhaPipeline,
+                      FmhaEpilogue>;
+
+                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+                });
+          });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaFwdSplitKVKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.B, // batch
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          nullptr, // seqlen_k_ptr, not used
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.num_kv_splits, // num_splits
+          nullptr, // block_table_ptr, not used
+          0, // batch_stride_block_table, not used
+          0, // page_table_size, not used
+          nullptr, // cache_batch_idx, not used
+          param.scale,
+          1.0f, // scale_p
+          param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
+                              // stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          param.out_acc_strides[2],
+          param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
+                              // head-dim stride
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          param.lse_acc_strides[2],
+          param.out_acc_strides[3],
+          param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
+                              // batch-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          param.lse_acc_strides[1],
+          param.out_acc_strides[1],
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0], // split_stride_out_acc
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.B, // batches
+          param.M, // seqlen_q
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[2], // row_stride_o_acc
+          param.out_strides[1], // row_stride_o
+          param.lse_acc_strides[2], // head_stride_lse_acc
+          param.out_acc_strides[3], // head_stride_o_acc
+          param.lse_strides[1], // head_stride_lse
+          param.out_strides[2], // head_stride_o
+          param.lse_acc_strides[1], // batch_stride_lse_acc
+          param.out_acc_strides[1], // batch_stride_o_acc
+          param.lse_strides[0], // batch_stride_lse
+          param.out_strides[0], // batch_stride_o
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0]); // split_stride_out_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 78164eef8b..8117461377 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include "ck_tiled_fmha_batched_infer_dispatch.h"
+#include "ck_tiled_fmha_batched_infer_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -17,10 +18,17 @@ template <
 void run_batched_infer_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_infer_causalmask_bias_dropout_dispatch<
-      ScalarType,
-      kHasCausalMask,
-      kHasBias,
-      kHasDropout,
-      MaxK>::Run(param, stream);
+  if (!param.use_split_kv)
+    batched_infer_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        kHasDropout,
+        MaxK>::Run(param, stream);
+  else
+    batched_infer_splitkv_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
new file mode 100644
index 0000000000..0c09d1d6d2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -0,0 +1,287 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
+  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          FmhaFwdShape<MaxK>,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          false, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    {
+      const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+        using FmhaShape = FmhaFwdShape<MaxK>;
+        using FmhaTilePartitioner =
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
+        constexpr ck_tile::index_t occupancy = -1;
+
+        constexpr auto kBiasEnum = kHasBias
+            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+        const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+        const bool pad_seqlen_k =
+            (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+        const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+
+        // usually headdim_q and headdim_v are same, consider them together to
+        // determine whether to do padding saving some compiling time
+        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+        BOOL_SWITCH_3(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
+            pad_headdim,
+            kPadHeadDim,
+            [&] {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      kPadSeqLenQ,
+                      kPadHeadDim>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            });
+      });
+    };
+
+    {
+      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
+                param.num_kv_splits, kLogMaxSplits, [&] {
+                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+                      kPadSeqLenQ,
+                      kPadHeadDimV,
+                      false, // kStoreLSE
+                      false, // kDoFp8StaticQuant place-holder
+                      kLogMaxSplits,
+                      -1>;
+
+                  using FmhaPipelineProblem =
+                      FmhaSplitKVCombinePipelineProblemTemp<
+                          kM0,
+                          kN1,
+                          FmhaTraits>;
+
+                  using FmhaPipeline =
+                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
+                          FmhaPipelineProblem>;
+
+                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                      ck_tile::Default2DEpilogueProblem<
+                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                          kPadSeqLenQ,
+                          kPadHeadDimV>>;
+
+                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+                      FmhaTilePartitioner,
+                      FmhaPipeline,
+                      FmhaEpilogue>;
+
+                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+                });
+          });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaFwdSplitKVKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.B, // batch
+          param.M, // seqlen_q
+          param.N, // seqlen_k
+          nullptr, // seqlen_k_ptr, not used
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.num_kv_splits, // num_splits
+          nullptr, // block_table_ptr, not used
+          0, // batch_stride_block_table, not used
+          0, // page_table_size, not used
+          nullptr, // cache_batch_idx, not used
+          param.scale,
+          1.0f, // scale_p
+          param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
+                              // stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[2],
+          param.out_acc_strides[2],
+          param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
+                              // head-dim stride
+          param.k_strides[2],
+          param.v_strides[2],
+          param.attn_bias_strides[1],
+          param.lse_acc_strides[2],
+          param.out_acc_strides[3],
+          param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
+                              // batch-dim stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[0],
+          param.lse_acc_strides[1],
+          param.out_acc_strides[1],
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0], // split_stride_out_acc
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          nullptr, // lse_ptr, not used
+          param.out_ptr,
+          param.B, // batches
+          param.M, // seqlen_q
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[2], // row_stride_o_acc
+          param.out_strides[1], // row_stride_o
+          param.lse_acc_strides[2], // head_stride_lse_acc
+          param.out_acc_strides[3], // head_stride_o_acc
+          0, // head_stride_lse, // not used
+          param.out_strides[2], // head_stride_o
+          param.lse_acc_strides[1], // batch_stride_lse_acc
+          param.out_acc_strides[1], // batch_stride_o_acc
+          0, // batch_stride_lse, not used
+          param.out_strides[0], // batch_stride_o
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0]); // split_stride_out_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
new file mode 100644
index 0000000000..7ead061809
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -0,0 +1,65 @@
+/*
+ * Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <cmath>
+#include "ck_fmha_util.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+
+static int get_num_kv_splits_heuristic(
+    int num_batches,
+    int num_heads,
+    int max_seqlen_q,
+    int max_headdim,
+    int max_splits) {
+  // m_tile size is the size for dividing the seqlen_q
+  int mtile_size;
+
+  if (max_headdim <= 32) {
+    mtile_size = FmhaFwdShape<32>::kM0;
+  } else if (max_headdim <= 64) {
+    mtile_size = FmhaFwdShape<64>::kM0;
+  } else if (max_headdim <= 128) {
+    mtile_size = FmhaFwdShape<128>::kM0;
+  } else {
+    mtile_size = FmhaFwdShape<256>::kM0;
+  };
+
+  int num_SMs = get_number_of_cu() * 2;
+
+  auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
+
+  int batch_nhead_mblocks =
+      num_batches * num_heads * ceildiv(max_seqlen_q, mtile_size);
+
+  // If we have enough to almost fill the SMs, then just use 1 split
+  if (batch_nhead_mblocks >= 0.8f * num_SMs) {
+    return 1;
+  }
+
+  max_splits = std::min({max_splits, num_SMs});
+
+  float max_efficiency = 0.f;
+  std::vector<float> efficiency;
+  efficiency.reserve(max_splits);
+
+  for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
+    float n_blocks = float(batch_nhead_mblocks * num_splits) / num_SMs;
+    float eff = n_blocks / std::ceil(n_blocks);
+
+    if (eff > max_efficiency) {
+      max_efficiency = eff;
+    }
+    efficiency.push_back(eff);
+  }
+  for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
+    if (efficiency[num_splits - 1] >= 0.85 * max_efficiency) {
+      return num_splits;
+    }
+  }
+  return 1;
+}
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index af6813be26..ba4cab63b6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
+#include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -17,10 +18,17 @@ template <
 void run_grouped_forward_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_forward_causalmask_bias_dropout_dispatch<
-      ScalarType,
-      kHasCausalMask,
-      kHasBias,
-      kHasDropout,
-      MaxK>::Run(param, stream);
+  if (!param.use_split_kv)
+    grouped_forward_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        kHasDropout,
+        MaxK>::Run(param, stream);
+  else
+    grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
new file mode 100644
index 0000000000..0e5cd9715a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -0,0 +1,271 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
+  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          FmhaFwdShape<MaxK>,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          true, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    {
+      const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+        using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+        using FmhaTilePartitioner =
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaFwdShape_>;
+
+        constexpr ck_tile::index_t occupancy = -1;
+
+        constexpr auto kBiasEnum = kHasBias
+            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+        constexpr bool kPadSeqLenQ = true;
+        constexpr bool kPadSeqLenK = true;
+
+        const bool pad_headdim_q =
+            !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaFwdPipeline_ =
+                  ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaFwdEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      kPadSeqLenQ,
+                      kPadHeadDimV>>;
+
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+            });
+      });
+    };
+
+    {
+      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
+                param.num_kv_splits, kLogMaxSplits, [&] {
+                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+                      kPadSeqLenQ,
+                      kPadHeadDimV,
+                      true, // kStoreLSE
+                      false, // kDoFp8StaticQuant place-holder
+                      kLogMaxSplits,
+                      -1>;
+
+                  using FmhaPipelineProblem =
+                      FmhaSplitKVCombinePipelineProblemTemp<
+                          kM0,
+                          kN1,
+                          FmhaTraits>;
+
+                  using FmhaPipeline =
+                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
+                          FmhaPipelineProblem>;
+
+                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                      ck_tile::Default2DEpilogueProblem<
+                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                          kPadSeqLenQ,
+                          kPadHeadDimV>>;
+
+                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+                      FmhaTilePartitioner,
+                      FmhaPipeline,
+                      FmhaEpilogue>;
+
+                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+                });
+          });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaFwdSplitKVKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.num_batches,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.num_kv_splits, // num_splits
+          param.scale,
+          1.0f, // scale_p
+          param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
+                              // stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          param.out_acc_strides[1],
+          param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
+                              // head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          param.lse_acc_strides[1],
+          param.out_acc_strides[2],
+          0, // batch_stride_k, not used, only used for paged-kvcache
+          0, // batch_stride_v, not used, only used for paged-kvcache
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0], // split_stride_out_acc
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.num_batches,
+          param.seqstart_q_dev_ptr,
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[1], // row_stride_o_acc,
+          param.out_strides[0], // row_stride_o,
+          param.lse_acc_strides[1], // nhead_stride_lse_acc
+          param.out_acc_strides[2], // nhead_stride_o_acc,
+          param.lse_strides[0], // nhead_stride_lse,
+          param.out_strides[1], // nhead_stride_o,
+          param.lse_acc_strides[0], // split_stride_lse_acc,
+          param.out_acc_strides[0]); // split_stride_o_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index f33f4d7315..117fb28d96 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
+#include "ck_tiled_fmha_grouped_infer_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -17,10 +18,17 @@ template <
 void run_grouped_infer_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_infer_causalmask_bias_dropout_dispatch<
-      ScalarType,
-      kHasCausalMask,
-      kHasBias,
-      kHasDropout,
-      MaxK>::Run(param, stream);
+  if (!param.use_split_kv)
+    grouped_infer_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        kHasDropout,
+        MaxK>::Run(param, stream);
+  else
+    grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
new file mode 100644
index 0000000000..ac5ad7261f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -0,0 +1,269 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasCausalMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
+  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          FmhaFwdShape<MaxK>,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          true, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    {
+      const bool has_local_attention = (param.window_size > 0) ? true : false;
+
+      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
+        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
+
+        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
+
+        using FmhaShape = FmhaFwdShape<MaxK>;
+        using FmhaTilePartitioner =
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
+
+        constexpr ck_tile::index_t occupancy = -1;
+
+        constexpr auto kBiasEnum = kHasBias
+            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+        constexpr bool kPadSeqLenQ = true;
+        constexpr bool kPadSeqLenK = true;
+
+        bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+        bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      kPadSeqLenQ,
+                      kPadHeadDimV>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            });
+      });
+    };
+
+    {
+      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
+                param.num_kv_splits, kLogMaxSplits, [&] {
+                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+                      kPadSeqLenQ,
+                      kPadHeadDimV,
+                      false, // kStoreLSE
+                      false, // kDoFp8StaticQuant place-holder
+                      kLogMaxSplits,
+                      -1>;
+
+                  using FmhaPipelineProblem =
+                      FmhaSplitKVCombinePipelineProblemTemp<
+                          kM0,
+                          kN1,
+                          FmhaTraits>;
+
+                  using FmhaPipeline =
+                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
+                          FmhaPipelineProblem>;
+
+                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                      ck_tile::Default2DEpilogueProblem<
+                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                          kPadSeqLenQ,
+                          kPadHeadDimV>>;
+
+                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+                      FmhaTilePartitioner,
+                      FmhaPipeline,
+                      FmhaEpilogue>;
+
+                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+                });
+          });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaFwdSplitKVKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.num_batches,
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.num_kv_splits, // num_splits
+          param.scale,
+          1.0f, // scale_p
+          param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
+                              // stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          param.out_acc_strides[1],
+          param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
+                              // head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          param.lse_acc_strides[1],
+          param.out_acc_strides[2],
+          0, // batch_stride_k, not used, only used for paged-kvcache
+          0, // batch_stride_v, not used, only used for paged-kvcache
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0], // split_stride_out_acc
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          nullptr, // lse_ptr, not used
+          param.out_ptr,
+          param.num_batches,
+          param.seqstart_q_dev_ptr,
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[1], // row_stride_o_acc,
+          param.out_strides[0], // row_stride_o,
+          param.lse_acc_strides[1], // nhead_stride_lse_acc
+          param.out_acc_strides[2], // nhead_stride_o_acc,
+          0, // nhead_stride_lse,
+          param.out_strides[1], // nhead_stride_o,
+          param.lse_acc_strides[0], // split_stride_lse_acc,
+          param.out_acc_strides[0]); // split_stride_o_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
new file mode 100644
index 0000000000..d9408ff1a8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
@@ -0,0 +1,29 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+#include <stdexcept>
+
+#define FMHA_FWD_NUM_KV_SPLITS_SWITCH(NUM_SPLITS, CONST_NAME, ...) \
+  [&] {                                                            \
+    if (NUM_SPLITS <= 16) {                                        \
+      constexpr ck_tile::index_t CONST_NAME = 4;                   \
+      __VA_ARGS__();                                               \
+    } else if (NUM_SPLITS <= 32) {                                 \
+      constexpr ck_tile::index_t CONST_NAME = 5;                   \
+      __VA_ARGS__();                                               \
+    } else if (NUM_SPLITS <= 64) {                                 \
+      constexpr ck_tile::index_t CONST_NAME = 6;                   \
+      __VA_ARGS__();                                               \
+    } else if (NUM_SPLITS <= 128) {                                \
+      constexpr ck_tile::index_t CONST_NAME = 7;                   \
+      __VA_ARGS__();                                               \
+    } else {                                                       \
+      throw std::runtime_error("num-splits not supported!");       \
+    }                                                              \
+  }()
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index b09a79d0d5..d3a5f0039f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -51,6 +51,20 @@ struct BatchedForwardParams : public BatchedInferParams {
 
   // completely contiguous
   void* logsumexp_ptr;
+
+  // used by the splitkv forward kernel
+  int num_kv_splits;
+
+  bool use_split_kv;
+
+  // PBHM mode strides, completely contiguous
+  std::array<int, 4> lse_acc_strides;
+
+  // PBMHK mode strides
+  std::array<int, 5> out_acc_strides;
+
+  void* logsumexp_acc_ptr;
+  void* out_acc_ptr;
 };
 
 struct GroupedInferParams {
@@ -104,6 +118,21 @@ struct GroupedForwardParams : public GroupedInferParams {
 
   // completely contiguous
   void* logsumexp_ptr;
+
+  // used by the splitkv forward kernel
+  int num_kv_splits;
+
+  bool use_split_kv;
+
+  // PHM mode strides, completely contiguous, unpadded layout where M is
+  // concatten total seqlen_q for all batches
+  std::array<int, 3> lse_acc_strides;
+
+  // PMHK mode strides, last-dim contiguous
+  std::array<int, 4> out_acc_strides;
+
+  void* logsumexp_acc_ptr;
+  void* out_acc_ptr;
 };
 
 struct BatchedBackwardParams {

From 6b8ddde69f43827e237f8825937f170075d4f9c9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 26 Sep 2024 15:41:32 +0000
Subject: [PATCH 649/837] Add generated files under hip_decoder into gitignore
 list

---
 .gitignore | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/.gitignore b/.gitignore
index b37d0b1b53..978b6be3e0 100644
--- a/.gitignore
+++ b/.gitignore
@@ -67,7 +67,9 @@ xformers/csrc/attention/hip_fmha/*.hip
 xformers/csrc/attention/hip_fmha/*_hip.h
 xformers/csrc/attention/hip_fmha/instances/*.cu
 xformers/csrc/attention/hip_fmha/instances/*.hip
-xformers/csrc/attention/hip_fmha/instances/*.cu
-xformers/csrc/attention/hip_fmha/instances/*.hip
 xformers/csrc/attention/hip_fmha/instances/*_hip.h
+xformers/csrc/attention/hip_decoder/*.cu
+xformers/csrc/attention/hip_decoder/*.hip
+xformers/csrc/attention/hip_decoder/*_hip.h
+
 

From cf9be1c7287b6ebf45cd44d40524262abe437edf Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 26 Sep 2024 20:41:08 +0000
Subject: [PATCH 650/837] apply black and fix lint

---
 setup.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/setup.py b/setup.py
index c57ca4f75e..d47d1060a4 100644
--- a/setup.py
+++ b/setup.py
@@ -440,8 +440,8 @@ def get_extensions():
         extension = CUDAExtension
         sources += source_hip_cu
         include_dirs += [
-            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha", 
-            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_decoder"
+            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_fmha",
+            Path(this_dir) / "xformers" / "csrc" / "attention" / "hip_decoder",
         ]
 
         include_dirs += [

From 08219dcedb2ffb2cfbd17fbe5acd79743653f866 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 25 Sep 2024 21:37:35 +0000
Subject: [PATCH 651/837] rewrite hipified split-k decoder invocation to
 ck-tile style

---
 .../hip_decoder/attention_forward_splitk.cpp  | 1080 ++---------------
 .../ck_attention_forward_decoder_splitk.h     |  919 +++++---------
 2 files changed, 440 insertions(+), 1559 deletions(-)

diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
index fd70436a36..2452204840 100644
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
@@ -4,6 +4,10 @@
 #include <c10/cuda/CUDAStream.h>
 #include <torch/library.h>
 
+#include <ck_tile/core.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
+
 #include "ck_attention_forward_decoder_splitk.h"
 
 namespace {
@@ -50,6 +54,40 @@ struct c10_to_data_t<c10::BFloat16> {
 
 namespace {
 
+template <typename ck_data_t, typename compute_t, int32_t vec_size>
+void instantiate_and_launch_kernels(
+    typename ck_tile::ForwardDecoderSplitKArgument<ck_data_t, compute_t> arg,
+    dim3 attn_grid_size,
+    dim3 attn_block_size,
+    int32_t lds_bytes,
+    dim3 reduce_grid_size,
+    dim3 reduce_block_size,
+    hipStream_t stream) {
+  auto attn_kernel_impl = ck_tile::ForwardDecoderSplitKAttnKernelImpl<
+      ck_data_t,
+      vec_size,
+      kLoopUnroll,
+      kLoopUnrollTail,
+      kMaxKVSequenceLength,
+      compute_t>{};
+  auto reduce_kernel_impl = ck_tile::
+      ForwardDecoderSplitKReduceKernelImpl<ck_data_t, vec_size, compute_t>{};
+
+  (void)ck_tile::launch_kernel(
+      ck_tile::stream_config{stream, /* benchmark */ false},
+      ck_tile::make_kernel(
+          attn_kernel_impl, attn_grid_size, attn_block_size, lds_bytes, arg));
+
+  (void)ck_tile::launch_kernel(
+      ck_tile::stream_config{stream, /* benchmark */ false},
+      ck_tile::make_kernel(
+          reduce_kernel_impl,
+          reduce_grid_size,
+          reduce_block_size,
+          0 /* lds_bytes */,
+          arg));
+}
+
 template <
     int32_t ThreadsPerWavefront,
     int32_t WavefrontsPerBlock>
@@ -58,8 +96,8 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
     const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
     const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k,
+    float qk_scale,
+    int32_t split_k,
     at::Tensor& split_max,
     at::Tensor& split_sumexp,
     at::Tensor& split_O,
@@ -83,19 +121,24 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
   auto M = XQ.size(1);
   auto G = XQ.size(2);
   auto H = XQ.size(3);
+  auto HDim = XQ.size(4);
 
   TORCH_CHECK(B <= 1024);
   TORCH_CHECK(M <= 1024);
   TORCH_CHECK(H <= 1024);
 
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
+  const dim3 attn_grid_size(B * H * M * G, split_k);
+  const dim3 attn_block_size(ThreadsPerWavefront, WavefrontsPerBlock);
+
+  const dim3 reduce_grid_size = {attn_grid_size.x};
+  const dim3 reduce_block_size = {attn_block_size.x};
 
   int32_t smem_softmax = kMaxKVSequenceLength * sizeof(compute_t) +
       WavefrontsPerBlock * sizeof(compute_t);
   int32_t smem_output = kMaxHeadDimension * sizeof(compute_t) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
+      WavefrontsPerBlock; // 4 * threadsPerBlock * sizeof(float) ==
+                          // sizeof(O[b][0][h][:])
+  const size_t attn_lds_bytes = max(smem_softmax, smem_output);
   auto stream = at::cuda::getCurrentHIPStream().stream();
 
   AT_DISPATCH_SWITCH_3(
@@ -106,14 +149,6 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
       "efficient_attention_forward_decoder_splitk_ck",
       [&] {
         using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitKDeviceOp<
-                ck_data_t,
-                kMaxKVSequenceLength,
-                kLoopUnroll,
-                kLoopUnrollTail,
-                compute_t>;
-        auto op = device_op_t{};
 
         auto XQ_acc =
             XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
@@ -136,7 +171,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
         auto split_sumexp_acc =
             split_sumexp
                 .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
+        auto arg = ck_tile::ForwardDecoderSplitKArgument<ck_data_t, compute_t>{
             reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
             reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
             reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
@@ -154,20 +189,59 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
             K_acc.stride(2),
             K_acc.stride(3),
             split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
+            static_cast<int32_t>(XQ_acc.size(1)),
+            static_cast<int32_t>(XQ_acc.size(2)),
+            static_cast<int32_t>(XQ_acc.size(3)),
+            static_cast<int32_t>(XQ_acc.size(4)),
+            static_cast<int32_t>(K_acc.size(1)),
             K_acc.size(3) == 1,
             qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
+            split_k};
 
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
+        auto required_vec_size = 0;
+
+        for (auto vec_size : {4, 2, 1}) {
+          if (arg.Q_size_k <= vec_size * ThreadsPerWavefront) {
+            required_vec_size = vec_size;
+          }
+        }
+
+        TORCH_CHECK(required_vec_size > 0);
+
+        switch (required_vec_size) {
+          case 4:
+            instantiate_and_launch_kernels<ck_data_t, compute_t, 4>(
+                arg,
+                attn_grid_size,
+                attn_block_size,
+                attn_lds_bytes,
+                reduce_grid_size,
+                reduce_block_size,
+                stream);
+            break;
+          case 2:
+            instantiate_and_launch_kernels<ck_data_t, compute_t, 2>(
+                arg,
+                attn_grid_size,
+                attn_block_size,
+                attn_lds_bytes,
+                reduce_grid_size,
+                reduce_block_size,
+                stream);
+            break;
+          case 1:
+            instantiate_and_launch_kernels<ck_data_t, compute_t, 1>(
+                arg,
+                attn_grid_size,
+                attn_block_size,
+                attn_lds_bytes,
+                reduce_grid_size,
+                reduce_block_size,
+                stream);
+            break;
+          default:
+            break;
+        }
       });
 
   return O;
@@ -179,8 +253,8 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck_impl(
     const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
     const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, H or 1, D]
     at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int64_t split_k) {
+    float qk_scale,
+    int32_t split_k) {
   auto O = at::empty_like(XQ);
   constexpr auto rank = 5;
 
@@ -226,7 +300,12 @@ at::Tensor efficient_attention_forward_decoder_splitk_ck(
   return efficient_attention_forward_decoder_splitk_ck_impl<
       kThreadsPerWavefront,
       kWavefrontsPerBlock>(
-      XQ, cache_K, cache_V, seq_kv_lens, qk_scale, split_k);
+      XQ,
+      cache_K,
+      cache_V,
+      seq_kv_lens,
+      static_cast<float>(qk_scale),
+      static_cast<int32_t>(split_k));
 }
 } // namespace
 
@@ -237,948 +316,5 @@ TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
       TORCH_FN(efficient_attention_forward_decoder_splitk_ck));
 }
 
-#ifdef ATTN_FWD_SPLITK_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining the executed build commands, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_splitk_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_splitk_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_torch(
-    const at::Tensor& Q,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& k_seqlens,
-    const int32_t split_k,
-    const int32_t block_size) {
-  auto Q_scaled = at::div(Q, sqrt(Q.size(-1)));
-
-  std::vector<at::Tensor> O_splits;
-  std::vector<at::Tensor> m_splits;
-  std::vector<at::Tensor> l_splits;
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    std::vector<at::Tensor> O_batch;
-    std::vector<at::Tensor> m_batch;
-    std::vector<at::Tensor> l_batch;
-
-    for (size_t b = 0; b < k_seqlens.numel(); ++b) {
-      auto seqlen = k_seqlens[b].item<int64_t>();
-      const int64_t t_low =
-          split_idx * (seqlen / split_k / block_size) * block_size;
-      const int64_t t_high = (split_idx + 1 < split_k)
-          ? (1 + split_idx) * (seqlen / split_k / block_size) * block_size
-          : seqlen;
-
-      const bool empty = t_low == t_high;
-
-      auto S = at::einsum(
-          "mghk, nghk -> mghn",
-          {Q_scaled[b],
-           at::slice(K[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      auto m = empty
-          ? at::empty_like(S)
-          : std::get<0>(at::max(S, /* dim */ -1, /* keepdim */ true));
-      auto s = at::exp(at::sub(S, m));
-      auto l = at::sum(s, /* dim */ -1, /* keepdim */ true);
-      auto O = at::einsum(
-          "mghn, nghk -> mghk",
-          {s, at::slice(V[b], /*dim*/ 0, /*start*/ t_low, /*end*/ t_high)},
-          /* einsum eval path */ at::nullopt);
-      if (empty) {
-        m = at::empty_like(at::slice(O, -1, 0, 1));
-        l = at::zeros_like(m);
-        m.fill_(ck::NumericLimits<float>::Lowest());
-      }
-      O_batch.push_back(O);
-      m_batch.push_back(m);
-      l_batch.push_back(l);
-    }
-
-    auto O_cat = at::stack(O_batch);
-    auto m_cat = at::stack(m_batch);
-    auto l_cat = at::stack(l_batch);
-
-    O_splits.push_back(O_cat);
-    m_splits.push_back(m_cat);
-    l_splits.push_back(l_cat);
-  }
-
-  auto O_cat = at::stack(O_splits);
-  auto m_cat = at::transpose(at::stack(m_splits), 0, -1);
-  auto l_cat = at::transpose(at::stack(l_splits), 0, -1);
-
-  return std::make_tuple(O_cat, m_cat, l_cat);
-}
-
-static at::Tensor split_reduce_torch(
-    const at::Tensor& O_splits,
-    const at::Tensor& m_splits,
-    const at::Tensor& l_splits,
-    int32_t split_k) {
-  auto O = at::zeros_like(at::slice(O_splits, 0, 0, 1));
-  auto global_max =
-      at::empty_like(at::slice(m_splits, -1, 0, 1)).fill_(-65535.);
-  auto global_sumexp = at::zeros_like(global_max);
-
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    auto local_O = at::slice(O_splits, 0, split_idx, split_idx + 1);
-    auto local_max = at::slice(m_splits, -1, split_idx, split_idx + 1);
-    auto local_sumexp = at::slice(l_splits, -1, split_idx, split_idx + 1);
-
-    auto log_alpha = at::neg(at::abs(at::sub(local_max, global_max)));
-    auto alpha = at::exp(log_alpha);
-    alpha.nan_to_num_(1.);
-
-    auto pick_new = at::less(local_max, global_max);
-    auto pick_current_coef = at::where(pick_new, 1., alpha);
-    auto pick_new_coef = at::where(pick_new, alpha, 1.);
-
-    O = at::add(at::mul(pick_current_coef, O), at::mul(pick_new_coef, local_O));
-    global_sumexp = at::add(
-        at::mul(pick_current_coef, global_sumexp),
-        at::mul(pick_new_coef, local_sumexp));
-    global_max = at::max(local_max, global_max);
-  }
-
-  return at::div(O, global_sumexp);
-}
-
-static at::Tensor efficient_attention_forward_decoder_splitk_torch(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, kMaxKVSequenceLength, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    int32_t split_k,
-    int32_t block_size) {
-  auto [O_split, m, l] = split_attention_torch(
-      XQ, cache_K, cache_V, *seq_kv_lens, split_k, block_size);
-  auto O = split_reduce_torch(O_split, m, l, split_k);
-  return O.reshape_as(XQ);
-}
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitAttentionDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitAttentionDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (arg.Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    4,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    2,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    1,
-                    kLoopUnroll,
-                    kLoopUnrollTail,
-                    kMaxKVSequenceLength,
-                    compute_t>
-              : nullptr,
-          arg.grid_dim,
-          arg.block_dim,
-          arg.lds_bytes,
-          arg.XQ,
-          arg.cache_K,
-          arg.cache_V,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.seq_kv_lens,
-          arg.XQ_stride_b,
-          arg.XQ_stride_m,
-          arg.XQ_stride_g,
-          arg.XQ_stride_h,
-          arg.K_stride_b,
-          arg.K_stride_m,
-          arg.K_stride_g,
-          arg.K_stride_h,
-          arg.O_stride_split,
-          arg.Q_size_m,
-          arg.Q_size_g,
-          arg.Q_size_h,
-          arg.Q_size_k,
-          arg.K_size_m,
-          arg.multiquery,
-          arg.qk_scale,
-          arg.split_k);
-
-      return split_attention_result;
-    }
-  };
-};
-
-template <typename scalar_t, typename compute_t = float>
-struct FMHADecoderSplitReduceDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitReduceDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ split_O;
-    const compute_t* __restrict__ split_max;
-    const compute_t* __restrict__ split_sumexp;
-    scalar_t* __restrict__ O;
-
-    const int32_t O_size_m;
-    const int32_t O_size_g;
-    const int32_t O_size_h;
-    const int32_t O_size_k;
-
-    const ptrdiff_t O_stride_split;
-    const ptrdiff_t O_stride_b;
-    const ptrdiff_t O_stride_m;
-    const ptrdiff_t O_stride_g;
-    const ptrdiff_t O_stride_h;
-
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ split_O,
-        const compute_t* __restrict__ split_max,
-        const compute_t* __restrict__ split_sumexp,
-        scalar_t* __restrict__ O,
-        const int32_t O_size_m,
-        const int32_t O_size_g,
-        const int32_t O_size_h,
-        const int32_t O_size_k,
-        const ptrdiff_t O_stride_split,
-        const ptrdiff_t O_stride_b,
-        const ptrdiff_t O_stride_m,
-        const ptrdiff_t O_stride_g,
-        const ptrdiff_t O_stride_h,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          O(O),
-          O_size_m(O_size_m),
-          O_size_g(O_size_g),
-          O_size_h(O_size_h),
-          O_size_k(O_size_k),
-          O_stride_split(O_stride_split),
-          O_stride_b(O_stride_b),
-          O_stride_m(O_stride_m),
-          O_stride_g(O_stride_g),
-          O_stride_h(O_stride_h),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    O_stride_b: " << O_stride_b << std::endl
-          << "    O_stride_m: " << O_stride_m << std::endl
-          << "    O_stride_g: " << O_stride_g << std::endl
-          << "    O_stride_h: " << O_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    O_size_m: " << O_size_m << std::endl
-          << "    O_size_g: " << O_size_g << std::endl
-          << "    O_size_h: " << O_size_h << std::endl
-          << "    O_size_k: " << O_size_k << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
-    }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const Argument& arg,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      auto threads_per_wavefront = arg.block_dim.x;
-      auto O_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (arg.O_size_k <= vec_size * threads_per_wavefront) {
-          O_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported O_size_k");
-      }
-
-      if (arg.O_size_k % O_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for O_size_k");
-      }
-
-      const dim3 reduce_gridsize = {arg.grid_dim.x};
-      const dim3 reduce_blocksize = {arg.block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          O_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : O_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : O_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          arg.split_O,
-          arg.split_max,
-          arg.split_sumexp,
-          arg.O,
-          arg.O_size_m,
-          arg.O_size_g,
-          arg.O_size_h,
-          arg.O_size_k,
-          arg.O_stride_split,
-          arg.O_stride_b,
-          arg.O_stride_m,
-          arg.O_stride_g,
-          arg.O_stride_h,
-          arg.split_k);
-      return reduce_result;
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
-
-static std::tuple<at::Tensor, at::Tensor, at::Tensor> split_attention_hip(
-    const at::Tensor& XQ,
-    const at::Tensor& K,
-    const at::Tensor& V,
-    const at::Tensor& seqlen,
-    const int32_t split_k,
-    const int32_t wavefronts_per_block) {
-  at::OptionalDeviceGuard guard(XQ.device());
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-  auto D = XQ.size(4);
-
-  double qk_scale = 1. / sqrt(D);
-
-  auto O = at::empty_like(XQ);
-  constexpr auto rank = 5;
-  auto split_O = at::zeros({split_k, B, M, G, H, D}, XQ.options());
-  auto split_max =
-      at::empty({B, M, G, H, split_k}, XQ.options().dtype(at::kFloat))
-          .fill_(ck::NumericLimits<float>::Lowest());
-  auto split_sumexp = at::zeros_like(split_max);
-
-  dim3 blocks(B * H * M * G, split_k);
-  dim3 threads(kThreadsPerWavefront, wavefronts_per_block);
-
-  int32_t smem_softmax =
-      kMaxKVSequenceLength * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = kMaxHeadDimension * sizeof(float) *
-      wavefronts_per_block; // 4 * threadsPerBlock * sizeof(float) ==
-                            // sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_split_attention_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitAttentionDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc =
-            seqlen.packed_accessor32<int32_t, 1, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            seq_acc.data(),
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            split_O_acc.stride(0),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return std::make_tuple(split_O, split_max, split_sumexp);
-}
-
-static at::Tensor split_reduce_hip(
-    const at::Tensor& split_O,
-    const at::Tensor& split_max,
-    const at::Tensor& split_sumexp,
-    const int32_t split_k) {
-  at::OptionalDeviceGuard guard(split_O.device());
-
-  auto B = split_O.size(1);
-  auto M = split_O.size(2);
-  auto G = split_O.size(3);
-  auto H = split_O.size(4);
-  auto D = split_O.size(5);
-
-  TORCH_CHECK_EQ(split_k, split_O.size(0));
-  TORCH_CHECK_EQ(split_k, split_max.size(-1));
-  TORCH_CHECK_EQ(split_k, split_sumexp.size(-1));
-
-  constexpr auto rank = 5;
-
-  TORCH_CHECK_EQ(split_O.dim(), 1 + rank);
-  TORCH_CHECK_EQ(split_max.dim(), rank);
-  TORCH_CHECK_EQ(split_sumexp.dim(), rank);
-
-  auto O = at::zeros({B, M, G, H, D}, split_O.options());
-
-  auto stream = at::cuda::getCurrentHIPStream().stream();
-  auto lds_bytes = 0;
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(kThreadsPerWavefront);
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      O.scalar_type(),
-      "efficient_attention_forward_decoder_split_reduce_ck_test",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSplitReduceDeviceOp<
-                ck_data_t>;
-        auto op = device_op_t{};
-
-        auto split_O_acc =
-            split_O
-                .packed_accessor32<scalar_t, 1 + rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto split_max_acc =
-            split_max.packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto split_sumexp_acc =
-            split_sumexp
-                .packed_accessor32<float, rank, at::RestrictPtrTraits>();
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(split_O_acc.data()),
-            split_max_acc.data(),
-            split_sumexp_acc.data(),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            O_acc.size(1),
-            O_acc.size(2),
-            O_acc.size(3),
-            O_acc.size(4),
-            split_O_acc.stride(0),
-            O_acc.stride(0),
-            O_acc.stride(1),
-            O_acc.stride(2),
-            O_acc.stride(3),
-            split_k,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(arg, {stream});
-      });
-  return O;
-}
-
-std::tuple<at::Tensor, at::Tensor, at::Tensor, at::Tensor> generate_inputs(
-    const int32_t padding,
-    const int32_t B,
-    const int32_t Hq,
-    const int32_t Hkv,
-    const decltype(torch::kFloat32) dtype = torch::kFloat32) {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t G = Hq / Hkv;
-  const int32_t num_queries = 1;
-
-  at::manual_seed(1);
-
-  auto options = torch::TensorOptions()
-                     .dtype(dtype)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, num_queries, G, Hq, D}, options);
-  auto K = (G == 1) ? at::randn({B, padding, G, Hkv, D}, options)
-                    : at::randn({B, padding, G, 1, D}, options)
-                          .expand({B, padding, G, Hq, D});
-  auto V = at::randn_like(K);
-  auto seqlen = at::randint(num_queries, padding + 1, {B}, int_options);
-
-  return std::make_tuple(XQ, K, V, seqlen);
-}
-
-static float percent_mismatch(const at::Tensor& a, const at::Tensor& b) {
-  auto mask =
-      at::isclose(a, b, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  return 1. - percent_match.item<float>();
-}
-
-static void test_split_attention(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] = split_attention_torch(
-      XQ, K, V, seqlen, split_k, /* block_size */ kWavefrontsPerBlock * 16);
-
-  auto [O_hip, m_hip, l_hip] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_percent_mismatch = percent_mismatch(O_ref, O_hip);
-  auto m_percent_mismatch = percent_mismatch(m_ref, m_hip);
-  auto l_percent_mismatch = percent_mismatch(l_ref, l_hip);
-
-  printf(
-      "[Test split attention] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched split_O "
-      "elements percentage: %.2f Mismatched split_max elements percentage: %.2f Mismatched "
-      "split_sumexp elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      O_percent_mismatch,
-      m_percent_mismatch,
-      l_percent_mismatch);
-}
-
-static void test_split_reduce(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  auto [O_ref, m_ref, l_ref] =
-      split_attention_hip(XQ, K, V, seqlen, split_k, kWavefrontsPerBlock);
-
-  auto O_torch = split_reduce_torch(
-      O_ref, m_ref.unsqueeze(0), l_ref.unsqueeze(0), split_k);
-  auto O_hip = split_reduce_hip(O_ref, m_ref, l_ref, split_k);
-
-  auto hip_torch_mismatch = percent_mismatch(O_hip, O_torch);
-  printf(
-      "[Test split reduce] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched elements "
-      "percentage: %.2f \n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      hip_torch_mismatch);
-}
-
-static void test_splitk_decoder_e2e_correctness(
-    int32_t padding,
-    int32_t batch_size,
-    int32_t Hq,
-    int32_t Hkv,
-    int32_t split_k) {
-  auto [XQ, K, V, seqlen] = generate_inputs(padding, batch_size, Hq, Hkv);
-
-  double qk_scale = 1. / sqrt(XQ.size(-1));
-
-  auto result = efficient_attention_forward_decoder_splitk_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, K, V, seqlen, qk_scale, split_k);
-  auto gold_result = efficient_attention_forward_decoder_splitk_torch(
-      XQ, K, V, seqlen, qk_scale, /* split_k */ 1, /* block_size */ 1);
-  auto e2e_mismatch = percent_mismatch(result, gold_result);
-  printf(
-      "[Test e2e split-k decoder] Padding=%d BS=%d Hq=%d Hkv=%d split_k=%d Mismatched "
-      "elements percentage: %.2f\n",
-      padding,
-      batch_size,
-      Hq,
-      Hkv,
-      split_k,
-      e2e_mismatch);
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_splitk_decoder_e2e_correctness(
-                  padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2, 4, 8, 16}) {
-              test_split_attention(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-
-    for (auto padding : {32, 4096}) {
-      for (auto batch_size : {1, 8}) {
-        for (auto Hq : {16}) {
-          for (auto Hkv : {16}) {
-            for (auto split_k : {1, 2}) {
-              test_split_reduce(padding, batch_size, Hq, Hkv, split_k);
-            }
-          }
-        }
-      }
-    }
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 6) {
-      std::cout << "Usage: ./a.out padding batch_size nq_heads nkv_heads dtype "
-                   "n_wavefronts_per_block"
-                << std::endl;
-      return 0;
-    }
-    const int32_t padding = std::stoi(args[0]);
-    const int32_t batch_size = std::stoi(args[1]);
-    const int32_t nq_heads = std::stoi(args[2]);
-    const int32_t nkv_heads = std::stoi(args[3]);
-    const auto dtype = (args[4] == "f32") ? torch::kFloat32
-        : (args[4] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[5]);
-
-    auto [Q, K, V, seq] =
-        generate_inputs(padding, batch_size, nq_heads, nkv_heads, dtype);
-    auto O = at::empty_like(Q);
-
-    constexpr auto splitk_dim = 0;
-    constexpr auto split_k = 1;
-    auto O_splits = at::stack(O, splitk_dim);
-
-    auto split_max = at::empty(
-        {batch_size, padding, Q.size(2), Q.size(3), split_k},
-        Q.options().dtype(at::kFloat));
-    auto split_sumexp = at::empty_like(split_max);
-
-    const double qk_scale = 1. / sqrt(Q.size(-1));
-    auto call_ptr =
-        decltype(&efficient_attention_forward_decoder_splitk_ck_out_impl<
-                 kThreadsPerWavefront,
-                 kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                                      \
-  case (n):                                                             \
-    call_ptr = &efficient_attention_forward_decoder_splitk_ck_out_impl< \
-        kThreadsPerWavefront,                                           \
-        (n)>;                                                           \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(
-          Q,
-          K,
-          V,
-          seq,
-          qk_scale,
-          split_k,
-          split_max,
-          split_sumexp,
-          O_splits,
-          O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
-
 #undef AT_DISPATCH_CASE_3
 #undef AT_DISPATCH_SWITCH_3
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
index e4d575a588..5389affacc 100644
--- a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
@@ -1,8 +1,5 @@
 #pragma once
 
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/stream_config.hpp>
-#include <ck/tensor_operation/gpu/device/device_base.hpp>
 #include <ck/utility/data_type.hpp>
 #include <ck/utility/math.hpp>
 
@@ -58,98 +55,125 @@ __forceinline__ __device__ void store_v(
   *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
 }
 
+} // namespace
+
+namespace ck_tile {
+template <typename scalar_t, typename compute_t>
+struct ForwardDecoderSplitKArgument {
+  const scalar_t* __restrict__ XQ;
+  const scalar_t* __restrict__ cache_K;
+  const scalar_t* __restrict__ cache_V;
+  scalar_t* __restrict__ O;
+  scalar_t* __restrict__ split_O;
+  compute_t* __restrict__ split_max;
+  compute_t* __restrict__ split_sumexp;
+  const int32_t* __restrict__ seq_kv_lens;
+  const ptrdiff_t XQ_stride_b;
+  const ptrdiff_t XQ_stride_m;
+  const ptrdiff_t XQ_stride_g;
+  const ptrdiff_t XQ_stride_h;
+  const ptrdiff_t K_stride_b;
+  const ptrdiff_t K_stride_m;
+  const ptrdiff_t K_stride_g;
+  const ptrdiff_t K_stride_h;
+  const ptrdiff_t O_stride_split;
+  const int32_t Q_size_m;
+  const int32_t Q_size_g;
+  const int32_t Q_size_h;
+  const int32_t Q_size_k;
+  const int32_t K_size_m;
+  const bool multiquery;
+  const float qk_scale;
+  const int32_t split_k;
+};
+
 template <typename scalar_t, int32_t vec_size = 4, typename compute_t = float>
-__global__ void efficient_attention_forward_decoder_splitk_reduce_ck_kernel(
-    const scalar_t* __restrict__ O_splits,
-    const compute_t* __restrict__ split_max,
-    const compute_t* __restrict__ split_sumexp,
-    scalar_t* __restrict__ O,
-    const int32_t Q_size_m,
-    const int32_t Q_size_g,
-    const int32_t Q_size_h,
-    const int32_t Q_size_k,
-    const ptrdiff_t O_stride_split,
-    const ptrdiff_t O_stride_b,
-    const ptrdiff_t O_stride_m,
-    const ptrdiff_t O_stride_g,
-    const ptrdiff_t O_stride_h,
-    const int32_t split_k) {
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+struct ForwardDecoderSplitKReduceKernelImpl {
+  CK_TILE_DEVICE void operator()(
+      ForwardDecoderSplitKArgument<scalar_t, compute_t> arg) {
+    // Each block handles a single batch and head and query and group
+    const int32_t b = blockIdx.x / (arg.Q_size_m * arg.Q_size_g * arg.Q_size_h);
+    const int32_t m =
+        (blockIdx.x / (arg.Q_size_g * arg.Q_size_h)) % arg.Q_size_m;
+    const int32_t g = (blockIdx.x / arg.Q_size_h) % arg.Q_size_g;
+    const int32_t h = blockIdx.x % arg.Q_size_h;
+
+    using data_t = scalar_t;
+    using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
 
-  union {
-    data_vec_t vec;
-    data_t arr[vec_size];
-  } O_split_data;
-  union {
-    compute_vec_t vec;
-    compute_t arr[vec_size];
-  } O_split_compute;
-  union {
-    data_vec_t vec;
-    data_t arr[vec_size];
-  } global_O_data;
-  union {
-    compute_vec_t vec;
-    compute_t arr[vec_size];
-  } global_O_compute;
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } O_split_data;
+    union {
+      compute_vec_t vec;
+      compute_t arr[vec_size];
+    } O_split_compute;
+    union {
+      data_vec_t vec;
+      data_t arr[vec_size];
+    } global_O_data;
+    union {
+      compute_vec_t vec;
+      compute_t arr[vec_size];
+    } global_O_compute;
 
-  global_O_compute.vec = 0;
+    global_O_compute.vec = 0;
 
-  const int32_t lane_idx = threadIdx.x;
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
+    const int32_t lane_idx = threadIdx.x;
+    const bool lane_active_for_io = lane_idx * vec_size < arg.Q_size_k;
 
-  if (!lane_active_for_io) {
-    return;
-  }
+    if (!lane_active_for_io) {
+      return;
+    }
 
-  compute_t global_sumexp = 0;
-  compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
+    compute_t global_sumexp = 0;
+    compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
 
-  for (int32_t split_idx = 0; split_idx < split_k; ++split_idx) {
-    load_v<data_t, data_vec_t>(
-        O_splits + b * O_stride_b + m * O_stride_m + g * O_stride_g +
-            h * O_stride_h + split_idx * O_stride_split,
-        lane_idx,
-        &O_split_data.vec);
+    for (int32_t split_idx = 0; split_idx < arg.split_k; ++split_idx) {
+      load_v<data_t, data_vec_t>(
+          arg.split_O + b * arg.XQ_stride_b + m * arg.XQ_stride_m +
+              g * arg.XQ_stride_g + h * arg.XQ_stride_h +
+              split_idx * arg.O_stride_split,
+          lane_idx,
+          &O_split_data.vec);
 #pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      O_split_compute.arr[i] = ck::type_convert<compute_t>(O_split_data.arr[i]);
+      for (int32_t i = 0; i < vec_size; ++i) {
+        O_split_compute.arr[i] =
+            ck::type_convert<compute_t>(O_split_data.arr[i]);
+      }
+      compute_t local_max =
+          *(arg.split_max + blockIdx.x * arg.split_k + split_idx);
+      compute_t local_sumexp =
+          *(arg.split_sumexp + blockIdx.x * arg.split_k + split_idx);
+
+      compute_t log_alpha = -std::abs(local_max - global_max);
+      compute_t alpha =
+          isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+
+      bool pick_new = local_max < global_max;
+      compute_t pick_current_coef = pick_new ? 1. : alpha;
+      compute_t pick_new_coef = pick_new ? alpha : 1.;
+
+      global_sumexp =
+          pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
+      global_O_compute.vec = pick_current_coef * global_O_compute.vec +
+          pick_new_coef * O_split_compute.vec;
+      global_max = ck::math::max(local_max, global_max);
     }
-    compute_t local_max = *(split_max + blockIdx.x * split_k + split_idx);
-    compute_t local_sumexp = *(split_sumexp + blockIdx.x * split_k + split_idx);
-
-    compute_t log_alpha = -std::abs(local_max - global_max);
-    compute_t alpha =
-        isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
-
-    bool pick_new = local_max < global_max;
-    compute_t pick_current_coef = pick_new ? 1. : alpha;
-    compute_t pick_new_coef = pick_new ? alpha : 1.;
-
-    global_sumexp =
-        pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
-    global_O_compute.vec = pick_current_coef * global_O_compute.vec +
-        pick_new_coef * O_split_compute.vec;
-    global_max = ck::math::max(local_max, global_max);
-  }
-  global_O_compute.vec /= global_sumexp;
+    global_O_compute.vec /= global_sumexp;
 #pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+    for (int32_t i = 0; i < vec_size; ++i) {
+      global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+    }
+    store_v<data_t, data_vec_t>(
+        arg.O + b * arg.XQ_stride_b + m * arg.XQ_stride_m +
+            g * arg.XQ_stride_g + h * arg.XQ_stride_h,
+        lane_idx,
+        global_O_data.vec);
   }
-  store_v<data_t, data_vec_t>(
-      O + b * O_stride_b + m * O_stride_m + g * O_stride_g + h * O_stride_h,
-      lane_idx,
-      global_O_data.vec);
-}
+};
 
 template <
     typename scalar_t,
@@ -158,556 +182,277 @@ template <
     int32_t n_loop_unroll_tail,
     int32_t KV_M_MAX,
     typename compute_t>
-__global__ void efficient_attention_forward_decoder_splitk_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O_splits,
-    compute_t* __restrict__ split_max,
-    compute_t* __restrict__ split_sumexp,
-    const int32_t* __restrict__ seq_kv_lens,
-    const ptrdiff_t XQ_stride_b,
-    const ptrdiff_t XQ_stride_m,
-    const ptrdiff_t XQ_stride_g,
-    const ptrdiff_t XQ_stride_h,
-    const ptrdiff_t K_stride_b,
-    const ptrdiff_t K_stride_m,
-    const ptrdiff_t K_stride_g,
-    const ptrdiff_t K_stride_h,
-    const ptrdiff_t O_stride_split,
-    const int32_t Q_size_m,
-    const int32_t Q_size_g,
-    const int32_t Q_size_h,
-    const int32_t Q_size_k,
-    const int32_t K_size_m,
-    const bool multiquery,
-    const float qk_scale,
-    const int32_t split_k) {
-  static_assert(
-      n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
-      "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
-      "(and tail is no-op)");
-
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-  const int32_t split_idx = blockIdx.y;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile
-  // time constants; investigate when optimizing
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-  const auto XQO_base_offset =
-      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-  const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
-      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  extern __shared__ __align__(16) compute_t smem[];
-
-  data_vec_t q_thread = 0;
-  // Load Q into registers in all wavefronts.
-  // Each thread handles `vec_size` D dimensions
-  if (lane_active_for_io) {
-    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  }
-
-  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-  // Compute S[0:t_max] =
-  // ```
-  // for t in range(t_max):
-  //   S[t] = dot(Q, K[t])
-  // ```
-  // Split the 0:t_max range across wavefronts in a block,
-  // unroll loads to expose more parallelism.
-  // Reduce the dot product with cross-lane operation;
-  // Q and K[t] are in the registers of threads in a single wavefront.
-
-  data_vec_t k_loads[n_loop_unroll] = {};
-
-  const auto dtt = wavefronts_per_block * n_loop_unroll;
-  // only last split gets the tail.
-  // the first (split_k - 1) splits have a number of iterations divisible by
-  // `dtt`
-  const auto n_unrolled_loops = t_max / dtt / split_k; // +1?
-  const int32_t tt_low =
-      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
-  const int32_t tt_high =
-      wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
-  const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail +
-      n_unrolled_loops * dtt * (split_idx + 1);
-  const int32_t tt_tail_high = (split_idx == split_k - 1) ? t_max : tt_tail_low;
-
-  for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+struct ForwardDecoderSplitKAttnKernelImpl {
+  CK_TILE_DEVICE void operator()(
+      ForwardDecoderSplitKArgument<scalar_t, compute_t> arg) {
+    static_assert(
+        n_loop_unroll_tail < n_loop_unroll || n_loop_unroll_tail == 1,
+        "tail unroll must be smaller than main loop untoll; pragma unroll 0 is illegal "
+        "(and tail is no-op)");
+
+    // Each block handles a single batch and head and query and group
+    const int32_t b = blockIdx.x / (arg.Q_size_m * arg.Q_size_g * arg.Q_size_h);
+    const int32_t m =
+        (blockIdx.x / (arg.Q_size_g * arg.Q_size_h)) % arg.Q_size_m;
+    const int32_t g = (blockIdx.x / arg.Q_size_h) % arg.Q_size_g;
+    const int32_t h = blockIdx.x % arg.Q_size_h;
+    const int32_t split_idx = blockIdx.y;
+
+    // Note: this is decoding case where we attend to current and all previous
+    // tokens.
+    const int32_t t_max = arg.seq_kv_lens ? arg.seq_kv_lens[b] : arg.K_size_m;
+
+    const int32_t lane_idx = threadIdx.x;
+    const int32_t wavefront_idx = threadIdx.y;
+    // TODO: `threads_per_wavefront` and `wavefronts_per_block` may be compile
+    // time constants; investigate when optimizing
+    const int32_t threads_per_wavefront = blockDim.x;
+    const int32_t wavefronts_per_block = blockDim.y;
+    const int32_t threads_per_block =
+        threads_per_wavefront * wavefronts_per_block;
+    const int32_t thread_linear_idx =
+        lane_idx + wavefront_idx * threads_per_wavefront;
+    // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
+    const auto XQO_base_offset = b * arg.XQ_stride_b + m * arg.XQ_stride_m +
+        g * arg.XQ_stride_g + h * arg.XQ_stride_h;
+    const auto* __restrict__ q_ = arg.XQ + XQO_base_offset;
+
+    const auto cache_KV_base_offset = b * arg.K_stride_b + 0 * arg.K_stride_m +
+        g * arg.K_stride_g + (arg.multiquery ? 0 : h * arg.K_stride_h);
+    const auto* __restrict__ cache_K_base = arg.cache_K + cache_KV_base_offset;
+    const auto* __restrict__ cache_V_base = arg.cache_V + cache_KV_base_offset;
+
+    using data_t = scalar_t;
+    using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
+    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+
+    const bool lane_active_for_io = lane_idx * vec_size < arg.Q_size_k;
+
+    extern __shared__ __align__(16) compute_t smem[];
+
+    data_vec_t q_thread = 0;
+    // Load Q into registers in all wavefronts.
+    // Each thread handles `vec_size` D dimensions
     if (lane_active_for_io) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the K[b][t][g][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-      }
+      load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
     }
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      compute_t qk_acc = 0;
-      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-          q_thread, k_loads[ttt], qk_acc);
-      qk_acc *= qk_scale;
-
-      qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-      max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-      if (lane_idx == 0) {
-        smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
-      }
-    }
-  }
 
-  for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
+    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+
+    // Compute S[0:t_max] =
+    // ```
+    // for t in range(t_max):
+    //   S[t] = dot(Q, K[t])
+    // ```
+    // Split the 0:t_max range across wavefronts in a block,
+    // unroll loads to expose more parallelism.
+    // Reduce the dot product with cross-lane operation;
+    // Q and K[t] are in the registers of threads in a single wavefront.
+
+    data_vec_t k_loads[n_loop_unroll] = {};
+
+    const auto dtt = wavefronts_per_block * n_loop_unroll;
+    // only last split gets the tail.
+    // the first (split_k - 1) splits have a number of iterations divisible by
+    // `dtt`
+    const auto n_unrolled_loops = t_max / dtt / arg.split_k; // +1?
+    const int32_t tt_low =
+        wavefront_idx * n_loop_unroll + n_unrolled_loops * dtt * split_idx;
+    const int32_t tt_high = wavefront_idx * n_loop_unroll +
+        n_unrolled_loops * dtt * (split_idx + 1);
+    const int32_t dtt_tail = wavefronts_per_block * n_loop_unroll_tail;
+    const int32_t tt_tail_low = wavefront_idx * n_loop_unroll_tail +
+        n_unrolled_loops * dtt * (split_idx + 1);
+    const int32_t tt_tail_high =
+        (split_idx == arg.split_k - 1) ? t_max : tt_tail_low;
+
+    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+      if (lane_active_for_io) {
+#pragma unroll n_loop_unroll
+        for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+          const int32_t t = tt + ttt;
           // load the K[b][t][g][h|0][:] row into registers
           load_v<data_t, data_vec_t>(
-              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+              cache_K_base + t * arg.K_stride_m, lane_idx, &k_loads[ttt]);
         }
       }
-    }
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      compute_t qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
+#pragma unroll n_loop_unroll
+      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+        compute_t qk_acc = 0;
         ck::inner_product<data_vec_t, data_vec_t, compute_t>(
             q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
+        qk_acc *= arg.qk_scale;
 
         qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
         max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
         if (lane_idx == 0) {
-          smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
+          smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
         }
       }
     }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc =
-      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-  if (wavefront_idx == 0 && lane_idx == 0) {
-    split_max[blockIdx.x * split_k + split_idx] = max_qk_acc;
-  }
 
-  // each wavefront computes partial sum of exp.
-  { // softmax reduce begin
-    compute_t softmax_denominator = 0.0f;
-    const int32_t t_low = n_unrolled_loops * dtt * split_idx;
-    const int32_t t_high = (split_idx + 1 < split_k)
-        ? n_unrolled_loops * dtt * (split_idx + 1)
-        : t_max;
-    for (int32_t t = t_low + thread_linear_idx; t < t_high;
-         t += threads_per_block) {
-      const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
-      softmax_denominator += s;
-      smem[t - t_low] = s;
+    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+      if (lane_active_for_io) {
+#pragma unroll n_loop_unroll_tail
+        for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+          const int32_t t = tt + ttt;
+          if (t < t_max) {
+            // load the K[b][t][g][h|0][:] row into registers
+            load_v<data_t, data_vec_t>(
+                cache_K_base + t * arg.K_stride_m, lane_idx, &k_loads[ttt]);
+          }
+        }
+      }
+#pragma unroll n_loop_unroll_tail
+      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+        compute_t qk_acc = 0;
+        const int32_t t = tt + ttt;
+        if (t < t_max) {
+          ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+              q_thread, k_loads[ttt], qk_acc);
+          qk_acc *= arg.qk_scale;
+
+          qk_acc =
+              wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
+          max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+
+          // write accumulated sums to smem.
+          if (lane_idx == 0) {
+            smem[t - n_unrolled_loops * dtt * split_idx] = qk_acc;
+          }
+        }
+      }
     }
-    softmax_denominator = wavefrontReduce(
-        softmax_denominator, [](auto a, auto b) { return a + b; });
 
+    // Use shared reduction to compute max and compute softmax on shared memory.
+    // write max acc
     if (lane_idx == 0) {
-      smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
+      smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
     }
     __syncthreads();
-
-    // now, compute sum of exp(x - max(x)) over all intermediate results.
-    softmax_denominator = 0.0;
     if (lane_idx < wavefronts_per_block) {
-      softmax_denominator = smem[KV_M_MAX + lane_idx];
+      max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
     }
-    softmax_denominator = wavefrontReduce(
-        softmax_denominator, [](auto a, auto b) { return a + b; });
+    // shared across all threads in block
+    max_qk_acc = wavefrontReduce(
+        max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
 
     if (wavefront_idx == 0 && lane_idx == 0) {
-      split_sumexp[blockIdx.x * split_k + split_idx] = softmax_denominator;
+      arg.split_max[blockIdx.x * arg.split_k + split_idx] = max_qk_acc;
     }
-  } // softmax reduce end
 
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
+    // each wavefront computes partial sum of exp.
+    { // softmax reduce begin
+      compute_t softmax_denominator = 0.0f;
+      const int32_t t_low = n_unrolled_loops * dtt * split_idx;
+      const int32_t t_high = (split_idx + 1 < arg.split_k)
+          ? n_unrolled_loops * dtt * (split_idx + 1)
+          : t_max;
+      for (int32_t t = t_low + thread_linear_idx; t < t_high;
+           t += threads_per_block) {
+        const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
+        softmax_denominator += s;
+        smem[t - t_low] = s;
+      }
+      softmax_denominator = wavefrontReduce(
+          softmax_denominator, [](auto a, auto b) { return a + b; });
 
-  compute_t ps[n_loop_unroll] = {};
-  compute_vec_t o_acc = 0;
-  if (lane_active_for_io) {
-    for (auto tt = tt_low; tt < tt_high; tt += dtt) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the V[b][t][g][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+      if (lane_idx == 0) {
+        smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
       }
+      __syncthreads();
 
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        o_acc =
-            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
+      // now, compute sum of exp(x - max(x)) over all intermediate results.
+      softmax_denominator = 0.0;
+      if (lane_idx < wavefronts_per_block) {
+        softmax_denominator = smem[KV_M_MAX + lane_idx];
       }
-    }
+      softmax_denominator = wavefrontReduce(
+          softmax_denominator, [](auto a, auto b) { return a + b; });
 
-    for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
+      if (wavefront_idx == 0 && lane_idx == 0) {
+        arg.split_sumexp[blockIdx.x * arg.split_k + split_idx] =
+            softmax_denominator;
+      }
+    } // softmax reduce end
+
+    // Split T across wavefronts in a block
+    // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
+    // outputs are of size float[D]
+
+    compute_t ps[n_loop_unroll] = {};
+    compute_vec_t o_acc = 0;
+    if (lane_active_for_io) {
+      for (auto tt = tt_low; tt < tt_high; tt += dtt) {
+#pragma unroll n_loop_unroll
+        for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
+          const int32_t t = tt + ttt;
           // load the V[b][t][g][h|0][:] row into registers, reusing K register
           // storage
           load_v<data_t, data_vec_t>(
-              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
+              cache_V_base + t * arg.K_stride_m, lane_idx, &k_loads[ttt]);
           ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+        }
+
+#pragma unroll n_loop_unroll
+        for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
           o_acc =
               scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
         }
       }
-    }
-  }
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-  if (lane_active_for_io) {
-    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-  }
 
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0 && lane_active_for_io) {
-    union {
-      compute_vec_t vec = 0;
-      compute_t arr[vec_size];
-    } r;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r.vec += partial_r;
-    }
-    // elementwise convert from compute_t result to data_t out to be written
-    union {
-      data_vec_t vec;
-      data_t arr[vec_size];
-    } bf_r;
-#pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+      for (auto tt = tt_tail_low; tt < tt_tail_high; tt += dtt_tail) {
+#pragma unroll n_loop_unroll_tail
+        for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
+          const int32_t t = tt + ttt;
+          if (t < t_max) {
+            // load the V[b][t][g][h|0][:] row into registers, reusing K
+            // register storage
+            load_v<data_t, data_vec_t>(
+                cache_V_base + t * arg.K_stride_m, lane_idx, &k_loads[ttt]);
+            ps[ttt] = smem[t - n_unrolled_loops * dtt * split_idx];
+            o_acc = scalar_scale_acc<data_t, vec_size>(
+                o_acc, k_loads[ttt], ps[ttt]);
+          }
+        }
+      }
     }
-    // write output row O[b][m][g][h][:]
-    data_t* __restrict__ o_ =
-        O_splits + XQO_base_offset + split_idx * O_stride_split;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-  }
-}
-
-} // namespace
+    __syncthreads();
 
-namespace ck {
-namespace tensor_operation {
-namespace device {
-template <
-    typename scalar_t,
-    int32_t KV_M_MAX,
-    int32_t n_loop_unroll,
-    int32_t n_loop_unroll_tail,
-    typename compute_t>
-struct FMHADecoderSplitKDeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSplitKDeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    scalar_t* __restrict__ split_O;
-    compute_t* __restrict__ split_max;
-    compute_t* __restrict__ split_sumexp;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const ptrdiff_t O_stride_split;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-    const int32_t split_k;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        scalar_t* __restrict__ split_O,
-        compute_t* __restrict__ split_max,
-        compute_t* __restrict__ split_sumexp,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const ptrdiff_t O_stride_split,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const int32_t split_k,
-        // launch params
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          split_O(split_O),
-          split_max(split_max),
-          split_sumexp(split_sumexp),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          O_stride_split(O_stride_split),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          split_k(split_k),
-          // launch params
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-
-    std::string str() const {
-      std::ostringstream oss;
-      oss << "Argument { " << std::endl
-          << "    XQ: " << XQ << std::endl
-          << "    cache_K: " << cache_K << std::endl
-          << "    cache_V: " << cache_V << std::endl
-          << "    O: " << O << std::endl
-          << "    split_O: " << split_O << std::endl
-          << "    split_max: " << split_max << std::endl
-          << "    split_sumexp: " << split_sumexp << std::endl
-          << "    seq_kv_lens: " << seq_kv_lens << std::endl
-          << "    XQ_stride_b: " << XQ_stride_b << std::endl
-          << "    XQ_stride_m: " << XQ_stride_m << std::endl
-          << "    XQ_stride_g: " << XQ_stride_g << std::endl
-          << "    XQ_stride_h: " << XQ_stride_h << std::endl
-          << "    K_stride_b: " << K_stride_b << std::endl
-          << "    K_stride_m: " << K_stride_m << std::endl
-          << "    K_stride_g: " << K_stride_g << std::endl
-          << "    K_stride_h: " << K_stride_h << std::endl
-          << "    O_stride_split: " << O_stride_split << std::endl
-          << "    Q_size_m: " << Q_size_m << std::endl
-          << "    Q_size_g: " << Q_size_g << std::endl
-          << "    Q_size_h: " << Q_size_h << std::endl
-          << "    Q_size_k: " << Q_size_k << std::endl
-          << "    K_size_m: " << K_size_m << std::endl
-          << "    multiquery: " << multiquery << std::endl
-          << "    qk_scale: " << qk_scale << std::endl
-          << "    split_k: " << split_k << std::endl
-          << std::endl
-          << "    grid_dim: " << grid_dim.x << "." << grid_dim.y << "."
-          << grid_dim.z << std::endl
-          << "    block_dim: " << block_dim.x << "." << block_dim.y << "."
-          << block_dim.z << std::endl
-          << "    lds_bytes: " << lds_bytes << std::endl
-          << "}";
-      return oss.str();
+    // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) *
+    // threadsPerBlock
+    if (lane_active_for_io) {
+      store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
     }
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const BaseArgument* argp_,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      const Argument* argp = dynamic_cast<const Argument*>(argp_);
-
-      auto threads_per_wavefront = argp->block_dim.x;
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
 
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
+    __syncthreads();
+    // sum up partial D rows from other wavefronts
+    if (wavefront_idx == 0 && lane_active_for_io) {
+      union {
+        compute_vec_t vec = 0;
+        compute_t arr[vec_size];
+      } r;
+      for (int32_t w = 0; w < wavefronts_per_block; ++w) {
+        compute_vec_t partial_r;
+        load_v<compute_t, compute_vec_t>(
+            smem, w * threads_per_wavefront + lane_idx, &partial_r);
+        r.vec += partial_r;
       }
-
-      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
+      // elementwise convert from compute_t result to data_t out to be written
+      union {
+        data_vec_t vec;
+        data_t arr[vec_size];
+      } bf_r;
+#pragma unroll
+      for (int32_t i = 0; i < vec_size; ++i) {
+        bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
       }
-
-      float split_attention_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 4,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 2,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_ck_kernel<
-                    scalar_t,
-                    /* vec_size */ 1,
-                    n_loop_unroll,
-                    n_loop_unroll_tail,
-                    KV_M_MAX,
-                    compute_t>
-              : nullptr,
-          argp->grid_dim,
-          argp->block_dim,
-          argp->lds_bytes,
-          argp->XQ,
-          argp->cache_K,
-          argp->cache_V,
-          argp->split_O,
-          argp->split_max,
-          argp->split_sumexp,
-          argp->seq_kv_lens,
-          argp->XQ_stride_b,
-          argp->XQ_stride_m,
-          argp->XQ_stride_g,
-          argp->XQ_stride_h,
-          argp->K_stride_b,
-          argp->K_stride_m,
-          argp->K_stride_g,
-          argp->K_stride_h,
-          argp->O_stride_split,
-          argp->Q_size_m,
-          argp->Q_size_g,
-          argp->Q_size_h,
-          argp->Q_size_k,
-          argp->K_size_m,
-          argp->multiquery,
-          argp->qk_scale,
-          argp->split_k);
-
-      const dim3 reduce_gridsize = {argp->grid_dim.x};
-      const dim3 reduce_blocksize = {argp->block_dim.x};
-      constexpr int32_t reduce_lds_bytes = 0;
-      float reduce_result = launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_splitk_reduce_ck_kernel<
-                    scalar_t,
-                    1>
-              : nullptr,
-          reduce_gridsize,
-          reduce_blocksize,
-          reduce_lds_bytes,
-          argp->split_O,
-          argp->split_max,
-          argp->split_sumexp,
-          argp->O,
-          argp->Q_size_m,
-          argp->Q_size_g,
-          argp->Q_size_h,
-          argp->Q_size_k,
-          argp->O_stride_split,
-          argp->XQ_stride_b,
-          argp->XQ_stride_m,
-          argp->XQ_stride_g,
-          argp->XQ_stride_h,
-          argp->split_k);
-      return split_attention_result + reduce_result;
+      // write output row O[b][m][g][h][:]
+      data_t* __restrict__ o_ =
+          arg.split_O + XQO_base_offset + split_idx * arg.O_stride_split;
+      store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
     }
-  };
+  }
 };
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
+
+} // namespace ck_tile

From 9c8d2f1f302ede800997fe2640ef244e56586fc7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 28 Sep 2024 12:30:05 +0000
Subject: [PATCH 652/837] Force kPadSeqLenQ == true for grouped mode
 splitkv-combine kernel traits

---
 ...ed_fmha_grouped_forward_splitkv_dispatch.h | 71 +++++++++----------
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 71 +++++++++----------
 2 files changed, 66 insertions(+), 76 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 0e5cd9715a..bf8fada6fa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -128,46 +128,41 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
-      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      constexpr bool kPadSeqLenQ = true;
+
       const bool pad_headdim_v = !(param.Kv % kN1 == 0);
 
-      BOOL_SWITCH_2(
-          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
-            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
-                param.num_kv_splits, kLogMaxSplits, [&] {
-                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
-                      kPadSeqLenQ,
-                      kPadHeadDimV,
-                      true, // kStoreLSE
-                      false, // kDoFp8StaticQuant place-holder
-                      kLogMaxSplits,
-                      -1>;
-
-                  using FmhaPipelineProblem =
-                      FmhaSplitKVCombinePipelineProblemTemp<
-                          kM0,
-                          kN1,
-                          FmhaTraits>;
-
-                  using FmhaPipeline =
-                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
-                          FmhaPipelineProblem>;
-
-                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                      ck_tile::Default2DEpilogueProblem<
-                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                          kPadSeqLenQ,
-                          kPadHeadDimV>>;
-
-                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-                      FmhaTilePartitioner,
-                      FmhaPipeline,
-                      FmhaEpilogue>;
-
-                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
-                });
-          });
+      BOOL_SWITCH(pad_headdim_v, kPadHeadDimV, [&] {
+        FMHA_FWD_NUM_KV_SPLITS_SWITCH(param.num_kv_splits, kLogMaxSplits, [&] {
+          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+              kPadSeqLenQ,
+              kPadHeadDimV,
+              true, // kStoreLSE
+              false, // kDoFp8StaticQuant place-holder
+              kLogMaxSplits,
+              -1>;
+
+          using FmhaPipelineProblem =
+              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+              FmhaTilePartitioner,
+              FmhaPipeline,
+              FmhaEpilogue>;
+
+          RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+        });
+      });
     };
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index ac5ad7261f..813f9f47c2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -126,46 +126,41 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
-      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      constexpr bool kPadSeqLenQ = true;
+
       const bool pad_headdim_v = !(param.Kv % kN1 == 0);
 
-      BOOL_SWITCH_2(
-          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
-            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
-                param.num_kv_splits, kLogMaxSplits, [&] {
-                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
-                      kPadSeqLenQ,
-                      kPadHeadDimV,
-                      false, // kStoreLSE
-                      false, // kDoFp8StaticQuant place-holder
-                      kLogMaxSplits,
-                      -1>;
-
-                  using FmhaPipelineProblem =
-                      FmhaSplitKVCombinePipelineProblemTemp<
-                          kM0,
-                          kN1,
-                          FmhaTraits>;
-
-                  using FmhaPipeline =
-                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
-                          FmhaPipelineProblem>;
-
-                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                      ck_tile::Default2DEpilogueProblem<
-                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                          kPadSeqLenQ,
-                          kPadHeadDimV>>;
-
-                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-                      FmhaTilePartitioner,
-                      FmhaPipeline,
-                      FmhaEpilogue>;
-
-                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
-                });
-          });
+      BOOL_SWITCH(pad_headdim_v, kPadHeadDimV, [&] {
+        FMHA_FWD_NUM_KV_SPLITS_SWITCH(param.num_kv_splits, kLogMaxSplits, [&] {
+          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+              kPadSeqLenQ,
+              kPadHeadDimV,
+              false, // kStoreLSE
+              false, // kDoFp8StaticQuant place-holder
+              kLogMaxSplits,
+              -1>;
+
+          using FmhaPipelineProblem =
+              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+              FmhaTilePartitioner,
+              FmhaPipeline,
+              FmhaEpilogue>;
+
+          RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+        });
+      });
     };
   };
 

From 761e8a52ba05ab1b0d4c9b8222d8cea2c7440cdf Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 29 Sep 2024 06:46:08 +0000
Subject: [PATCH 653/837] Add compile-time  checking to save compile-time

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 24 +++++++++++++------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 24 +++++++++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 24 +++++++++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 24 +++++++++++++------
 4 files changed, 68 insertions(+), 28 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 9e84e69711..b48aa19fd7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -18,17 +18,27 @@ template <
 void run_batched_forward_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  if (!param.use_split_kv)
+  // currently split-kv implementation does not support dropout
+  if constexpr (!kHasDropout) {
+    if (!param.use_split_kv)
+      batched_forward_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+    else
+      batched_forward_splitkv_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          MaxK>::Run(param, stream);
+  } else {
     batched_forward_causalmask_bias_dropout_dispatch<
         ScalarType,
         kHasCausalMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
-  else
-    batched_forward_splitkv_causalmask_bias_dropout_dispatch<
-        ScalarType,
-        kHasCausalMask,
-        kHasBias,
-        MaxK>::Run(param, stream);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 8117461377..abe2465479 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -18,17 +18,27 @@ template <
 void run_batched_infer_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  if (!param.use_split_kv)
+  // currently split-kv implementation does not support dropout
+  if constexpr (!kHasDropout) {
+    if (!param.use_split_kv)
+      batched_infer_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+    else
+      batched_infer_splitkv_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          MaxK>::Run(param, stream);
+  } else {
     batched_infer_causalmask_bias_dropout_dispatch<
         ScalarType,
         kHasCausalMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
-  else
-    batched_infer_splitkv_causalmask_bias_dropout_dispatch<
-        ScalarType,
-        kHasCausalMask,
-        kHasBias,
-        MaxK>::Run(param, stream);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index ba4cab63b6..970fc056dd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -18,17 +18,27 @@ template <
 void run_grouped_forward_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  if (!param.use_split_kv)
+  // currently split-kv implementation does not support dropout
+  if constexpr (!kHasDropout) {
+    if (!param.use_split_kv)
+      grouped_forward_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+    else
+      grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          MaxK>::Run(param, stream);
+  } else {
     grouped_forward_causalmask_bias_dropout_dispatch<
         ScalarType,
         kHasCausalMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
-  else
-    grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
-        ScalarType,
-        kHasCausalMask,
-        kHasBias,
-        MaxK>::Run(param, stream);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 117fb28d96..fb875055a3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -18,17 +18,27 @@ template <
 void run_grouped_infer_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  if (!param.use_split_kv)
+  // currently split-kv implementation does not support dropout
+  if constexpr (!kHasDropout) {
+    if (!param.use_split_kv)
+      grouped_infer_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+    else
+      grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          MaxK>::Run(param, stream);
+  } else {
     grouped_infer_causalmask_bias_dropout_dispatch<
         ScalarType,
         kHasCausalMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
-  else
-    grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
-        ScalarType,
-        kHasCausalMask,
-        kHasBias,
-        MaxK>::Run(param, stream);
+  }
 };

From eb500240cba78feb9f7ea947ce3face844c896f2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 3 Jul 2024 00:52:11 +0000
Subject: [PATCH 654/837] add dockerfile

---
 Dockerfile | 56 ++++++++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 56 insertions(+)
 create mode 100644 Dockerfile

diff --git a/Dockerfile b/Dockerfile
new file mode 100644
index 0000000000..14fadbdf58
--- /dev/null
+++ b/Dockerfile
@@ -0,0 +1,56 @@
+ARG UBUNTU_VERSION=jammy
+ARG PYTHON_VERSION=3.11
+ARG PYTORCH_ROCM_ARCH=gfx942
+ARG XFORMERS_URL=https://github.com/rocm/xformers
+ARG XFORMERS_GIT_BRANCH=develop
+ARG ROCM_VERSION=6.1.3
+ARG XFORMERS_COMPILE_JOBS=64
+
+FROM ubuntu:${UBUNTU_VERSION} as rocm
+ENV DEBIAN_FRONTEND=noninteractive
+
+ARG ROCM_VERSION
+ENV ROCM_VERSION=${ROCM_VERSION}
+
+RUN set -ex && \
+  apt-get update && \
+  apt-get install -y --no-install-recommends \
+    build-essential git curl gpg gpg-agent ca-certificates
+
+RUN set -ex && \
+  mkdir --parents --mode=0755 /etc/apt/keyrings && \
+  curl https://repo.radeon.com/rocm/rocm.gpg.key | \
+    gpg -o /etc/apt/keyrings/rocm.gpg --dearmor && \
+  . /etc/os-release && \
+  echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/$ROCM_VERSION/ubuntu $UBUNTU_CODENAME main" > /etc/apt/sources.list.d/amdgpu.list && \
+  echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/$ROCM_VERSION $UBUNTU_CODENAME main" > /etc/apt/sources.list.d/rocm.list && \
+  apt-get update && \
+  apt-get install -y \
+    rocm-dev${ROCM_VERSION} rocm-llvm-dev${ROCM_VERSION} rocm-libs${ROCM_VERSION}
+
+ENV ROCM_PATH="/opt/rocm"
+ENV PATH="$ROCM_PATH/bin:$ROCM_PATH/llvm/bin":${PATH}
+
+FROM rocm as conda
+ARG PYTHON_VERSION
+ENV PYTHON_VERSION=${PYTHON_VERSION}
+ENV CONDA_PREFIX="/opt/conda"
+ENV CONDA_PYTHON=${CONDA_PREFIX}/envs/xformers/bin/python
+ENV PATH=${CONDA_PREFIX}/bin:${PATH}
+
+RUN set -ex && \
+  curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -o miniconda.sh && \
+  sha256sum miniconda.sh > miniconda.sha256 && \
+  bash -exu miniconda.sh -bp ${CONDA_PREFIX} && \
+  rm miniconda.sh && \
+  conda init bash && \
+  conda create -n xformers -y python=${PYTHON_VERSION} && \
+  ${CONDA_PYTHON} -m pip install -U torch --index-url=https://download.pytorch.org/whl/nightly/rocm6.1 && \
+  ${CONDA_PYTHON} -m pip install ninja pytest scipy
+
+FROM conda as xformers
+ARG XFORMERS_URL
+ARG XFORMERS_GIT_BRANCH
+ARG XFORMERS_COMPILE_JOBS
+RUN set -ex && \
+  MAX_JOBS=${XFORMERS_COMPILE_JOBS} ${CONDA_PYTHON} -m pip install git+${XFORMERS_URL}@${XFORMERS_GIT_BRANCH} --verbose

From 669ee34529f8aac21d00f02218158110c9702f60 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 2 Oct 2024 00:28:20 +0000
Subject: [PATCH 655/837] migrate base docker image to manylinux

---
 Dockerfile | 72 +++++++++++++++++++++---------------------------------
 1 file changed, 28 insertions(+), 44 deletions(-)

diff --git a/Dockerfile b/Dockerfile
index 14fadbdf58..df0f112609 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -1,56 +1,40 @@
-ARG UBUNTU_VERSION=jammy
-ARG PYTHON_VERSION=3.11
-ARG PYTORCH_ROCM_ARCH=gfx942
-ARG XFORMERS_URL=https://github.com/rocm/xformers
-ARG XFORMERS_GIT_BRANCH=develop
-ARG ROCM_VERSION=6.1.3
-ARG XFORMERS_COMPILE_JOBS=64
+ARG XFORMERS_COMPILE_JOBS=128
+ARG HIP_ARCHITECTURES="gfx90a gfx942"
 
-FROM ubuntu:${UBUNTU_VERSION} as rocm
-ENV DEBIAN_FRONTEND=noninteractive
-
-ARG ROCM_VERSION
-ENV ROCM_VERSION=${ROCM_VERSION}
+FROM quay.io/pypa/manylinux_2_28_x86_64 as rocm
 
 RUN set -ex && \
-  apt-get update && \
-  apt-get install -y --no-install-recommends \
-    build-essential git curl gpg gpg-agent ca-certificates
+  usermod -a -G render,video $(whoami) && \
+  dnf -y install https://www.elrepo.org/elrepo-release-8.el8.elrepo.noarch.rpm && \
+  dnf config-manager --set-enabled elrepo-kernel && \
+  dnf -y install https://repo.radeon.com/amdgpu-install/6.2.2/rhel/8.10/amdgpu-install-6.2.60202-1.el8.noarch.rpm
 
 RUN set -ex && \
-  mkdir --parents --mode=0755 /etc/apt/keyrings && \
-  curl https://repo.radeon.com/rocm/rocm.gpg.key | \
-    gpg -o /etc/apt/keyrings/rocm.gpg --dearmor && \
-  . /etc/os-release && \
-  echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/$ROCM_VERSION/ubuntu $UBUNTU_CODENAME main" > /etc/apt/sources.list.d/amdgpu.list && \
-  echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/rocm/apt/$ROCM_VERSION $UBUNTU_CODENAME main" > /etc/apt/sources.list.d/rocm.list && \
-  apt-get update && \
-  apt-get install -y \
-    rocm-dev${ROCM_VERSION} rocm-llvm-dev${ROCM_VERSION} rocm-libs${ROCM_VERSION}
+  dnf -y install amdgpu-dkms rocm 
 
-ENV ROCM_PATH="/opt/rocm"
-ENV PATH="$ROCM_PATH/bin:$ROCM_PATH/llvm/bin":${PATH}
+RUN set -ex && \
+  python3.11 -m pip install uv && \
+  uv venv --python 3.11 && \
+  source .venv/bin/activate
 
-FROM rocm as conda
-ARG PYTHON_VERSION
-ENV PYTHON_VERSION=${PYTHON_VERSION}
-ENV CONDA_PREFIX="/opt/conda"
-ENV CONDA_PYTHON=${CONDA_PREFIX}/envs/xformers/bin/python
-ENV PATH=${CONDA_PREFIX}/bin:${PATH}
+RUN set -ex && \
+  git clone --recursive https://github.com/rocm/xformers && \
+  cd xformers && \
+  git log -1 
 
 RUN set -ex && \
-  curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -o miniconda.sh && \
-  sha256sum miniconda.sh > miniconda.sha256 && \
-  bash -exu miniconda.sh -bp ${CONDA_PREFIX} && \
-  rm miniconda.sh && \
-  conda init bash && \
-  conda create -n xformers -y python=${PYTHON_VERSION} && \
-  ${CONDA_PYTHON} -m pip install -U torch --index-url=https://download.pytorch.org/whl/nightly/rocm6.1 && \
-  ${CONDA_PYTHON} -m pip install ninja pytest scipy
+  cd xformers && \
+  uv pip install ninja && \
+  uv pip install -r requirements.txt --extra-index-url=https://download.pytorch.org/whl/nightly/rocm6.2 && \
+  uv pip install -r requirements-test.txt && \
+  uv pip install -r requirements-benchmark.txt && \
+  uv pip list
 
-FROM conda as xformers
-ARG XFORMERS_URL
-ARG XFORMERS_GIT_BRANCH
 ARG XFORMERS_COMPILE_JOBS
+ENV MAX_JOBS=${XFORMERS_COMPILE_JOBS} 
+ARG HIP_ARCHITECTURES
+ENV HIP_ARCHITECTURES=${HIP_ARCHITECTURES} 
 RUN set -ex && \
-  MAX_JOBS=${XFORMERS_COMPILE_JOBS} ${CONDA_PYTHON} -m pip install git+${XFORMERS_URL}@${XFORMERS_GIT_BRANCH} --verbose
+  cd xformers && \
+  uv pip install -e . --no-build-isolation --verbose && \
+  uv run -- python -m xformers.info

From 0a97ed61fb922a52946e5fe6ea87f5fd963c4d9b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 2 Oct 2024 02:20:16 +0000
Subject: [PATCH 656/837] build a wheel

---
 Dockerfile | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/Dockerfile b/Dockerfile
index df0f112609..55b18ec998 100644
--- a/Dockerfile
+++ b/Dockerfile
@@ -18,12 +18,13 @@ RUN set -ex && \
   source .venv/bin/activate
 
 RUN set -ex && \
+  cd /opt && \
   git clone --recursive https://github.com/rocm/xformers && \
   cd xformers && \
   git log -1 
 
 RUN set -ex && \
-  cd xformers && \
+  cd /opt/xformers && \
   uv pip install ninja && \
   uv pip install -r requirements.txt --extra-index-url=https://download.pytorch.org/whl/nightly/rocm6.2 && \
   uv pip install -r requirements-test.txt && \
@@ -35,6 +36,10 @@ ENV MAX_JOBS=${XFORMERS_COMPILE_JOBS}
 ARG HIP_ARCHITECTURES
 ENV HIP_ARCHITECTURES=${HIP_ARCHITECTURES} 
 RUN set -ex && \
-  cd xformers && \
-  uv pip install -e . --no-build-isolation --verbose && \
+  cd /opt/xformers && \
+  uv build . --wheel --no-build-isolation --verbose --offline && \
+  uv pip install dist/*.whl && \
+  cd / && \
   uv run -- python -m xformers.info
+
+ENV PATH="/.venv/bin:${PATH}"
\ No newline at end of file

From f8129c38c3f4e974592dfe290c2fb155ce5499a0 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 2 Oct 2024 16:32:39 +0000
Subject: [PATCH 657/837] rename dockerfile

---
 Dockerfile => Dockerfile.rocm | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename Dockerfile => Dockerfile.rocm (100%)

diff --git a/Dockerfile b/Dockerfile.rocm
similarity index 100%
rename from Dockerfile
rename to Dockerfile.rocm

From a0221e581112ce60fa25d65dd8059dc1f3dfa9f6 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 2 Oct 2024 16:44:13 +0000
Subject: [PATCH 658/837] lint

---
 Dockerfile.rocm | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/Dockerfile.rocm b/Dockerfile.rocm
index 55b18ec998..21f103bff6 100644
--- a/Dockerfile.rocm
+++ b/Dockerfile.rocm
@@ -42,4 +42,4 @@ RUN set -ex && \
   cd / && \
   uv run -- python -m xformers.info
 
-ENV PATH="/.venv/bin:${PATH}"
\ No newline at end of file
+ENV PATH="/.venv/bin:${PATH}"

From 4d2a37ddc3180c4f6d86a368e793b36d34481371 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 3 Oct 2024 02:02:59 +0000
Subject: [PATCH 659/837] Try adding docker image build workflow

---
 .github/workflows/rocm_docker.yml | 27 +++++++++++++++++++++++++++
 1 file changed, 27 insertions(+)
 create mode 100644 .github/workflows/rocm_docker.yml

diff --git a/.github/workflows/rocm_docker.yml b/.github/workflows/rocm_docker.yml
new file mode 100644
index 0000000000..ae927ca7f9
--- /dev/null
+++ b/.github/workflows/rocm_docker.yml
@@ -0,0 +1,27 @@
+name: Build and Publish ROCm Docker Image
+
+on:
+  push:
+    branches:
+      - develop
+
+jobs:
+  build-and-push:
+    runs-on: rocm
+    if: github.repository == 'rocm/xformers'
+    steps:
+      - name: Set up Docker Buildx
+        uses: docker/setup-buildx-action@v3
+      
+      - name: Login to Docker Hub
+        uses: docker/login-action@v3
+        with:
+          username: ${{ vars.DOCKERHUB_USERNAME }}
+          password: ${{ secrets.DOCKERHUB_TOKEN }}
+      
+      - name: Build and push
+        uses: docker/build-push-action@v6
+        with:
+          push: true
+          tags: rocm/xformers:latest
+          file: Dockerfile.rocm
\ No newline at end of file

From ea3b796c2866933c4f4bf28c594cb37b7c8119a4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 3 Oct 2024 02:05:57 +0000
Subject: [PATCH 660/837] add newline

---
 .github/workflows/rocm_docker.yml | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/rocm_docker.yml b/.github/workflows/rocm_docker.yml
index ae927ca7f9..ef35fda094 100644
--- a/.github/workflows/rocm_docker.yml
+++ b/.github/workflows/rocm_docker.yml
@@ -24,4 +24,5 @@ jobs:
         with:
           push: true
           tags: rocm/xformers:latest
-          file: Dockerfile.rocm
\ No newline at end of file
+          file: Dockerfile.rocm
+          
\ No newline at end of file

From 983fc1901d831934f9c5714470642a652d4dc198 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 3 Oct 2024 02:06:31 +0000
Subject: [PATCH 661/837] add newline

---
 .github/workflows/rocm_docker.yml | 1 -
 1 file changed, 1 deletion(-)

diff --git a/.github/workflows/rocm_docker.yml b/.github/workflows/rocm_docker.yml
index ef35fda094..31fc242a71 100644
--- a/.github/workflows/rocm_docker.yml
+++ b/.github/workflows/rocm_docker.yml
@@ -25,4 +25,3 @@ jobs:
           push: true
           tags: rocm/xformers:latest
           file: Dockerfile.rocm
-          
\ No newline at end of file

From eb986e142133c4e806760a85e90d3e693fe4e7e1 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 2 Oct 2024 21:18:51 -0700
Subject: [PATCH 662/837] Update README.md

ROCm specific installation instruction
---
 README.md | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/README.md b/README.md
index f53bdb5607..7867b8ef4d 100644
--- a/README.md
+++ b/README.md
@@ -38,9 +38,11 @@ conda install xformers -c xformers
 
 ```bash
 # cuda 11.8 version
-pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu118
+python -m pip install -U xformers --index-url https://download.pytorch.org/whl/cu118
 # cuda 12.1 version
-pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
+python -m pip install -U xformers --index-url https://download.pytorch.org/whl/cu121
+# rocm 6.1 version (linux only)
+python -m pip install -U xformers --index-url https://download.pytorch.org/whl/rocm6.1
 ```
 
 * **Development binaries**:

From e3919740d46b9a824b96de5104cd6ab2ed0667a3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 3 Oct 2024 10:08:10 +0000
Subject: [PATCH 663/837] Remove directly including of <ck_tile/host.hpp>

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h   | 3 ++-
 .../hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h          | 3 ++-
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h  | 3 ++-
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h  | 3 ++-
 .../hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h    | 3 ++-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h   | 3 ++-
 .../hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h          | 3 ++-
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h  | 3 ++-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h  | 3 ++-
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h    | 3 ++-
 10 files changed, 20 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 8bcb29bee8..7bcc6c81b4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index 2a5270f6f1..f2b818060a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 97e2fa41bd..6566f2f588 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 43b90d1f3c..c949ba57b2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 0c09d1d6d2..7ccf6f2b02 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 82d9920f6d..e4fdf82667 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index 747cb7a3cb..60f7f24894 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index bf8fada6fa..781a695076 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index bd87dc43fa..576481887f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 813f9f47c2..4cd70d3b2c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <ck_tile/core/numeric/integer.hpp>
-#include <ck_tile/host.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
 #include <ck_tile/ops/epilogue.hpp>
 #include <ck_tile/ops/fmha.hpp>
 

From 9d03bebf774cde1ba26c5dd5305831c3c9cd8fb8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 3 Oct 2024 10:36:15 +0000
Subject: [PATCH 664/837] Synchronize with latest ck develop commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 770d2b7725..aeb7c91f48 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 770d2b77253b5bfbcc794d4133e7ecada63cdd44
+Subproject commit aeb7c91f48a0e8fa1e288d91f719415282c03f03

From 0a4d4207242b59bd10af3b7ac16afe16ea26d1b3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 3 Oct 2024 10:40:44 +0000
Subject: [PATCH 665/837] Remove the printing in
 attention_forward_generic_ck_tiled.cpp

---
 .../hip_fmha/attention_forward_generic_ck_tiled.cpp    | 10 ----------
 1 file changed, 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 4cb39e4872..7a2d45b9ef 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -391,11 +391,6 @@ efficient_attention_forward_ck(
 
     set_batched_forward_params(batched_forward_params);
 
-    if (batched_forward_params.use_split_kv)
-      std::cout << "Batched mode using split-kv kernel! num_splts = " << batched_forward_params.num_kv_splits << std::endl;
-    else
-      std::cout << "Batched mode using normal kernel! num_splts = " << batched_forward_params.num_kv_splits << std::endl;
-
     if (!batched_forward_params.compute_logsumexp) {
       if (inDataType == at::ScalarType::Half) {
         batched_infer_fp16(batched_forward_params, stream);
@@ -416,11 +411,6 @@ efficient_attention_forward_ck(
 
     set_grouped_forward_params(grouped_forward_params);
 
-    if (grouped_forward_params.use_split_kv)
-      std::cout << "Grouped mode using split-kv kernel! num_splts = " << grouped_forward_params.num_kv_splits << std::endl;
-    else
-      std::cout << "Grouped mode using normal kernel! num_splts = " << grouped_forward_params.num_kv_splits << std::endl;
-
     if (!grouped_forward_params.compute_logsumexp) {
       if (inDataType == at::ScalarType::Half) {
         grouped_infer_fp16(grouped_forward_params, stream);

From a1c788efbf3a9421168c2e3160121321528ba093 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 3 Oct 2024 13:19:25 +0000
Subject: [PATCH 666/837] Tune the TilePartitioner for splitkv-combine kernel

---
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h   | 2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h     | 2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h   | 2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h     | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 6566f2f588..9e4acf4e62 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -130,7 +130,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
 
     {
       constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 7ccf6f2b02..f6285f7d52 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -130,7 +130,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
 
     {
       constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 781a695076..0207868201 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -123,7 +123,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
 
     {
       constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 4cd70d3b2c..1ccea42cf8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -121,7 +121,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
 
     {
       constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1;
+      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;

From b1e5ee455607b8ba84bdab4a90504e60cfe876b3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 3 Oct 2024 14:57:53 +0000
Subject: [PATCH 667/837] Use 64 as maximum possible number of splitkv

---
 .../attention/hip_fmha/attention_forward_generic_ck_tiled.cpp | 4 ++--
 .../attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h    | 3 ---
 2 files changed, 2 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 7a2d45b9ef..0d81fd66c8 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -232,7 +232,7 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     p.num_kv_splits =
-        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 128);
+        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 64);
 
     // fmha fwd split-kv kernel does not support dropout
     p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
@@ -360,7 +360,7 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     p.num_kv_splits = get_num_kv_splits_heuristic(
-        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 128);
+        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 64);
 
     // fmha fwd split-kv kernel does not support dropout
     p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
index d9408ff1a8..92d04cce86 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
@@ -20,9 +20,6 @@
     } else if (NUM_SPLITS <= 64) {                                 \
       constexpr ck_tile::index_t CONST_NAME = 6;                   \
       __VA_ARGS__();                                               \
-    } else if (NUM_SPLITS <= 128) {                                \
-      constexpr ck_tile::index_t CONST_NAME = 7;                   \
-      __VA_ARGS__();                                               \
     } else {                                                       \
       throw std::runtime_error("num-splits not supported!");       \
     }                                                              \

From a53ed75bcbb374321821cc73da5e8f93b307c8a4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 4 Oct 2024 11:41:44 +0000
Subject: [PATCH 668/837] Add environment variable to disable building
 fmha-fwd-splitkv

---
 setup.py                                               |  4 ++++
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward.h | 10 ++++++----
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer.h   | 10 ++++++----
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward.h | 10 ++++++----
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer.h   | 10 ++++++----
 5 files changed, 28 insertions(+), 16 deletions(-)

diff --git a/setup.py b/setup.py
index c57ca4f75e..c26b6b9780 100644
--- a/setup.py
+++ b/setup.py
@@ -457,6 +457,10 @@ def get_extensions():
         if use_rtn_bf16_convert == "1":
             cc_flag += ["-DCK_TILE_FLOAT_TO_BFLOAT16_DEFAULT=3"]
 
+        disable_fmha_fwd_splitkv = os.getenv("DISABLE_HIP_FMHA_FWD_SPLITKV", "0")
+        if disable_fmha_fwd_splitkv == "1":
+            cc_flag += ["-DFMHA_FWD_SPLITKV_NOT_USED"]
+
         arch_list = os.getenv("HIP_ARCHITECTURES", "native").split()
 
         extra_compile_args = {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index b48aa19fd7..a725085661 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -20,18 +20,20 @@ void run_batched_forward_causalmask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-    if (!param.use_split_kv)
-      batched_forward_causalmask_bias_dropout_dispatch<
+#ifndef FMHA_FWD_SPLITKV_NOT_USED
+    if (param.use_split_kv)
+      batched_forward_splitkv_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
-          kHasDropout,
           MaxK>::Run(param, stream);
     else
-      batched_forward_splitkv_causalmask_bias_dropout_dispatch<
+#endif
+      batched_forward_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
+          kHasDropout,
           MaxK>::Run(param, stream);
   } else {
     batched_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index abe2465479..ac34efb7f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -20,18 +20,20 @@ void run_batched_infer_causalmask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-    if (!param.use_split_kv)
-      batched_infer_causalmask_bias_dropout_dispatch<
+#ifndef FMHA_FWD_SPLITKV_NOT_USED
+    if (param.use_split_kv)
+      batched_infer_splitkv_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
-          kHasDropout,
           MaxK>::Run(param, stream);
     else
-      batched_infer_splitkv_causalmask_bias_dropout_dispatch<
+#endif
+      batched_infer_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
+          kHasDropout,
           MaxK>::Run(param, stream);
   } else {
     batched_infer_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 970fc056dd..61545ac7d3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -20,18 +20,20 @@ void run_grouped_forward_causalmask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-    if (!param.use_split_kv)
-      grouped_forward_causalmask_bias_dropout_dispatch<
+#ifndef FMHA_FWD_SPLITKV_NOT_USED
+    if (param.use_split_kv)
+      grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
-          kHasDropout,
           MaxK>::Run(param, stream);
     else
-      grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
+#endif
+      grouped_forward_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
+          kHasDropout,
           MaxK>::Run(param, stream);
   } else {
     grouped_forward_causalmask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index fb875055a3..962626d838 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -20,18 +20,20 @@ void run_grouped_infer_causalmask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-    if (!param.use_split_kv)
-      grouped_infer_causalmask_bias_dropout_dispatch<
+#ifndef FMHA_FWD_SPLITKV_NOT_USED
+    if (param.use_split_kv)
+      grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
-          kHasDropout,
           MaxK>::Run(param, stream);
     else
-      grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
+#endif
+      grouped_infer_causalmask_bias_dropout_dispatch<
           ScalarType,
           kHasCausalMask,
           kHasBias,
+          kHasDropout,
           MaxK>::Run(param, stream);
   } else {
     grouped_infer_causalmask_bias_dropout_dispatch<

From 772e8f633ffea196f09b257e2fe17b0cb125dc3f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 6 Oct 2024 15:21:35 +0000
Subject: [PATCH 669/837] Use 32 as maximum number of splits

---
 .../attention_forward_generic_ck_tiled.cpp    |  4 +-
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 75 +++++++++----------
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 75 +++++++++----------
 .../ck_tiled_fmha_num_kv_split_switch.h       |  3 -
 4 files changed, 72 insertions(+), 85 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 0d81fd66c8..aeb1c63852 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -232,7 +232,7 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     p.num_kv_splits =
-        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 64);
+        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 32);
 
     // fmha fwd split-kv kernel does not support dropout
     p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
@@ -360,7 +360,7 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     p.num_kv_splits = get_num_kv_splits_heuristic(
-        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 64);
+        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 32);
 
     // fmha fwd split-kv kernel does not support dropout
     p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 9e4acf4e62..1ae014b313 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -75,8 +75,6 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-        const bool pad_seqlen_k =
-            (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
         const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
@@ -84,47 +82,44 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
         // determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-        BOOL_SWITCH_3(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+        // ToDo: determine these by checking run-time
+        constexpr bool kPadSeqLenK = true;
+        constexpr bool kHasUnevenSplits = true;
+
+        BOOL_SWITCH_2(pad_seqlen_q, kPadSeqLenQ, pad_headdim, kPadHeadDim, [&] {
+          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDim, // kPadHeadDimQ,
+              kPadHeadDim, // kPadHeadDimV,
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              true, // kStoreLSE
+              false, // kDoFp8StaticQuant place-holder
+              false, // kIsPagedKV
+              true, // kHasUnevenSplits
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                   kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  true, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  true, // kHasUnevenSplits
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                  FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      kPadSeqLenQ,
-                      kPadHeadDim>>;
+                  kPadHeadDim>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+          using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+              FmhaTilePartitioner,
+              FmhaPipeline,
+              FmhaEpilogue>;
 
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-            });
+          RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+        });
       });
     }
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index f6285f7d52..52b1f05dba 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -75,8 +75,6 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-        const bool pad_seqlen_k =
-            (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
         const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
 
@@ -84,47 +82,44 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
         // determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-        BOOL_SWITCH_3(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+        // ToDo: determine these by checking run-time
+        constexpr bool kPadSeqLenK = true;
+        constexpr bool kHasUnevenSplits = true;
+
+        BOOL_SWITCH_2(pad_seqlen_q, kPadSeqLenQ, pad_headdim, kPadHeadDim, [&] {
+          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDim, // kPadHeadDimQ,
+              kPadHeadDim, // kPadHeadDimV,
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              false, // kStoreLSE
+              false, // kDoFp8StaticQuant place-holder
+              false, // kIsPagedKV
+              kHasUnevenSplits,
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                   kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  true, // kHasUnevenSplits
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                  FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      kPadSeqLenQ,
-                      kPadHeadDim>>;
+                  kPadHeadDim>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+          using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+              FmhaTilePartitioner,
+              FmhaPipeline,
+              FmhaEpilogue>;
 
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-            });
+          RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+        });
       });
     };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
index 92d04cce86..0d19f398b3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
@@ -17,9 +17,6 @@
     } else if (NUM_SPLITS <= 32) {                                 \
       constexpr ck_tile::index_t CONST_NAME = 5;                   \
       __VA_ARGS__();                                               \
-    } else if (NUM_SPLITS <= 64) {                                 \
-      constexpr ck_tile::index_t CONST_NAME = 6;                   \
-      __VA_ARGS__();                                               \
     } else {                                                       \
       throw std::runtime_error("num-splits not supported!");       \
     }                                                              \

From 04bb15087cc25c55cf6f1aa2b1a914311c48803a Mon Sep 17 00:00:00 2001
From: "Po Yen, Chen" <PoYen.Chen@amd.com>
Date: Sun, 6 Oct 2024 19:52:24 +0000
Subject: [PATCH 670/837] Fix compilation errors due to CK interface change

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h    | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h   | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h    | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h   | 2 +-
 6 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 7bcc6c81b4..8bfc3b07c1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -310,7 +310,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
-          {param.philox_seed, param.philox_offset});
+          std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
     dim3 kGridSize = FmhaBwdDQDKDVKernel::GridSize(param.B, param.Hq, param.N);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index f2b818060a..0b48fb444e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -165,7 +165,7 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
+          std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
     dim3 kGridSize =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index c949ba57b2..0924a34b12 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -199,7 +199,7 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
           false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
+          std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index e4fdf82667..c29a92febb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -293,7 +293,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
           param.dropout_prob, // dropout ratio
-          {param.philox_seed, param.philox_offset});
+          std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
     dim3 kGridSize = FmhaBwdDQDKDVKernel::GridSize(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index 60f7f24894..dbea3125a2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -159,7 +159,7 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
           param.custom_mask_type,
           param.dropout_prob,
           false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
+          std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
     dim3 kGridSize = FmhaFwdKernel::GridSize(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 576481887f..06f98d0f3b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -204,7 +204,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
           param.custom_mask_type,
           param.dropout_prob,
           false, // is_store_randval
-          {param.philox_seed, param.philox_offset});
+          std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(

From 7949da4650ccef9d668cbf702cb0ec4f9383f769 Mon Sep 17 00:00:00 2001
From: "Po Yen, Chen" <PoYen.Chen@amd.com>
Date: Sun, 6 Oct 2024 22:01:27 +0000
Subject: [PATCH 671/837] Determine kHasUnevenSplits at runtime

---
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 75 +++++++++++--------
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 75 +++++++++++--------
 2 files changed, 84 insertions(+), 66 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 1ae014b313..ca8ec559ef 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -82,44 +82,53 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
         // determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
+        const bool has_uneven_splits =
+            !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
+
         // ToDo: determine these by checking run-time
         constexpr bool kPadSeqLenK = true;
-        constexpr bool kHasUnevenSplits = true;
-
-        BOOL_SWITCH_2(pad_seqlen_q, kPadSeqLenQ, pad_headdim, kPadHeadDim, [&] {
-          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-              kPadSeqLenQ,
-              kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ,
-              kPadHeadDim, // kPadHeadDimV,
-              kBiasEnum,
-              false, // kHasBiasGrad place-holder
-              true, // kStoreLSE
-              false, // kDoFp8StaticQuant place-holder
-              false, // kIsPagedKV
-              true, // kHasUnevenSplits
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-          using FmhaPipeline =
-              ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<FmhaPipelineProblem>;
-
-          using FmhaEpilogue =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+
+        BOOL_SWITCH_3(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_headdim,
+            kPadHeadDim,
+            has_uneven_splits,
+            kHasUnevenSplits,
+            [&] {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
-                  kPadHeadDim>>;
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  kHasUnevenSplits,
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      kPadSeqLenQ,
+                      kPadHeadDim>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-              FmhaTilePartitioner,
-              FmhaPipeline,
-              FmhaEpilogue>;
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
 
-          RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-        });
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            });
       });
     }
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 52b1f05dba..7aa4f7f323 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -82,44 +82,53 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
         // determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
+        const bool has_uneven_splits =
+            !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
+
         // ToDo: determine these by checking run-time
         constexpr bool kPadSeqLenK = true;
-        constexpr bool kHasUnevenSplits = true;
-
-        BOOL_SWITCH_2(pad_seqlen_q, kPadSeqLenQ, pad_headdim, kPadHeadDim, [&] {
-          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-              kPadSeqLenQ,
-              kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ,
-              kPadHeadDim, // kPadHeadDimV,
-              kBiasEnum,
-              false, // kHasBiasGrad place-holder
-              false, // kStoreLSE
-              false, // kDoFp8StaticQuant place-holder
-              false, // kIsPagedKV
-              kHasUnevenSplits,
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-          using FmhaPipeline =
-              ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<FmhaPipelineProblem>;
-
-          using FmhaEpilogue =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+
+        BOOL_SWITCH_3(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_headdim,
+            kPadHeadDim,
+            has_uneven_splits,
+            kHasUnevenSplits,
+            [&] {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
-                  kPadHeadDim>>;
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  kHasUnevenSplits,
+                  occupancy>;
+
+              using FmhaPipelineProblem =
+                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      kPadSeqLenQ,
+                      kPadHeadDim>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-              FmhaTilePartitioner,
-              FmhaPipeline,
-              FmhaEpilogue>;
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
 
-          RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-        });
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            });
       });
     };
 

From 3a8d7cf698ef1c6ee092f19fe3954b75bf7fd78c Mon Sep 17 00:00:00 2001
From: "Po Yen, Chen" <PoYen.Chen@amd.com>
Date: Mon, 7 Oct 2024 01:03:12 +0000
Subject: [PATCH 672/837] Determine kPadSeqLenK at runtime

---
 .../ck_tiled_fmha_batched_forward_splitkv_dispatch.h      | 8 ++++----
 .../ck_tiled_fmha_batched_infer_splitkv_dispatch.h        | 8 ++++----
 2 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index ca8ec559ef..b2fbf7081e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -84,13 +84,13 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
 
         const bool has_uneven_splits =
             !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
+        const bool pad_seqlen_k = (param.N == 0) || has_uneven_splits;
 
-        // ToDo: determine these by checking run-time
-        constexpr bool kPadSeqLenK = true;
-
-        BOOL_SWITCH_3(
+        BOOL_SWITCH_4(
             pad_seqlen_q,
             kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
             pad_headdim,
             kPadHeadDim,
             has_uneven_splits,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 7aa4f7f323..fc6c29baf1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -84,13 +84,13 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         const bool has_uneven_splits =
             !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
+        const bool pad_seqlen_k = (param.N == 0) || has_uneven_splits;
 
-        // ToDo: determine these by checking run-time
-        constexpr bool kPadSeqLenK = true;
-
-        BOOL_SWITCH_3(
+        BOOL_SWITCH_4(
             pad_seqlen_q,
             kPadSeqLenQ,
+            pad_seqlen_k,
+            kPadSeqLenK,
             pad_headdim,
             kPadHeadDim,
             has_uneven_splits,

From 28ac1ca37590620df54f04054a7a4895c34046ae Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 7 Oct 2024 12:57:16 +0000
Subject: [PATCH 673/837] Let kPadSeqLenK be reversed value of kHasUnevenSplits

---
 .../ck_tiled_fmha_batched_forward_splitkv_dispatch.h       | 7 +++----
 .../ck_tiled_fmha_batched_infer_splitkv_dispatch.h         | 7 +++----
 2 files changed, 6 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index b2fbf7081e..4c7ba7e486 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -84,18 +84,17 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
 
         const bool has_uneven_splits =
             !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
-        const bool pad_seqlen_k = (param.N == 0) || has_uneven_splits;
 
-        BOOL_SWITCH_4(
+        BOOL_SWITCH_3(
             pad_seqlen_q,
             kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
             pad_headdim,
             kPadHeadDim,
             has_uneven_splits,
             kHasUnevenSplits,
             [&] {
+              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
               using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index fc6c29baf1..d3ddbf0cc4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -84,18 +84,17 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         const bool has_uneven_splits =
             !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
-        const bool pad_seqlen_k = (param.N == 0) || has_uneven_splits;
 
-        BOOL_SWITCH_4(
+        BOOL_SWITCH_3(
             pad_seqlen_q,
             kPadSeqLenQ,
-            pad_seqlen_k,
-            kPadSeqLenK,
             pad_headdim,
             kPadHeadDim,
             has_uneven_splits,
             kHasUnevenSplits,
             [&] {
+              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
               using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,

From e8143c3a5af6b3388063bec15bb772120a00f795 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 8 Oct 2024 08:10:19 +0000
Subject: [PATCH 674/837] Synchronize to latest ck develop commit for updates
 with regard to fmha-fwd splitkv

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index aeb7c91f48..0c094daa7e 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit aeb7c91f48a0e8fa1e288d91f719415282c03f03
+Subproject commit 0c094daa7e3fcc3c4b4a6d75c85c31f2925f02a8

From 7986c2c5f04afae8feeb9684d651975fdbb9f08b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 8 Oct 2024 18:31:46 +0000
Subject: [PATCH 675/837] fix build: stream type

---
 .../csrc/attention/hip_decoder/attention_forward_decoder.cpp   | 2 +-
 .../csrc/attention/hip_decoder/attention_forward_splitk.cpp    | 2 +-
 .../attention/hip_fmha/attention_backward_generic_ck_tiled.cpp | 3 +--
 xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp | 3 +--
 .../attention/hip_fmha/attention_forward_generic_ck_tiled.cpp  | 3 +--
 5 files changed, 5 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
index 7f126dd335..dbdb944b95 100644
--- a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
@@ -96,7 +96,7 @@ at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
   int32_t smem_output = K_MAX * sizeof(float) *
       threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
   const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto stream = at::hip::getCurrentHIPStream().stream();
 
   AT_DISPATCH_SWITCH_3(
       at::ScalarType::Half,
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
index 2452204840..647e540d37 100644
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
@@ -139,7 +139,7 @@ at::Tensor& efficient_attention_forward_decoder_splitk_ck_out_impl(
       WavefrontsPerBlock; // 4 * threadsPerBlock * sizeof(float) ==
                           // sizeof(O[b][0][h][:])
   const size_t attn_lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::cuda::getCurrentHIPStream().stream();
+  auto stream = at::hip::getCurrentHIPStream().stream();
 
   AT_DISPATCH_SWITCH_3(
       at::ScalarType::Half,
diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 2bc96fa7ee..823acebf02 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -111,8 +111,7 @@ efficient_attention_backward_ck(
     TORCH_CHECK(max_seqlen_k_.has_value());
   }
 
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index 347502b065..cbcc3a1fc1 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -33,8 +33,7 @@ at::Tensor rand_uniform_int(
   int M = out_pattern.size(2);
   int N = out_pattern.size(3);
 
-  // at::cuda::CUDAGuard device_guard(out_pattern.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
 
   at::CUDAGeneratorImpl* gen =
       at::get_generator_or_default<at::CUDAGeneratorImpl>(
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index aeb1c63852..08c5aaba2e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -105,8 +105,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
-  // at::cuda::CUDAGuard device_guard(query.device());
-  hipStream_t stream = at::cuda::getCurrentHIPStream().stream();
+  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);

From ee106008696754ae834a38a0aaa9cf128e60701c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 11 Oct 2024 07:26:50 +0000
Subject: [PATCH 676/837] Add support for fmha-bwd headdim-96

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 10 +-
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 23 +++++
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 10 +-
 .../hip_fmha/ck_tiled_headdim_switch.h        |  6 ++
 .../attention/hip_fmha/generate_instances.py  | 19 ++--
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...fmha_batched_backward_bf16_instances_ref.h | 96 +++++++++++++++++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...fmha_batched_backward_fp16_instances_ref.h | 96 +++++++++++++++++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...fmha_grouped_backward_bf16_instances_ref.h | 96 +++++++++++++++++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...fmha_grouped_backward_fp16_instances_ref.h | 96 +++++++++++++++++++
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp | 20 ++++
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 20 ++++
 xformers/ops/fmha/ck.py                       |  1 +
 58 files changed, 1395 insertions(+), 18 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 8bfc3b07c1..4abd346ae2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -110,20 +110,20 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
-            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddimForGemmN == 0);
         const bool pad_headdim_v =
-            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddimForGemmN == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
-          using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
+          using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ,
-              kPadHeadDim, // kPadHeadDimV,
+              kPadHeadDim, // kPadHeadDimQ
+              kPadHeadDim, // kPadHeadDimV
               kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 9e2ba48187..aff32056d2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -70,6 +70,15 @@ struct FmhaBwdBlockTile<64> {
   using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
 };
 
+template <>
+struct FmhaBwdBlockTile<96> {
+  using tile_lengths =
+      ck_tile::sequence<16, 128, 96, 16, 128, 16, 32, 96, 96>;
+  using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
+  using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
+  using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
+};
+
 template <>
 struct FmhaBwdBlockTile<128> {
   using tile_lengths =
@@ -123,6 +132,20 @@ struct FmhaBwdShape<64> : ck_tile::TileFmhaBwdShape<
                               typename FmhaBwdBlockTile<64>::gemm4_warps,
                               FmhaBwdWarpTile2> {};
 
+template <>
+struct FmhaBwdShape<96> : ck_tile::TileFmhaBwdShape<
+                               typename FmhaBwdBlockTile<96>::tile_lengths,
+                               typename FmhaBwdBlockTile<96>::gemm02_warps,
+                               FmhaBwdWarpTile2,
+                               typename FmhaBwdBlockTile<96>::gemm13_warps,
+                               FmhaBwdWarpTile3,
+                               typename FmhaBwdBlockTile<96>::gemm02_warps,
+                               FmhaBwdWarpTile2,
+                               typename FmhaBwdBlockTile<96>::gemm13_warps,
+                               FmhaBwdWarpTile3,
+                               typename FmhaBwdBlockTile<96>::gemm4_warps,
+                               FmhaBwdWarpTile2> {};
+
 template <>
 struct FmhaBwdShape<128> : ck_tile::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<128>::tile_lengths,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index c29a92febb..677accd3d8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -107,20 +107,20 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
-            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddimForGemmN == 0);
         const bool pad_headdim_v =
-            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddimForGemmN == 0);
 
         // usually headdim_q and headdim_v are same, consider them together
         // to determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
-          using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
+          using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ,
-              kPadHeadDim, // kPadHeadDimV,
+              kPadHeadDim, // kPadHeadDimQ
+              kPadHeadDim, // kPadHeadDimV
               kBiasEnum,
               kHasBiasGrad,
               false, // kStoreLSE
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index ce99023c94..218bedd585 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -39,6 +39,9 @@
     } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
       constexpr ck_tile::index_t CONST_NAME = 64;                      \
       __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 96;                      \
+      __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
       constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
@@ -76,6 +79,9 @@
     } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
       constexpr ck_tile::index_t CONST_NAME = 64;                      \
       __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 96;                      \
+      __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
       constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 53dd8143c2..a8a502d2e4 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -106,6 +106,7 @@
 INT_MAP_MAX_K = {
     32: "maxk_32",
     64: "maxk_64",
+    96: "maxk_96",
     128: "maxk_128",
     256: "maxk_256",
 }
@@ -368,9 +369,11 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
             disable_hd256 = True
 
     if disable_hd256:
-        headdims = [32, 64, 128]
+        headdims_fwd = [32, 64, 128]
+        headdims_bwd = [32, 64, 96, 128]
     else:
-        headdims = [32, 64, 128, 256]
+        headdims_fwd = [32, 64, 128, 256]
+        headdims_bwd = [32, 64, 96, 128, 256]
 
     this_dir = os.path.dirname(__file__)
     output_dir = Path(this_dir) / "instances"
@@ -382,9 +385,9 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
         file_path = os.path.join(output_dir, ff)
         os.remove(file_path)
 
-    create_infer_instances(output_dir, headdims)
-    create_infer_instances_ref(output_dir, headdims)
-    create_forward_instances(output_dir, headdims)
-    create_forward_instances_ref(output_dir, headdims)
-    create_backward_instances(output_dir, headdims)
-    create_backward_instances_ref(output_dir, headdims)
+    create_infer_instances(output_dir, headdims_fwd)
+    create_infer_instances_ref(output_dir, headdims_fwd)
+    create_forward_instances(output_dir, headdims_fwd)
+    create_forward_instances_ref(output_dir, headdims_fwd)
+    create_backward_instances(output_dir, headdims_bwd)
+    create_backward_instances_ref(output_dir, headdims_bwd)
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0507274536
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..243b68b6ed
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..7138c96268
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..9a17ee2cb6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..cfa553fd21
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0482764f09
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
index 06f82124ae..2673bc7fbf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
@@ -203,6 +203,102 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..d236f6bfd9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b6d8dbe00d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..3d0d926922
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..76537e08f2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..50b501cf5f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..8353530303
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..d10dcbd853
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0cb38468dd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..7803abf872
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..ba52ba6314
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0502ca3b01
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..4ab5beec9a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
index d47f8cc1ec..1f8e8ed58d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
@@ -203,6 +203,102 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
+extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
+
 extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..09ca74c2e4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..a146c6da13
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..10565fbb0c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..bf7ccf142b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..d1f6446bf9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..9241f7293c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_backward.h"
+
+template void run_batched_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..32240e064a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0467ced4bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..93b9ed6401
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..5915b9242a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..2e566f5f99
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..68607964e9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
index 870b4dda9f..dc11abac19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
@@ -203,6 +203,102 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..ce596091ee
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..cdabdac586
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..daf39e9643
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..3898ef46c3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..e4b460f539
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..e22834cc62
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..1acd7f721d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b04a8544cf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..af6b35c046
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..3455d00b26
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..d76c10a456
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b8601d6f45
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
index 367ca6bcfe..e51bf7f8f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
@@ -203,6 +203,102 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..f679f682df
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..63926ac3a8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..629cea07fd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..94d2afc7e7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..edcde9deb0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    true,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..563ee7e9b7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_backward.h"
+
+template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    false,
+    96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index a4defb17c3..6440c2ba9e 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -356,6 +356,7 @@ class BwOp(AttentionBwOpBase):
     _TEST_K: List[int] = [
         32,  # 64x64 kernel
         64,
+        96,
         128,  # 64x128/128x128 kernel
         256,
     ]

From c9fa526af5444284b241047e7405ecbfa9d213a3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 12 Oct 2024 16:04:26 +0000
Subject: [PATCH 677/837] Use kK2=96

---
 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index aff32056d2..dcfc235a62 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -73,7 +73,7 @@ struct FmhaBwdBlockTile<64> {
 template <>
 struct FmhaBwdBlockTile<96> {
   using tile_lengths =
-      ck_tile::sequence<16, 128, 96, 16, 128, 16, 32, 96, 96>;
+      ck_tile::sequence<16, 128, 96, 16, 96, 16, 32, 96, 96>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
   using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4

From abc9361bdfae2f40fb92dab5d2456f91ac6a5f17 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Oct 2024 02:21:18 +0000
Subject: [PATCH 678/837] Synchronize the change in ck-tile to rename
 kQKHeaddimForGemmN to kQKHeaddim

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h |  7 +++---
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      | 25 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h |  7 +++---
 5 files changed, 20 insertions(+), 23 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index b642ad5b97..7bd53f570a 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop 
+	branch = bwd_hd96_improve 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 0c094daa7e..b6dfccf106 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 0c094daa7e3fcc3c4b4a6d75c85c31f2925f02a8
+Subproject commit b6dfccf1064ff14401ef0947b2af9664b3c3a15d
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 4abd346ae2..f86d234416 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -110,7 +110,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
-            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddimForGemmN == 0);
+            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
         const bool pad_headdim_v =
             !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddimForGemmN == 0);
 
@@ -169,8 +169,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       constexpr ck_tile::index_t kBlockSize = 256;
 
       const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
-      const bool pad_headdim_q =
-          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+      const bool pad_headdim_q = !(param.K % MaxK == 0);
 
       BOOL_SWITCH_2(
           pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
@@ -189,7 +188,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
                     kBlockSize,
                     FmhaBwdShape<MaxK>::kM0,
                     FmhaBwdShape<MaxK>::kN0,
-                    FmhaBwdShape<MaxK>::kQKHeaddim,
+                    MaxK, // kQKHeaddim
                     false, // kIsGroupMode
                     false, // kIsDeterministic
                     FmhaBwdConvertQGradTraits_>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index dcfc235a62..cc73f8787e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -72,8 +72,7 @@ struct FmhaBwdBlockTile<64> {
 
 template <>
 struct FmhaBwdBlockTile<96> {
-  using tile_lengths =
-      ck_tile::sequence<16, 128, 96, 16, 96, 16, 32, 96, 96>;
+  using tile_lengths = ck_tile::sequence<16, 128, 96, 16, 96, 16, 32, 128, 96>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
   using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
@@ -134,17 +133,17 @@ struct FmhaBwdShape<64> : ck_tile::TileFmhaBwdShape<
 
 template <>
 struct FmhaBwdShape<96> : ck_tile::TileFmhaBwdShape<
-                               typename FmhaBwdBlockTile<96>::tile_lengths,
-                               typename FmhaBwdBlockTile<96>::gemm02_warps,
-                               FmhaBwdWarpTile2,
-                               typename FmhaBwdBlockTile<96>::gemm13_warps,
-                               FmhaBwdWarpTile3,
-                               typename FmhaBwdBlockTile<96>::gemm02_warps,
-                               FmhaBwdWarpTile2,
-                               typename FmhaBwdBlockTile<96>::gemm13_warps,
-                               FmhaBwdWarpTile3,
-                               typename FmhaBwdBlockTile<96>::gemm4_warps,
-                               FmhaBwdWarpTile2> {};
+                              typename FmhaBwdBlockTile<96>::tile_lengths,
+                              typename FmhaBwdBlockTile<96>::gemm02_warps,
+                              FmhaBwdWarpTile2,
+                              typename FmhaBwdBlockTile<96>::gemm13_warps,
+                              FmhaBwdWarpTile3,
+                              typename FmhaBwdBlockTile<96>::gemm02_warps,
+                              FmhaBwdWarpTile2,
+                              typename FmhaBwdBlockTile<96>::gemm13_warps,
+                              FmhaBwdWarpTile3,
+                              typename FmhaBwdBlockTile<96>::gemm4_warps,
+                              FmhaBwdWarpTile2> {};
 
 template <>
 struct FmhaBwdShape<128> : ck_tile::TileFmhaBwdShape<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 677accd3d8..f59e886cf8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -107,7 +107,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
-            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddimForGemmN == 0);
+            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
         const bool pad_headdim_v =
             !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddimForGemmN == 0);
 
@@ -167,8 +167,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
       constexpr ck_tile::index_t kBlockSize = 128;
 
       const bool pad_seqlen_q = true;
-      const bool pad_headdim_q =
-          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+      const bool pad_headdim_q = !(param.K % MaxK == 0);
 
       BOOL_SWITCH_2(
           pad_seqlen_q, kPadSeqLenQ, pad_headdim_q, kPadHeadDimQ, [&] {
@@ -187,7 +186,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
                     kBlockSize,
                     64, // kM0
                     1, // kN0, no use
-                    FmhaBwdShape<MaxK>::kQKHeaddim,
+                    MaxK, // kQKHeaddim
                     true, // kIsGroupMode
                     false, // kIsDeterministic
                     FmhaBwdConvertQGradTraits_>;

From 5bb0542aca7fb924addd2f4a03185d48ca37ff6c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Oct 2024 03:50:00 +0000
Subject: [PATCH 679/837] Synchronize the change in ck-tile to replace
 kVHeaddimForGemmN by kVHeaddim and kDoDvHeaddim

---
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 101 +++++++++---------
 .../hip_fmha/ck_tiled_fmha_bwd_setting.h      |   2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 100 +++++++++--------
 4 files changed, 100 insertions(+), 105 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index b6dfccf106..68321f58f5 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit b6dfccf1064ff14401ef0947b2af9664b3c3a15d
+Subproject commit 68321f58f541d6b0735902a0951aebe4c1874f25
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index f86d234416..b6b91b55cd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -60,8 +60,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
       constexpr ck_tile::index_t kBlockSize = 64;
 
       const bool pad_seqlen_q = !(param.M % kBlockSize == 0);
-      const bool pad_headdim_v =
-          !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+      const bool pad_headdim_v = !(param.Kv % MaxK == 0);
 
       BOOL_SWITCH_2(
           pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
@@ -78,7 +77,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
                     typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
                     typename FmhaBwdTypeConfig<ScalarType>::DDataType,
                     kBlockSize,
-                    FmhaBwdShape<MaxK>::kVHeaddim,
+                    MaxK, // kVHeaddim
                     false, // kIsGroupMode
                     FmhaOGradDotOTraits_>;
 
@@ -112,57 +111,55 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
         const bool pad_headdim_q =
             !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
         const bool pad_headdim_v =
-            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddimForGemmN == 0);
-
-        // usually headdim_q and headdim_v are same, consider them together
-        // to determine whether to do padding saving some compiling time
-        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-        BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
-          using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
-              kPadSeqLenQ,
-              kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ
-              kPadHeadDim, // kPadHeadDimV
-              kBiasEnum,
-              kHasBiasGrad,
-              false, // kStoreLSE
-              false, // place-holder for kHasDropout, not used actually
-              false, // kDoFp8StaticQuant place-holder
-              occupancy>;
-
-          using FmhaBwdPipelineProblem =
-              FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
-
-          constexpr auto FmhaBwdPipelineEnum_ =
-              FmhaBwdPipelineEnumSelector<MaxK, kPadHeadDim, kPadHeadDim>::
-                  value;
-
-          using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
-              FmhaBwdPipelineEnum_,
-              FmhaBwdPipelineProblem>::pipeline;
-
-          using FmhaBwdKGradEpilogue_ =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                  typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-                  kPadSeqLenK,
-                  kPadHeadDim>>;
+            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
-          using FmhaBwdVGradEpilogue_ =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                  typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
+                  kPadSeqLenQ,
                   kPadSeqLenK,
-                  kPadHeadDim>>;
-
-          using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
-              FmhaBwdPipeline_,
-              FmhaBwdKGradEpilogue_,
-              FmhaBwdVGradEpilogue_>;
-
-          RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
-        });
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  kHasBiasGrad,
+                  false, // kStoreLSE
+                  false, // place-holder for kHasDropout, not used actually
+                  false, // kDoFp8StaticQuant place-holder
+                  occupancy>;
+
+              using FmhaBwdPipelineProblem =
+                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+              constexpr auto FmhaBwdPipelineEnum_ = FmhaBwdPipelineEnumSelector<
+                  MaxK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV>::value;
+
+              using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
+                  FmhaBwdPipelineEnum_,
+                  FmhaBwdPipelineProblem>::pipeline;
+
+              using FmhaBwdKGradEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                      typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+                      kPadSeqLenK,
+                      kPadHeadDimQ>>;
+
+              using FmhaBwdVGradEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+                      kPadSeqLenK,
+                      kPadHeadDimV>>;
+
+              using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
+                  FmhaBwdPipeline_,
+                  FmhaBwdKGradEpilogue_,
+                  FmhaBwdVGradEpilogue_>;
+
+              RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
+            });
       });
     };
     if constexpr (NeedConvertGradQ) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index cc73f8787e..0ae174a070 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -72,7 +72,7 @@ struct FmhaBwdBlockTile<64> {
 
 template <>
 struct FmhaBwdBlockTile<96> {
-  using tile_lengths = ck_tile::sequence<16, 128, 96, 16, 96, 16, 32, 128, 96>;
+  using tile_lengths = ck_tile::sequence<16, 128, 96, 16, 96, 16, 32, 128, 128>;
   using gemm02_warps = ck_tile::sequence<1, 4, 1>; // default for gemm0/gemm2
   using gemm13_warps = ck_tile::sequence<4, 1, 1>; // default for gemm1/gemm3
   using gemm4_warps = ck_tile::sequence<1, 4, 1>; // default for gemm4
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index f59e886cf8..73b6422b3b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -58,7 +58,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
   static void Run(GroupedBackwardParams& param, hipStream_t stream) {
     {
       constexpr ck_tile::index_t kBlockSize = 64;
-      bool pad_headdim_v = !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+      bool pad_headdim_v = !(param.Kv % MaxK == 0);
 
       constexpr bool kPadSeqLenQ = true;
 
@@ -74,7 +74,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
                 typename FmhaBwdTypeConfig<ScalarType>::OGradDataType,
                 typename FmhaBwdTypeConfig<ScalarType>::DDataType,
                 kBlockSize,
-                FmhaBwdShape<MaxK>::kVHeaddim,
+                MaxK, // kVHeaddim
                 true, // kIsGroupMode
                 FmhaOGradDotOTraits_>;
 
@@ -109,57 +109,55 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
         const bool pad_headdim_q =
             !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
         const bool pad_headdim_v =
-            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddimForGemmN == 0);
-
-        // usually headdim_q and headdim_v are same, consider them together
-        // to determine whether to do padding saving some compiling time
-        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-        BOOL_SWITCH(pad_headdim, kPadHeadDim, [&] {
-          using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
-              kPadSeqLenQ,
-              kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ
-              kPadHeadDim, // kPadHeadDimV
-              kBiasEnum,
-              kHasBiasGrad,
-              false, // kStoreLSE
-              false, // place-holder for kHasDropout, not used actually
-              false, // kDoFp8StaticQuant place-holder
-              occupancy>;
-
-          using FmhaBwdPipelineProblem =
-              FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
-
-          constexpr auto FmhaBwdPipelineEnum_ =
-              FmhaBwdPipelineEnumSelector<MaxK, kPadHeadDim, kPadHeadDim>::
-                  value;
-
-          using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
-              FmhaBwdPipelineEnum_,
-              FmhaBwdPipelineProblem>::pipeline;
-
-          using FmhaBwdKGradEpilogue_ =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                  typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-                  kPadSeqLenK,
-                  kPadHeadDim>>;
+            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
 
-          using FmhaBwdVGradEpilogue_ =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                  typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+        BOOL_SWITCH_2(
+            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+              using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
+                  kPadSeqLenQ,
                   kPadSeqLenK,
-                  kPadHeadDim>>;
-
-          using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
-              FmhaBwdPipeline_,
-              FmhaBwdKGradEpilogue_,
-              FmhaBwdVGradEpilogue_>;
-
-          RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
-        });
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  kHasBiasGrad,
+                  false, // kStoreLSE
+                  false, // place-holder for kHasDropout, not used actually
+                  false, // kDoFp8StaticQuant place-holder
+                  occupancy>;
+
+              using FmhaBwdPipelineProblem =
+                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+              constexpr auto FmhaBwdPipelineEnum_ = FmhaBwdPipelineEnumSelector<
+                  MaxK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV>::value;
+
+              using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
+                  FmhaBwdPipelineEnum_,
+                  FmhaBwdPipelineProblem>::pipeline;
+
+              using FmhaBwdKGradEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                      typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+                      kPadSeqLenK,
+                      kPadHeadDimQ>>;
+
+              using FmhaBwdVGradEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+                      kPadSeqLenK,
+                      kPadHeadDimV>>;
+
+              using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
+                  FmhaBwdPipeline_,
+                  FmhaBwdKGradEpilogue_,
+                  FmhaBwdVGradEpilogue_>;
+
+              RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
+            });
       });
     };
 

From c5b594dc37ab24b687124987eda98fec91226285 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Oct 2024 03:54:28 +0000
Subject: [PATCH 680/837] Simplify FmhaBwdPipelineEnumSelector templates

---
 .../attention/hip_fmha/ck_tiled_fmha_batched_backward.h     | 6 ++----
 .../csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h     | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_backward.h     | 6 ++----
 3 files changed, 5 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index b6b91b55cd..42f8acac4e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -130,10 +130,8 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
               using FmhaBwdPipelineProblem =
                   FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
 
-              constexpr auto FmhaBwdPipelineEnum_ = FmhaBwdPipelineEnumSelector<
-                  MaxK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV>::value;
+              constexpr auto FmhaBwdPipelineEnum_ =
+                  FmhaBwdPipelineEnumSelector<MaxK>::value;
 
               using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
                   FmhaBwdPipelineEnum_,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
index 0ae174a070..ccf6b1bdc2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_bwd_setting.h
@@ -173,7 +173,7 @@ struct FmhaBwdShape<256> : ck_tile::TileFmhaBwdShape<
                                typename FmhaBwdBlockTile<256>::gemm4_warps,
                                FmhaBwdWarpTile2> {};
 
-template <ck_tile::index_t MaxK, bool kPadHeadDimQK, bool kPadHeadDimV>
+template <ck_tile::index_t MaxK>
 struct FmhaBwdPipelineEnumSelector {
   static constexpr ck_tile::BlockFmhaBwdPipelineEnum value =
       ck_tile::BlockFmhaBwdPipelineEnum::KRKTRVR_IGLP;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 73b6422b3b..22eccb579b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -128,10 +128,8 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
               using FmhaBwdPipelineProblem =
                   FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
 
-              constexpr auto FmhaBwdPipelineEnum_ = FmhaBwdPipelineEnumSelector<
-                  MaxK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV>::value;
+              constexpr auto FmhaBwdPipelineEnum_ =
+                  FmhaBwdPipelineEnumSelector<MaxK>::value;
 
               using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
                   FmhaBwdPipelineEnum_,

From 723c420273e51bf317718b6f02bf8b167b92a0bd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 14 Oct 2024 10:17:39 +0000
Subject: [PATCH 681/837] Synchronize to latest ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 68321f58f5..a50ba69e8f 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 68321f58f541d6b0735902a0951aebe4c1874f25
+Subproject commit a50ba69e8f44101115446a2975fbe729ab8d5a34

From a15e55988167964b50030c160fa846c1b102036f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 15 Oct 2024 14:20:11 +0000
Subject: [PATCH 682/837] Replace TileFmhaBwdTraits by TileFmhaTraits

---
 third_party/composable_kernel_tiled                             | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h    | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h    | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index a50ba69e8f..8ad0aab11f 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit a50ba69e8f44101115446a2975fbe729ab8d5a34
+Subproject commit 8ad0aab11f7bd358cdb3afa43b4e1ee3bd9903aa
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 42f8acac4e..30d69691d4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -115,7 +115,7 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
 
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
+              using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
                   kPadHeadDimQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 22eccb579b..6f2fe1eff9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -113,7 +113,7 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
 
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaBwdTraits_ = ck_tile::TileFmhaBwdTraits<
+              using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
                   kPadSeqLenQ,
                   kPadSeqLenK,
                   kPadHeadDimQ,

From 277338363c9494cce6803bddec7ebdfd33c732f4 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 16 Oct 2024 13:48:30 +0000
Subject: [PATCH 683/837] Relocate to ck_tile develop branch and synchronize to
 latest commits

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 7bd53f570a..176104791f 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = bwd_hd96_improve 
+	branch = develop
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 8ad0aab11f..14c3cfb1c6 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 8ad0aab11f7bd358cdb3afa43b4e1ee3bd9903aa
+Subproject commit 14c3cfb1c6c67a34074fc3ee802ecb29c0e20d85

From f94fdfd942f1161e5d2e776e2334540284c4cec5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 16 Oct 2024 15:58:11 +0000
Subject: [PATCH 684/837] Remove using splitkv from fmha-fwd training path

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 32 ++++---------------
 ...ched_forward_splitkv_dispatch_discarded.h} |  0
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 32 ++++---------------
 ...uped_forward_splitkv_dispatch_discarded.h} |  0
 4 files changed, 12 insertions(+), 52 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_batched_forward_splitkv_dispatch.h => ck_tiled_fmha_batched_forward_splitkv_dispatch_discarded.h} (100%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_grouped_forward_splitkv_dispatch.h => ck_tiled_fmha_grouped_forward_splitkv_dispatch_discarded.h} (100%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index a725085661..a2f76ccb40 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -7,7 +7,6 @@
 #pragma once
 
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
-#include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -18,29 +17,10 @@ template <
 void run_batched_forward_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support dropout
-  if constexpr (!kHasDropout) {
-#ifndef FMHA_FWD_SPLITKV_NOT_USED
-    if (param.use_split_kv)
-      batched_forward_splitkv_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          MaxK>::Run(param, stream);
-    else
-#endif
-      batched_forward_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
-  } else {
-    batched_forward_causalmask_bias_dropout_dispatch<
-        ScalarType,
-        kHasCausalMask,
-        kHasBias,
-        kHasDropout,
-        MaxK>::Run(param, stream);
-  }
+  batched_forward_causalmask_bias_dropout_dispatch<
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
+      kHasDropout,
+      MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch_discarded.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch_discarded.h
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 61545ac7d3..af6813be26 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -7,7 +7,6 @@
 #pragma once
 
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
-#include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -18,29 +17,10 @@ template <
 void run_grouped_forward_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support dropout
-  if constexpr (!kHasDropout) {
-#ifndef FMHA_FWD_SPLITKV_NOT_USED
-    if (param.use_split_kv)
-      grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          MaxK>::Run(param, stream);
-    else
-#endif
-      grouped_forward_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
-  } else {
-    grouped_forward_causalmask_bias_dropout_dispatch<
-        ScalarType,
-        kHasCausalMask,
-        kHasBias,
-        kHasDropout,
-        MaxK>::Run(param, stream);
-  }
+  grouped_forward_causalmask_bias_dropout_dispatch<
+      ScalarType,
+      kHasCausalMask,
+      kHasBias,
+      kHasDropout,
+      MaxK>::Run(param, stream);
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch_discarded.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch_discarded.h

From 4b4327ecf9e9268e7437230c269ce65fb25da713 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 17 Oct 2024 07:19:07 +0000
Subject: [PATCH 685/837] Revert "Remove using splitkv from fmha-fwd training
 path"

This reverts commit f94fdfd942f1161e5d2e776e2334540284c4cec5.
---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 32 +++++++++++++++----
 ...d_fmha_batched_forward_splitkv_dispatch.h} |  0
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 32 +++++++++++++++----
 ...d_fmha_grouped_forward_splitkv_dispatch.h} |  0
 4 files changed, 52 insertions(+), 12 deletions(-)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_batched_forward_splitkv_dispatch_discarded.h => ck_tiled_fmha_batched_forward_splitkv_dispatch.h} (100%)
 rename xformers/csrc/attention/hip_fmha/{ck_tiled_fmha_grouped_forward_splitkv_dispatch_discarded.h => ck_tiled_fmha_grouped_forward_splitkv_dispatch.h} (100%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index a2f76ccb40..a725085661 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
+#include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -17,10 +18,29 @@ template <
 void run_batched_forward_causalmask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  batched_forward_causalmask_bias_dropout_dispatch<
-      ScalarType,
-      kHasCausalMask,
-      kHasBias,
-      kHasDropout,
-      MaxK>::Run(param, stream);
+  // currently split-kv implementation does not support dropout
+  if constexpr (!kHasDropout) {
+#ifndef FMHA_FWD_SPLITKV_NOT_USED
+    if (param.use_split_kv)
+      batched_forward_splitkv_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          MaxK>::Run(param, stream);
+    else
+#endif
+      batched_forward_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+  } else {
+    batched_forward_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        kHasDropout,
+        MaxK>::Run(param, stream);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch_discarded.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch_discarded.h
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index af6813be26..61545ac7d3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
+#include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
 
 template <
     typename ScalarType,
@@ -17,10 +18,29 @@ template <
 void run_grouped_forward_causalmask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  grouped_forward_causalmask_bias_dropout_dispatch<
-      ScalarType,
-      kHasCausalMask,
-      kHasBias,
-      kHasDropout,
-      MaxK>::Run(param, stream);
+  // currently split-kv implementation does not support dropout
+  if constexpr (!kHasDropout) {
+#ifndef FMHA_FWD_SPLITKV_NOT_USED
+    if (param.use_split_kv)
+      grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          MaxK>::Run(param, stream);
+    else
+#endif
+      grouped_forward_causalmask_bias_dropout_dispatch<
+          ScalarType,
+          kHasCausalMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+  } else {
+    grouped_forward_causalmask_bias_dropout_dispatch<
+        ScalarType,
+        kHasCausalMask,
+        kHasBias,
+        kHasDropout,
+        MaxK>::Run(param, stream);
+  }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch_discarded.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
similarity index 100%
rename from xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch_discarded.h
rename to xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h

From bc107adaeb068e669389ad98ee76f0b59a828921 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 17 Oct 2024 13:24:35 +0000
Subject: [PATCH 686/837] Add kMaxSplits=8 support

---
 .../attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h   | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
index 0d19f398b3..eb039651a6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
@@ -11,7 +11,10 @@
 
 #define FMHA_FWD_NUM_KV_SPLITS_SWITCH(NUM_SPLITS, CONST_NAME, ...) \
   [&] {                                                            \
-    if (NUM_SPLITS <= 16) {                                        \
+    if (NUM_SPLITS <= 8) {                                         \
+      constexpr ck_tile::index_t CONST_NAME = 3;                   \
+      __VA_ARGS__();                                               \
+    } else if (NUM_SPLITS <= 16) {                                 \
       constexpr ck_tile::index_t CONST_NAME = 4;                   \
       __VA_ARGS__();                                               \
     } else if (NUM_SPLITS <= 32) {                                 \

From 91e01f9a6569c6a33676490f24b9d63e619d8810 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 18 Oct 2024 08:42:08 +0000
Subject: [PATCH 687/837] Add tile settings for splitkv kernel

---
 ...ed_fmha_batched_forward_splitkv_dispatch.h |  2 +-
 ...iled_fmha_batched_infer_splitkv_dispatch.h |  2 +-
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 76 +++++++++++++++++++
 ...ed_fmha_grouped_forward_splitkv_dispatch.h |  2 +-
 ...iled_fmha_grouped_infer_splitkv_dispatch.h |  2 +-
 5 files changed, 80 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 4c7ba7e486..0d2a361a06 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -36,7 +36,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdShape<MaxK>,
+          FmhaFwdSplitKVShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index d3ddbf0cc4..9f4a3e1c10 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -36,7 +36,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdShape<MaxK>,
+          FmhaFwdSplitKVShape<MaxK>,
           false, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index ddd91a6864..6e31b38ecf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -118,3 +118,79 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                typename FmhaFwdBlockTile<256>::gemm1_warps,
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
+
+template <ck_tile::index_t MaxK>
+struct FmhaFwdSplitKVBlockTile;
+
+template <>
+struct FmhaFwdSplitKVBlockTile<32> {
+  using type = ck_tile::sequence<64, 64, 16, 32, 32, 32>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVBlockTile<64> {
+  using type = ck_tile::sequence<64, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVBlockTile<128> {
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVBlockTile<256> {
+  using type = ck_tile::sequence<64, 128, 32, 256, 32, 256>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+using FmhaFwdSplitKVWarpTile = ck_tile::sequence<16, 16, 16>;
+
+template <ck_tile::index_t MaxK>
+struct FmhaFwdSplitKVShape;
+
+template <>
+struct FmhaFwdSplitKVShape<32>
+    : ck_tile::TileFmhaShape<
+          typename FmhaFwdSplitKVBlockTile<32>::type,
+          typename FmhaFwdSplitKVBlockTile<32>::gemm0_warps,
+          FmhaFwdSplitKVWarpTile,
+          typename FmhaFwdSplitKVBlockTile<32>::gemm1_warps,
+          FmhaFwdSplitKVWarpTile,
+          IsVLayoutRowMajor> {};
+
+template <>
+struct FmhaFwdSplitKVShape<64>
+    : ck_tile::TileFmhaShape<
+          typename FmhaFwdSplitKVBlockTile<64>::type,
+          typename FmhaFwdSplitKVBlockTile<64>::gemm0_warps,
+          FmhaFwdSplitKVWarpTile,
+          typename FmhaFwdSplitKVBlockTile<64>::gemm1_warps,
+          FmhaFwdSplitKVWarpTile,
+          IsVLayoutRowMajor> {};
+
+template <>
+struct FmhaFwdSplitKVShape<128>
+    : ck_tile::TileFmhaShape<
+          typename FmhaFwdSplitKVBlockTile<128>::type,
+          typename FmhaFwdSplitKVBlockTile<128>::gemm0_warps,
+          FmhaFwdSplitKVWarpTile,
+          typename FmhaFwdSplitKVBlockTile<128>::gemm1_warps,
+          FmhaFwdSplitKVWarpTile,
+          IsVLayoutRowMajor> {};
+
+template <>
+struct FmhaFwdSplitKVShape<256>
+    : ck_tile::TileFmhaShape<
+          typename FmhaFwdSplitKVBlockTile<256>::type,
+          typename FmhaFwdSplitKVBlockTile<256>::gemm0_warps,
+          FmhaFwdSplitKVWarpTile,
+          typename FmhaFwdSplitKVBlockTile<256>::gemm1_warps,
+          FmhaFwdSplitKVWarpTile,
+          IsVLayoutRowMajor> {};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 0207868201..9157ea3a94 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -36,7 +36,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdShape<MaxK>,
+          FmhaFwdSplitKVShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 1ccea42cf8..0f0e88b9bf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -36,7 +36,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdShape<MaxK>,
+          FmhaFwdSplitKVShape<MaxK>,
           true, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;

From 139334c104b92ce0302f81fec40b5901ee27af89 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 20 Oct 2024 09:40:51 +0000
Subject: [PATCH 688/837] Use WarpTile 16x16x16 for fmha-fwd splitkv

---
 .../ck_tiled_fmha_batched_forward_splitkv_dispatch.h      | 6 +++---
 .../ck_tiled_fmha_batched_infer_splitkv_dispatch.h        | 6 +++---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h   | 2 +-
 .../hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h         | 8 ++++----
 .../ck_tiled_fmha_grouped_forward_splitkv_dispatch.h      | 6 +++---
 .../ck_tiled_fmha_grouped_infer_splitkv_dispatch.h        | 6 +++---
 6 files changed, 17 insertions(+), 17 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 0d2a361a06..68f6ab9410 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -65,7 +65,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaShape = FmhaFwdShape<MaxK>;
+        using FmhaShape = FmhaFwdSplitKVShape<MaxK>;
         using FmhaTilePartitioner =
             ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
         constexpr ck_tile::index_t occupancy = -1;
@@ -132,8 +132,8 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
     }
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
+      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 9f4a3e1c10..57563f0560 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -65,7 +65,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaShape = FmhaFwdShape<MaxK>;
+        using FmhaShape = FmhaFwdSplitKVShape<MaxK>;
         using FmhaTilePartitioner =
             ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
         constexpr ck_tile::index_t occupancy = -1;
@@ -132,8 +132,8 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
     };
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
+      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 6e31b38ecf..a9f28f4eba 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -124,7 +124,7 @@ struct FmhaFwdSplitKVBlockTile;
 
 template <>
 struct FmhaFwdSplitKVBlockTile<32> {
-  using type = ck_tile::sequence<64, 64, 16, 32, 32, 32>;
+  using type = ck_tile::sequence<32, 64, 16, 32, 32, 32>;
   using gemm0_warps = ck_tile::sequence<2, 1, 1>;
   using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 7ead061809..83bbdad651 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -20,13 +20,13 @@ static int get_num_kv_splits_heuristic(
   int mtile_size;
 
   if (max_headdim <= 32) {
-    mtile_size = FmhaFwdShape<32>::kM0;
+    mtile_size = FmhaFwdSplitKVShape<32>::kM0;
   } else if (max_headdim <= 64) {
-    mtile_size = FmhaFwdShape<64>::kM0;
+    mtile_size = FmhaFwdSplitKVShape<64>::kM0;
   } else if (max_headdim <= 128) {
-    mtile_size = FmhaFwdShape<128>::kM0;
+    mtile_size = FmhaFwdSplitKVShape<128>::kM0;
   } else {
-    mtile_size = FmhaFwdShape<256>::kM0;
+    mtile_size = FmhaFwdSplitKVShape<256>::kM0;
   };
 
   int num_SMs = get_number_of_cu() * 2;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 9157ea3a94..9e6761c75f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -65,7 +65,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+        using FmhaFwdShape_ = FmhaFwdSplitKVShape<MaxK>;
         using FmhaTilePartitioner =
             ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaFwdShape_>;
 
@@ -122,8 +122,8 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
     };
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
+      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 0f0e88b9bf..190d71e33c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -65,7 +65,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaShape = FmhaFwdShape<MaxK>;
+        using FmhaShape = FmhaFwdSplitKVShape<MaxK>;
         using FmhaTilePartitioner =
             ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
 
@@ -120,8 +120,8 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
     };
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdShape<MaxK>::kN1 / 2;
+      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;

From c553f1ae38dd62f482e423393338c4c8eb200020 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 20 Oct 2024 15:18:54 +0000
Subject: [PATCH 689/837] Add MaxSeqlenQ as parameter for creating tile shape
 settings

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  18 ++-
 ...ed_fmha_batched_forward_splitkv_dispatch.h |  26 ++--
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  18 ++-
 ...iled_fmha_batched_infer_splitkv_dispatch.h |  26 ++--
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 130 ++++++++++++------
 .../ck_tiled_fmha_fwd_splitkv_selector.h      |  25 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  18 ++-
 ...ed_fmha_grouped_forward_splitkv_dispatch.h |  21 +--
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  18 ++-
 ...iled_fmha_grouped_infer_splitkv_dispatch.h |  21 +--
 .../hip_fmha/ck_tiled_fmha_seqlen_q_switch.h  |  21 +++
 11 files changed, 224 insertions(+), 118 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_seqlen_q_switch.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index a725085661..cbf9845bae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -8,6 +8,7 @@
 
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
 #include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -21,13 +22,16 @@ void run_batched_forward_causalmask_bias_dropout_dispatch(
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
-    if (param.use_split_kv)
-      batched_forward_splitkv_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          MaxK>::Run(param, stream);
-    else
+    if (param.use_split_kv) {
+      FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+        batched_forward_splitkv_causalmask_bias_dropout_dispatch<
+            ScalarType,
+            kHasCausalMask,
+            kHasBias,
+            MaxK,
+            MaxSeqlenQ>::Run(param, stream);
+      });
+    } else
 #endif
       batched_forward_causalmask_bias_dropout_dispatch<
           ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 68f6ab9410..89ace41ebd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -21,7 +21,8 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MaxSeqlenQ>
 struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
   template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
   using FmhaFwdSplitKVPipelineProblemTemp =
@@ -36,7 +37,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdSplitKVShape<MaxK>,
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           false, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
@@ -65,25 +66,27 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaShape = FmhaFwdSplitKVShape<MaxK>;
+        using FmhaTileShape =
+            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
         using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
         constexpr ck_tile::index_t occupancy = -1;
 
         constexpr auto kBiasEnum = kHasBias
             ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
-        const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-        const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+        const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+        const bool pad_headdim_q =
+            !(param.K % FmhaTileShape::kK0BlockLength == 0);
 
         // usually headdim_q and headdim_v are same, consider them together to
         // determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         const bool has_uneven_splits =
-            !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
+            !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
 
         BOOL_SWITCH_3(
             pad_seqlen_q,
@@ -132,8 +135,11 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
     }
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index ac34efb7f5..20042fd4f5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -8,6 +8,7 @@
 
 #include "ck_tiled_fmha_batched_infer_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_dispatch.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -21,13 +22,16 @@ void run_batched_infer_causalmask_bias_dropout_dispatch(
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
-    if (param.use_split_kv)
-      batched_infer_splitkv_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          MaxK>::Run(param, stream);
-    else
+    if (param.use_split_kv) {
+      FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+        batched_infer_splitkv_causalmask_bias_dropout_dispatch<
+            ScalarType,
+            kHasCausalMask,
+            kHasBias,
+            MaxK,
+            MaxSeqlenQ>::Run(param, stream);
+      });
+    } else
 #endif
       batched_infer_causalmask_bias_dropout_dispatch<
           ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 57563f0560..fe2fb62ba6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -21,7 +21,8 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MaxSeqlenQ>
 struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
   template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
   using FmhaFwdSplitKVPipelineProblemTemp =
@@ -36,7 +37,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdSplitKVShape<MaxK>,
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           false, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
@@ -65,25 +66,27 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaShape = FmhaFwdSplitKVShape<MaxK>;
+        using FmhaTileShape =
+            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
         using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
         constexpr ck_tile::index_t occupancy = -1;
 
         constexpr auto kBiasEnum = kHasBias
             ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
-        const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-        const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+        const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+        const bool pad_headdim_q =
+            !(param.K % FmhaTileShape::kK0BlockLength == 0);
 
         // usually headdim_q and headdim_v are same, consider them together to
         // determine whether to do padding saving some compiling time
         const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
         const bool has_uneven_splits =
-            !(param.N % (param.num_kv_splits * FmhaShape::kN0) == 0);
+            !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
 
         BOOL_SWITCH_3(
             pad_seqlen_q,
@@ -132,8 +135,11 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
     };
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index a9f28f4eba..50e6b32917 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -119,78 +119,118 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
 
-template <ck_tile::index_t MaxK>
+template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ>
 struct FmhaFwdSplitKVBlockTile;
 
-template <>
-struct FmhaFwdSplitKVBlockTile<32> {
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ> {
   using type = ck_tile::sequence<32, 64, 16, 32, 32, 32>;
   using gemm0_warps = ck_tile::sequence<2, 1, 1>;
   using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
 
+template struct FmhaFwdSplitKVBlockTile<32, 32>;
+template struct FmhaFwdSplitKVBlockTile<32, 64>;
+
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ> {
+  using type = ck_tile::sequence<32, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<64, 32>;
+template struct FmhaFwdSplitKVBlockTile<64, 64>;
+
 template <>
-struct FmhaFwdSplitKVBlockTile<64> {
-  using type = ck_tile::sequence<64, 64, 32, 64, 32, 64>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+struct FmhaFwdSplitKVBlockTile<128, 32> {
+  using type = ck_tile::sequence<32, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
 
 template <>
-struct FmhaFwdSplitKVBlockTile<128> {
+struct FmhaFwdSplitKVBlockTile<128, 64> {
   using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
-template <>
-struct FmhaFwdSplitKVBlockTile<256> {
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ> {
   using type = ck_tile::sequence<64, 128, 32, 256, 32, 256>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
+template struct FmhaFwdSplitKVBlockTile<256, 32>;
+template struct FmhaFwdSplitKVBlockTile<256, 64>;
+
 using FmhaFwdSplitKVWarpTile = ck_tile::sequence<16, 16, 16>;
 
-template <ck_tile::index_t MaxK>
+template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ>
 struct FmhaFwdSplitKVShape;
 
-template <>
-struct FmhaFwdSplitKVShape<32>
-    : ck_tile::TileFmhaShape<
-          typename FmhaFwdSplitKVBlockTile<32>::type,
-          typename FmhaFwdSplitKVBlockTile<32>::gemm0_warps,
-          FmhaFwdSplitKVWarpTile,
-          typename FmhaFwdSplitKVBlockTile<32>::gemm1_warps,
-          FmhaFwdSplitKVWarpTile,
-          IsVLayoutRowMajor> {};
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVShape<32, MaxSeqlenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ>::type,
+      typename FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
 
-template <>
-struct FmhaFwdSplitKVShape<64>
-    : ck_tile::TileFmhaShape<
-          typename FmhaFwdSplitKVBlockTile<64>::type,
-          typename FmhaFwdSplitKVBlockTile<64>::gemm0_warps,
-          FmhaFwdSplitKVWarpTile,
-          typename FmhaFwdSplitKVBlockTile<64>::gemm1_warps,
-          FmhaFwdSplitKVWarpTile,
-          IsVLayoutRowMajor> {};
+template struct FmhaFwdSplitKVShape<32, 32>;
+template struct FmhaFwdSplitKVShape<32, 64>;
+
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVShape<64, MaxSeqlenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::type,
+      typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<64, 32>;
+template struct FmhaFwdSplitKVShape<64, 64>;
 
 template <>
-struct FmhaFwdSplitKVShape<128>
-    : ck_tile::TileFmhaShape<
-          typename FmhaFwdSplitKVBlockTile<128>::type,
-          typename FmhaFwdSplitKVBlockTile<128>::gemm0_warps,
-          FmhaFwdSplitKVWarpTile,
-          typename FmhaFwdSplitKVBlockTile<128>::gemm1_warps,
-          FmhaFwdSplitKVWarpTile,
-          IsVLayoutRowMajor> {};
+struct FmhaFwdSplitKVShape<128, 32> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<128, 32>::type,
+      typename FmhaFwdSplitKVBlockTile<128, 32>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<128, 32>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
 
 template <>
-struct FmhaFwdSplitKVShape<256>
-    : ck_tile::TileFmhaShape<
-          typename FmhaFwdSplitKVBlockTile<256>::type,
-          typename FmhaFwdSplitKVBlockTile<256>::gemm0_warps,
-          FmhaFwdSplitKVWarpTile,
-          typename FmhaFwdSplitKVBlockTile<256>::gemm1_warps,
-          FmhaFwdSplitKVWarpTile,
-          IsVLayoutRowMajor> {};
+struct FmhaFwdSplitKVShape<128, 64> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<128, 64>::type,
+      typename FmhaFwdSplitKVBlockTile<128, 64>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<128, 64>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVShape<256, MaxSeqlenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ>::type,
+      typename FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<256, 32>;
+template struct FmhaFwdSplitKVShape<256, 64>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 83bbdad651..6f7230e0a4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -9,6 +9,7 @@
 #include <cmath>
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 static int get_num_kv_splits_heuristic(
     int num_batches,
@@ -19,15 +20,21 @@ static int get_num_kv_splits_heuristic(
   // m_tile size is the size for dividing the seqlen_q
   int mtile_size;
 
-  if (max_headdim <= 32) {
-    mtile_size = FmhaFwdSplitKVShape<32>::kM0;
-  } else if (max_headdim <= 64) {
-    mtile_size = FmhaFwdSplitKVShape<64>::kM0;
-  } else if (max_headdim <= 128) {
-    mtile_size = FmhaFwdSplitKVShape<128>::kM0;
-  } else {
-    mtile_size = FmhaFwdSplitKVShape<256>::kM0;
-  };
+  FMHA_FWD_SEQLEN_Q_SWITCH(max_seqlen_q, MaxSeqlenQ, [&] {
+    if (max_headdim <= 32) {
+      using FmhaTileShape = typename FmhaFwdSplitKVShape<32, MaxSeqlenQ>::Type;
+      mtile_size = FmhaTileShape::kM0;
+    } else if (max_headdim <= 64) {
+      using FmhaTileShape = typename FmhaFwdSplitKVShape<64, MaxSeqlenQ>::Type;
+      mtile_size = FmhaTileShape::kM0;
+    } else if (max_headdim <= 128) {
+      using FmhaTileShape = typename FmhaFwdSplitKVShape<128, MaxSeqlenQ>::Type;
+      mtile_size = FmhaTileShape::kM0;
+    } else {
+      using FmhaTileShape = typename FmhaFwdSplitKVShape<256, MaxSeqlenQ>::Type;
+      mtile_size = FmhaTileShape::kM0;
+    };
+  });
 
   int num_SMs = get_number_of_cu() * 2;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 61545ac7d3..6fc55036c1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -8,6 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
 #include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -21,13 +22,16 @@ void run_grouped_forward_causalmask_bias_dropout_dispatch(
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
-    if (param.use_split_kv)
-      grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          MaxK>::Run(param, stream);
-    else
+    if (param.use_split_kv) {
+      FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+        grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
+            ScalarType,
+            kHasCausalMask,
+            kHasBias,
+            MaxK,
+            MaxSeqlenQ>::Run(param, stream);
+      });
+    } else
 #endif
       grouped_forward_causalmask_bias_dropout_dispatch<
           ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 9e6761c75f..8cb3d14e5a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -21,7 +21,8 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MaxSeqlenQ>
 struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
   template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
   using FmhaFwdSplitKVPipelineProblemTemp =
@@ -36,7 +37,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdSplitKVShape<MaxK>,
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           true, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
@@ -65,9 +66,10 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaFwdShape_ = FmhaFwdSplitKVShape<MaxK>;
+        using FmhaTileShape =
+            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
         using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaFwdShape_>;
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
         constexpr ck_tile::index_t occupancy = -1;
 
@@ -79,8 +81,8 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
-            !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+            !(param.K % FmhaTileShape::kK0BlockLength == 0);
+        const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
 
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
@@ -122,8 +124,11 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
     };
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 962626d838..62d8d9db62 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -8,6 +8,7 @@
 
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
 #include "ck_tiled_fmha_grouped_infer_splitkv_dispatch.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -21,13 +22,16 @@ void run_grouped_infer_causalmask_bias_dropout_dispatch(
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
-    if (param.use_split_kv)
-      grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
-          ScalarType,
-          kHasCausalMask,
-          kHasBias,
-          MaxK>::Run(param, stream);
-    else
+    if (param.use_split_kv) {
+      FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+        grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
+            ScalarType,
+            kHasCausalMask,
+            kHasBias,
+            MaxK,
+            MaxSeqlenQ>::Run(param, stream);
+      });
+    } else
 #endif
       grouped_infer_causalmask_bias_dropout_dispatch<
           ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 190d71e33c..9a6e9a9990 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -21,7 +21,8 @@ template <
     typename ScalarType,
     bool kHasCausalMask,
     bool kHasBias,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MaxSeqlenQ>
 struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
   template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
   using FmhaFwdSplitKVPipelineProblemTemp =
@@ -36,7 +37,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          FmhaFwdSplitKVShape<MaxK>,
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           true, // kIsGroupMode
           FmhaMask,
           FmhaFwdSplitKVTraits>;
@@ -65,9 +66,10 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
 
-        using FmhaShape = FmhaFwdSplitKVShape<MaxK>;
+        using FmhaTileShape =
+            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
         using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaShape>;
+            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
         constexpr ck_tile::index_t occupancy = -1;
 
@@ -78,8 +80,8 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
 
-        bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
-        bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+        bool pad_headdim_q = !(param.K % FmhaTileShape::kK0BlockLength == 0);
+        bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
 
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
@@ -120,8 +122,11 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
     };
 
     {
-      constexpr ck_tile::index_t kM0 = FmhaFwdSplitKVShape<MaxK>::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaFwdSplitKVShape<MaxK>::kN1 / 2;
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_seqlen_q_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_seqlen_q_switch.h
new file mode 100644
index 0000000000..c8356a0a89
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_seqlen_q_switch.h
@@ -0,0 +1,21 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+#include <stdexcept>
+
+#define FMHA_FWD_SEQLEN_Q_SWITCH(SEQLEN_Q, CONST_NAME, ...) \
+  [&] {                                                     \
+    if (SEQLEN_Q <= 32) {                                   \
+      constexpr ck_tile::index_t CONST_NAME = 32;           \
+      __VA_ARGS__();                                        \
+    } else {                                                \
+      constexpr ck_tile::index_t CONST_NAME = 64;           \
+      __VA_ARGS__();                                        \
+    }                                                       \
+  }()

From eb4586e9c8899fa6cb96de7bb710b589a3342286 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 20 Oct 2024 16:01:07 +0000
Subject: [PATCH 690/837] Update in FmhaFwdSplitKVShape

---
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 27 +++++++++----------
 1 file changed, 12 insertions(+), 15 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 50e6b32917..64cf5072c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -119,7 +119,7 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
 
-template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ>
+template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ = 0>
 struct FmhaFwdSplitKVBlockTile;
 
 template <ck_tile::index_t MaxSeqlenQ>
@@ -129,8 +129,7 @@ struct FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ> {
   using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
 
-template struct FmhaFwdSplitKVBlockTile<32, 32>;
-template struct FmhaFwdSplitKVBlockTile<32, 64>;
+template struct FmhaFwdSplitKVBlockTile<32>;
 
 template <ck_tile::index_t MaxSeqlenQ>
 struct FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ> {
@@ -139,8 +138,7 @@ struct FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ> {
   using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
 
-template struct FmhaFwdSplitKVBlockTile<64, 32>;
-template struct FmhaFwdSplitKVBlockTile<64, 64>;
+template struct FmhaFwdSplitKVBlockTile<64>;
 
 template <>
 struct FmhaFwdSplitKVBlockTile<128, 32> {
@@ -163,8 +161,7 @@ struct FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ> {
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
-template struct FmhaFwdSplitKVBlockTile<256, 32>;
-template struct FmhaFwdSplitKVBlockTile<256, 64>;
+template struct FmhaFwdSplitKVBlockTile<256>;
 
 using FmhaFwdSplitKVWarpTile = ck_tile::sequence<16, 16, 16>;
 
@@ -174,10 +171,10 @@ struct FmhaFwdSplitKVShape;
 template <ck_tile::index_t MaxSeqlenQ>
 struct FmhaFwdSplitKVShape<32, MaxSeqlenQ> {
   using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ>::type,
-      typename FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ>::gemm0_warps,
+      typename FmhaFwdSplitKVBlockTile<32>::type,
+      typename FmhaFwdSplitKVBlockTile<32>::gemm0_warps,
       FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ>::gemm1_warps,
+      typename FmhaFwdSplitKVBlockTile<32>::gemm1_warps,
       FmhaFwdSplitKVWarpTile,
       IsVLayoutRowMajor>;
 };
@@ -188,8 +185,8 @@ template struct FmhaFwdSplitKVShape<32, 64>;
 template <ck_tile::index_t MaxSeqlenQ>
 struct FmhaFwdSplitKVShape<64, MaxSeqlenQ> {
   using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::type,
-      typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::gemm0_warps,
+      typename FmhaFwdSplitKVBlockTile<64>::type,
+      typename FmhaFwdSplitKVBlockTile<64>::gemm0_warps,
       FmhaFwdSplitKVWarpTile,
       typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::gemm1_warps,
       FmhaFwdSplitKVWarpTile,
@@ -224,10 +221,10 @@ struct FmhaFwdSplitKVShape<128, 64> {
 template <ck_tile::index_t MaxSeqlenQ>
 struct FmhaFwdSplitKVShape<256, MaxSeqlenQ> {
   using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ>::type,
-      typename FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ>::gemm0_warps,
+      typename FmhaFwdSplitKVBlockTile<256>::type,
+      typename FmhaFwdSplitKVBlockTile<256>::gemm0_warps,
       FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ>::gemm1_warps,
+      typename FmhaFwdSplitKVBlockTile<256>::gemm1_warps,
       FmhaFwdSplitKVWarpTile,
       IsVLayoutRowMajor>;
 };

From 6b0fae2a7653b0107a93bf16be5078838e37161c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 21 Oct 2024 04:49:35 +0000
Subject: [PATCH 691/837] Synchronize to the latest commit of ck_tile for
 split-kv support

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 14c3cfb1c6..95e722a3b3 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 14c3cfb1c6c67a34074fc3ee802ecb29c0e20d85
+Subproject commit 95e722a3b357334fe05b0a7f217b60c591592967

From 76b973850602b72492e88178cc6a2769e2e5bf0d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 25 Oct 2024 10:12:13 +0000
Subject: [PATCH 692/837] Change the selection of Default2DEpilogue for Fwd
 SplitKV kernel to avoid using store_tile_raw

---
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h | 4 ++--
 .../hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h   | 4 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h | 4 ++--
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h   | 4 ++--
 4 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 89ace41ebd..85711986c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -121,8 +121,8 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
                   ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      kPadSeqLenQ,
-                      kPadHeadDim>>;
+                      false,
+                      false>>;
 
               using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
                   FmhaTilePartitioner,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index fe2fb62ba6..a054214f5d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -121,8 +121,8 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
                   ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      kPadSeqLenQ,
-                      kPadHeadDim>>;
+                      false,
+                      false>>;
 
               using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
                   FmhaTilePartitioner,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 8cb3d14e5a..698b36855e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -110,8 +110,8 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
                   ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      kPadSeqLenQ,
-                      kPadHeadDimV>>;
+                      false,
+                      false>>;
 
               using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
                   FmhaTilePartitioner,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 9a6e9a9990..1a6a1569cc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -108,8 +108,8 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
                   ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      kPadSeqLenQ,
-                      kPadHeadDimV>>;
+                      false,
+                      false>>;
 
               using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
                   FmhaTilePartitioner,

From 7243b4950c54c8f3a04876aa587467ee8d0c9723 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 25 Oct 2024 15:50:16 +0000
Subject: [PATCH 693/837] Try to have kPadSeqLenK be false in splitkv dispatch

---
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h | 4 +++-
 .../hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h   | 4 +++-
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h | 4 +++-
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h   | 4 +++-
 4 files changed, 12 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 85711986c8..03741d6749 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -96,7 +96,9 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
             has_uneven_splits,
             kHasUnevenSplits,
             [&] {
-              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+              // since buffer_load_dword is used, padding dim seqlen-k is not
+              // needed when loading K/V, but still needed when loading bias
+              constexpr bool kPadSeqLenK = kHasBias ? true : false;
 
               using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index a054214f5d..e73fee2c6c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -96,7 +96,9 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
             has_uneven_splits,
             kHasUnevenSplits,
             [&] {
-              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+              // since buffer_load_dword is used, padding dim seqlen-k is not
+              // needed when loading K/V, but still needed when loading bias
+              constexpr bool kPadSeqLenK = kHasBias ? true : false;
 
               using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 698b36855e..29806f6b8f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -78,7 +78,9 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         constexpr bool kPadSeqLenQ = true;
-        constexpr bool kPadSeqLenK = true;
+        // since buffer_load_dword is used, padding dim seqlen-k is not
+        // needed when loading K/V, but still needed when loading bias
+        constexpr bool kPadSeqLenK = kHasBias? true : false;
 
         const bool pad_headdim_q =
             !(param.K % FmhaTileShape::kK0BlockLength == 0);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 1a6a1569cc..d088dd444b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -78,7 +78,9 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         constexpr bool kPadSeqLenQ = true;
-        constexpr bool kPadSeqLenK = true;
+        // since buffer_load_dword is used, padding dim seqlen-k is not
+        // needed when loading K/V, but still needed when loading bias
+        constexpr bool kPadSeqLenK = kHasBias ? true : false;
 
         bool pad_headdim_q = !(param.K % FmhaTileShape::kK0BlockLength == 0);
         bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);

From 6ffea6ae6bf6d338b5ee1e71e631a2bba2e8a2b9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 26 Oct 2024 10:00:48 +0000
Subject: [PATCH 694/837] Revert "Try to have kPadSeqLenK be false in splitkv
 dispatch"

This reverts commit 7243b4950c54c8f3a04876aa587467ee8d0c9723.
---
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h | 4 +---
 .../hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h   | 4 +---
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h | 4 +---
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h   | 4 +---
 4 files changed, 4 insertions(+), 12 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 03741d6749..85711986c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -96,9 +96,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
             has_uneven_splits,
             kHasUnevenSplits,
             [&] {
-              // since buffer_load_dword is used, padding dim seqlen-k is not
-              // needed when loading K/V, but still needed when loading bias
-              constexpr bool kPadSeqLenK = kHasBias ? true : false;
+              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
 
               using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index e73fee2c6c..a054214f5d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -96,9 +96,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
             has_uneven_splits,
             kHasUnevenSplits,
             [&] {
-              // since buffer_load_dword is used, padding dim seqlen-k is not
-              // needed when loading K/V, but still needed when loading bias
-              constexpr bool kPadSeqLenK = kHasBias ? true : false;
+              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
 
               using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                   kPadSeqLenQ,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 29806f6b8f..698b36855e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -78,9 +78,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         constexpr bool kPadSeqLenQ = true;
-        // since buffer_load_dword is used, padding dim seqlen-k is not
-        // needed when loading K/V, but still needed when loading bias
-        constexpr bool kPadSeqLenK = kHasBias? true : false;
+        constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
             !(param.K % FmhaTileShape::kK0BlockLength == 0);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index d088dd444b..1a6a1569cc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -78,9 +78,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
         constexpr bool kPadSeqLenQ = true;
-        // since buffer_load_dword is used, padding dim seqlen-k is not
-        // needed when loading K/V, but still needed when loading bias
-        constexpr bool kPadSeqLenK = kHasBias ? true : false;
+        constexpr bool kPadSeqLenK = true;
 
         bool pad_headdim_q = !(param.K % FmhaTileShape::kK0BlockLength == 0);
         bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);

From 5f1ec0c5191ec5ccddc30cf3b2486d5de5fc7218 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 26 Oct 2024 13:45:40 +0000
Subject: [PATCH 695/837] Synchronize for latest splitkv support in ck-tile

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 95e722a3b3..31bf253aeb 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 95e722a3b357334fe05b0a7f217b60c591592967
+Subproject commit 31bf253aeb93bb7e26336d4940c6f056d7c5f1b2

From 3437842fadafc02424365baae441b3e6f8baccf0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 27 Oct 2024 04:36:59 +0000
Subject: [PATCH 696/837] Use kSubQKHeaddim to replace kK0BlockLength

---
 .../hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h          | 3 +--
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h  | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h  | 2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h    | 2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h          | 3 +--
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h  | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h  | 2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h    | 2 +-
 8 files changed, 8 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index 0b48fb444e..25e3c48949 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -62,8 +62,7 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
       const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
       const bool pad_seqlen_k =
           (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
-      const bool pad_headdim_q =
-          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+      const bool pad_headdim_q = !(param.K % FmhaFwdShape_::kSubQKHeaddim == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
 
       // usually headdim_q and headdim_v are same, consider them together to
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 85711986c8..21d808a611 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -79,7 +79,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
         const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
         const bool pad_headdim_q =
-            !(param.K % FmhaTileShape::kK0BlockLength == 0);
+            !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
 
         // usually headdim_q and headdim_v are same, consider them together to
         // determine whether to do padding saving some compiling time
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 0924a34b12..7ca00ecae9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -63,7 +63,7 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
       const bool pad_seqlen_k =
           (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-      const bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      const bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
 
       // usually headdim_q and headdim_v are same, consider them together to
       // determine whether to do padding saving some compiling time
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index a054214f5d..88b715c048 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -79,7 +79,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
         const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
         const bool pad_headdim_q =
-            !(param.K % FmhaTileShape::kK0BlockLength == 0);
+            !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
 
         // usually headdim_q and headdim_v are same, consider them together to
         // determine whether to do padding saving some compiling time
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index dbea3125a2..52e55bdada 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -62,8 +62,7 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
 
-      const bool pad_headdim_q =
-          !(param.K % FmhaFwdShape_::kK0BlockLength == 0);
+      const bool pad_headdim_q = !(param.K % FmhaFwdShape_::kSubQKHeaddim == 0);
       const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
 
       BOOL_SWITCH_2(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 698b36855e..71ca00029c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -81,7 +81,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenK = true;
 
         const bool pad_headdim_q =
-            !(param.K % FmhaTileShape::kK0BlockLength == 0);
+            !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
         const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
 
         BOOL_SWITCH_2(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 06f98d0f3b..9348bed6b2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -61,7 +61,7 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       constexpr bool kPadSeqLenQ = true;
       constexpr bool kPadSeqLenK = true;
 
-      bool pad_headdim_q = !(param.K % FmhaShape::kK0BlockLength == 0);
+      bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
       bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
       const bool use_async_pipeline =
           (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 1a6a1569cc..c3e09502c5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -80,7 +80,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
         constexpr bool kPadSeqLenQ = true;
         constexpr bool kPadSeqLenK = true;
 
-        bool pad_headdim_q = !(param.K % FmhaTileShape::kK0BlockLength == 0);
+        bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
         bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
 
         BOOL_SWITCH_2(

From 6c8a8b45a49a514187763d695675091a11dc0b44 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 28 Oct 2024 08:07:44 +0000
Subject: [PATCH 697/837] Add headdim96 support for fmha-fwd

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 39 +++++++++++++
 .../hip_fmha/ck_tiled_headdim_switch.h        |  6 ++
 .../attention/hip_fmha/generate_instances.py  |  4 +-
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_batched_forward_bf16_instances_ref.h | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_batched_forward_fp16_instances_ref.h | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_batched_infer_bf16_instances_ref.h   | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_batched_infer_fp16_instances_ref.h   | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_grouped_forward_bf16_instances_ref.h | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_grouped_forward_fp16_instances_ref.h | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_grouped_infer_bf16_instances_ref.h   | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 .../fmha_grouped_infer_fp16_instances_ref.h   | 56 +++++++++++++++++++
 ...ausalmask_has_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_has_bias_no_dropout_maxk_96.cpp | 19 +++++++
 ...causalmask_no_bias_has_dropout_maxk_96.cpp | 19 +++++++
 ..._causalmask_no_bias_no_dropout_maxk_96.cpp | 19 +++++++
 xformers/ops/fmha/ck.py                       |  1 +
 78 files changed, 1714 insertions(+), 4 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp

diff --git a/.gitmodules b/.gitmodules
index 176104791f..c730a8d0e8 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop
+	branch = fwd_hd96_debug 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 31bf253aeb..619386a18a 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 31bf253aeb93bb7e26336d4940c6f056d7c5f1b2
+Subproject commit 619386a18aa99d08f22b9cbacfc1d071753a5fcc
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 64cf5072c8..b42552e446 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -62,6 +62,13 @@ struct FmhaFwdBlockTile<64> {
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
+template <>
+struct FmhaFwdBlockTile<96> {
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 96>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
 template <>
 struct FmhaFwdBlockTile<128> {
   using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
@@ -101,6 +108,15 @@ struct FmhaFwdShape<64> : ck_tile::TileFmhaShape<
                               FmhaFwdWarpTile,
                               IsVLayoutRowMajor> {};
 
+template <>
+struct FmhaFwdShape<96> : ck_tile::TileFmhaShape<
+                              typename FmhaFwdBlockTile<96>::type,
+                              typename FmhaFwdBlockTile<96>::gemm0_warps,
+                              FmhaFwdWarpTile,
+                              typename FmhaFwdBlockTile<96>::gemm1_warps,
+                              FmhaFwdWarpTile,
+                              IsVLayoutRowMajor> {};
+
 template <>
 struct FmhaFwdShape<128> : ck_tile::TileFmhaShape<
                                typename FmhaFwdBlockTile<128>::type,
@@ -140,6 +156,15 @@ struct FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ> {
 
 template struct FmhaFwdSplitKVBlockTile<64>;
 
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVBlockTile<96, MaxSeqlenQ> {
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 96>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<96>;
+
 template <>
 struct FmhaFwdSplitKVBlockTile<128, 32> {
   using type = ck_tile::sequence<32, 128, 32, 128, 32, 128>;
@@ -196,6 +221,20 @@ struct FmhaFwdSplitKVShape<64, MaxSeqlenQ> {
 template struct FmhaFwdSplitKVShape<64, 32>;
 template struct FmhaFwdSplitKVShape<64, 64>;
 
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVShape<96, MaxSeqlenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<96>::type,
+      typename FmhaFwdSplitKVBlockTile<96>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<96, MaxSeqlenQ>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<96, 32>;
+template struct FmhaFwdSplitKVShape<96, 64>;
+
 template <>
 struct FmhaFwdSplitKVShape<128, 32> {
   using Type = ck_tile::TileFmhaShape<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 218bedd585..498e17f91d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -23,6 +23,9 @@
     } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
       constexpr ck_tile::index_t CONST_NAME = 64;                      \
       __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 96;                      \
+      __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
       constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
@@ -60,6 +63,9 @@
     } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
       constexpr ck_tile::index_t CONST_NAME = 64;                      \
       __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 96;                      \
+      __VA_ARGS__();                                                   \
     } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
       constexpr ck_tile::index_t CONST_NAME = 128;                     \
       __VA_ARGS__();                                                   \
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index a8a502d2e4..f8436e1e17 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -369,10 +369,10 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
             disable_hd256 = True
 
     if disable_hd256:
-        headdims_fwd = [32, 64, 128]
+        headdims_fwd = [32, 64, 96, 128]
         headdims_bwd = [32, 64, 96, 128]
     else:
-        headdims_fwd = [32, 64, 128, 256]
+        headdims_fwd = [32, 64, 96, 128, 256]
         headdims_bwd = [32, 64, 96, 128, 256]
 
     this_dir = os.path.dirname(__file__)
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..6425aa081e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..1c72ab7230
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..9adb0399b9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..c182551497
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
index 8fab725be7..757a2b2169 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
 extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..c46162436c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..6ca3a5ae57
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b6de89b882
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..97ee4e6e38
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..9b31f48816
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..30efee5689
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..ecf1126ac3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..6e1b575535
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
index d697669727..c0dadbebb4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
 extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b5fbcd947b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..a364b1a4a8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..df3d887de5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..5b565a222e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0bbd1b6e8c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..8627c5104a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..34a21d80aa
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..2300e0a499
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
index 003d768942..9933cff82e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
 extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..bbf8dce87a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..2df7a5ea63
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..433ee76a89
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..19a58f75a4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..6943325080
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..6e45bcd296
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..668ef4f6a2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..be1a754206
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
index 266b3643ee..abc184461a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
+
 extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..28859ae55f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..5a6c9874e3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..241d817e83
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..e793295c7c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..7b97b555c6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..731ce90136
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..79ed7712c8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..e69b05b3b4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
index 4b1740f1a7..2a85240b1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..140902b9c4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..fe88ed6153
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b26ed7dcbd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..7100319f81
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0bd4f3287f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..305d2740fd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..657e48d00e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..c6c8de0fe5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
index 2ac28a5200..375029794d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..e7674c2057
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..8f88f8f367
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..b437528697
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..d55b7cd68b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..4e14302f39
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..d5254ceb1b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..0185d16da2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..e4b6d51d2b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
index aa5c84146c..c94a65d145 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..c881adc299
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..54e1c96de5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..116d256fe7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..6b0fd8363a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..f55e482d33
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..835191b9cd
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..64e09f6db1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..3140d51d64
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
index f3a5d8501a..15f407d9ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
@@ -123,6 +123,62 @@ extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
+
 extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..06314accca
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..1faa75d7b7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..8f46d34691
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
new file mode 100644
index 0000000000..14658d0fc4
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
@@ -0,0 +1,19 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 6440c2ba9e..f7830f45b7 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -187,6 +187,7 @@ class FwOp(AttentionFwOpBase):
 
     _TEST_K: List[int] = [
         32,  # 64x64 kernel
+        96,
         128,  # 64x128 kernel
         256,  # 64x128 with accumulation in gmem
     ]

From cb58e69e180e7c0932943a0133d92b76d9427bac Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 28 Oct 2024 09:49:14 +0000
Subject: [PATCH 698/837] Synchronize to latest commit in ck-tile

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 619386a18a..5dfb3a2aca 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 619386a18aa99d08f22b9cbacfc1d071753a5fcc
+Subproject commit 5dfb3a2aca0aaf6919013493549cb71d9f852824

From 7d8ced0eac128917512b22fbd9ad27e73f5d9ab7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 30 Oct 2024 08:50:47 +0000
Subject: [PATCH 699/837] Reposition the composable_kernel_tiled submodule to
 latest ck develop commit

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index c730a8d0e8..b642ad5b97 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = fwd_hd96_debug 
+	branch = develop 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 5dfb3a2aca..3d60953477 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 5dfb3a2aca0aaf6919013493549cb71d9f852824
+Subproject commit 3d60953477bd575e320c84240a9f8ef49eb7bedd

From 7f91bb1ed10b3a84cd1c11899b0d673c5cd3fe7e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 11 Nov 2024 10:21:43 +0000
Subject: [PATCH 700/837] Synchronize to latest ck_tile commit for some bug
 fixing in page-attn

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 3d60953477..8ef8a994e7 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 3d60953477bd575e320c84240a9f8ef49eb7bedd
+Subproject commit 8ef8a994e73370d69980a4df7377ed4ce8ed05c8

From 44b6defb95b30c23224f9d41f6792192eee75c5d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 13 Nov 2024 09:21:20 +0000
Subject: [PATCH 701/837] Fix grad_k/grad_v strides

---
 .../hip_fmha/attention_backward_generic_ck_tiled.cpp        | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index 823acebf02..ffe12981bb 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -153,8 +153,8 @@ efficient_attention_backward_ck(
     grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
   } else {
     grad_q = at::empty_strided(query.sizes(), query.strides(), query.options());
-    grad_k = at::empty_strided(key.sizes(), key.strides(), key.options());
-    grad_v = at::empty_strided(value.sizes(), value.strides(), value.options());
+    grad_k = at::empty(key.sizes(), key.options());
+    grad_v = at::empty(value.sizes(), value.options());
   }
 
   at::Tensor grad_q_f32;
@@ -173,9 +173,7 @@ efficient_attention_backward_ck(
   TORCH_CHECK(query.sizes() == grad_q.sizes());
   TORCH_CHECK(query.strides() == grad_q.strides());
   TORCH_CHECK(key.sizes() == grad_k.sizes());
-  TORCH_CHECK(key.strides() == grad_k.strides());
   TORCH_CHECK(value.sizes() == grad_v.sizes());
-  TORCH_CHECK(value.strides() == grad_v.strides());
 
   const bool bias_requires_grad = bias.has_value() && bias->requires_grad();
 

From bdfffaa35e2a49dc3c198d41d20ab99641aa0482 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 21 Nov 2024 07:54:07 +0000
Subject: [PATCH 702/837] Synchronize to latest ck_tile commit for adding
 Paged-KVCache dependant parameters in fmha-fwd-splitkv kernel

---
 third_party/composable_kernel_tiled                            | 2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h  | 3 +++
 .../hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h    | 3 +++
 3 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 8ef8a994e7..fb1ccfa9df 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 8ef8a994e73370d69980a4df7377ed4ce8ed05c8
+Subproject commit fb1ccfa9df534c8c9f351dd959a0ff692d6f9210
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 71ca00029c..95ae5fdc28 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -193,6 +193,9 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
           param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.num_kv_splits, // num_splits
+          nullptr, // block_table_ptr
+          0, // batch_stride_block_table
+          0, // page_block_size
           param.scale,
           1.0f, // scale_p
           param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index c3e09502c5..f9a7ce8a4b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -191,6 +191,9 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
           param.Hq, // nhead_q
           param.Hq / param.Hkv, // nhead_ratio_qk
           param.num_kv_splits, // num_splits
+          nullptr, // block_table_ptr
+          0, // batch_stride_block_table
+          0, // page_block_size
           param.scale,
           1.0f, // scale_p
           param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim

From 266e3c607c2ea2f9301d8aa7b8d5467b8f0924ef Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 22 Nov 2024 15:48:37 +0000
Subject: [PATCH 703/837] Let splitkv combine kernel not called when num_splits
 is 1

---
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 222 ++++++++++-----
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 261 ++++++++++++------
 ...ed_fmha_grouped_forward_splitkv_dispatch.h | 207 +++++++++-----
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 244 ++++++++++------
 4 files changed, 639 insertions(+), 295 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 21d808a611..4a14da3d74 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -24,7 +24,10 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
-  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
   using FmhaFwdSplitKVPipelineProblemTemp =
       ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -36,7 +39,7 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           false, // kIsGroupMode
           FmhaMask,
@@ -111,30 +114,60 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
                   kHasUnevenSplits,
                   occupancy>;
 
-              using FmhaPipelineProblem =
-                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                  FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              if (param.num_kv_splits > 1) {
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
             });
       });
     }
 
-    {
+    if (param.num_kv_splits > 1) {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
@@ -193,54 +226,103 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
       BatchedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaFwdSplitKVKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          param.logsumexp_acc_ptr,
-          param.out_acc_ptr,
-          param.B, // batch
-          param.M, // seqlen_q
-          param.N, // seqlen_k
-          nullptr, // seqlen_k_ptr, not used
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.num_kv_splits, // num_splits
-          nullptr, // block_table_ptr, not used
-          0, // batch_stride_block_table, not used
-          0, // page_table_size, not used
-          nullptr, // cache_batch_idx, not used
-          param.scale,
-          1.0f, // scale_p
-          param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
-                              // stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[2],
-          param.out_acc_strides[2],
-          param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
-                              // head-dim stride
-          param.k_strides[2],
-          param.v_strides[2],
-          param.attn_bias_strides[1],
-          param.lse_acc_strides[2],
-          param.out_acc_strides[3],
-          param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
-                              // batch-dim stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[0],
-          param.lse_acc_strides[1],
-          param.out_acc_strides[1],
-          param.lse_acc_strides[0], // split_stride_lse_acc
-          param.out_acc_strides[0], // split_stride_out_acc
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type);
+      if (param.num_kv_splits)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[2],
+            param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[2],
+            param.out_acc_strides[3],
+            param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[1],
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_ptr,
+            param.out_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_strides[1],
+            param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim
+                                // stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            param.lse_strides[1],
+            param.out_strides[2],
+            param.q_strides[0], // q, k, v, bias, lse, out tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            param.lse_strides[0],
+            param.out_strides[0],
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 88b715c048..7cb4659931 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -24,7 +24,10 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
-  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
   using FmhaFwdSplitKVPipelineProblemTemp =
       ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -36,7 +39,7 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           false, // kIsGroupMode
           FmhaMask,
@@ -98,43 +101,86 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
             [&] {
               constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
 
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  kHasUnevenSplits,
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                  FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              if (param.num_kv_splits > 1) {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDim, // kPadHeadDimQ,
+                    kPadHeadDim, // kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    true, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    kHasUnevenSplits,
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDim, // kPadHeadDimQ,
+                    kPadHeadDim, // kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    false, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    kHasUnevenSplits,
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
             });
       });
     };
 
-    {
+    if (param.num_kv_splits > 1) {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
@@ -193,54 +239,103 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
       BatchedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaFwdSplitKVKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          param.logsumexp_acc_ptr,
-          param.out_acc_ptr,
-          param.B, // batch
-          param.M, // seqlen_q
-          param.N, // seqlen_k
-          nullptr, // seqlen_k_ptr, not used
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.num_kv_splits, // num_splits
-          nullptr, // block_table_ptr, not used
-          0, // batch_stride_block_table, not used
-          0, // page_table_size, not used
-          nullptr, // cache_batch_idx, not used
-          param.scale,
-          1.0f, // scale_p
-          param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
-                              // stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[2],
-          param.out_acc_strides[2],
-          param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
-                              // head-dim stride
-          param.k_strides[2],
-          param.v_strides[2],
-          param.attn_bias_strides[1],
-          param.lse_acc_strides[2],
-          param.out_acc_strides[3],
-          param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
-                              // batch-dim stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[0],
-          param.lse_acc_strides[1],
-          param.out_acc_strides[1],
-          param.lse_acc_strides[0], // split_stride_lse_acc
-          param.out_acc_strides[0], // split_stride_out_acc
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type);
+      if (param.num_kv_splits > 1)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[2],
+            param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[2],
+            param.out_acc_strides[3],
+            param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[1],
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            nullptr, // lse_ptr
+            param.out_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_strides[1],
+            param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim
+                                // stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            0, // nhead_stride_lse
+            param.out_strides[2],
+            param.q_strides[0], // q, k, v, bias, lse, out tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            0, // batch_stride_lse
+            param.out_strides[0],
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 95ae5fdc28..ed5fc850c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -24,7 +24,10 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
-  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
   using FmhaFwdSplitKVPipelineProblemTemp =
       ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -36,7 +39,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           true, // kIsGroupMode
           FmhaMask,
@@ -99,31 +102,62 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
                   true, // kHasUnevenSplits
                   occupancy>;
 
-              using FmhaPipelineProblem =
-                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaFwdPipeline_ =
-                  ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaFwdEpilogue_ =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      false,
-                      false>>;
-
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+              if (param.num_kv_splits > 1) {
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaFwdPipeline_ =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaFwdEpilogue_ = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaFwdPipeline_,
+                    FmhaFwdEpilogue_>;
+
+                RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+              } else {
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaFwdPipeline_ =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaFwdEpilogue_ = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaFwdPipeline_,
+                    FmhaFwdEpilogue_>;
+
+                RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+              }
             });
       });
     };
 
-    {
+    if (param.num_kv_splits > 1) {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
@@ -177,48 +211,91 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
       GroupedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaFwdSplitKVKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          param.logsumexp_acc_ptr,
-          param.out_acc_ptr,
-          param.num_batches,
-          param.seqstart_q_dev_ptr,
-          param.seqstart_k_dev_ptr,
-          param.seqlen_k_dev_ptr,
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.num_kv_splits, // num_splits
-          nullptr, // block_table_ptr
-          0, // batch_stride_block_table
-          0, // page_block_size
-          param.scale,
-          1.0f, // scale_p
-          param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
-                              // stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[2],
-          param.out_acc_strides[1],
-          param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
-                              // head-dim stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[1],
-          param.lse_acc_strides[1],
-          param.out_acc_strides[2],
-          0, // batch_stride_k, not used, only used for paged-kvcache
-          0, // batch_stride_v, not used, only used for paged-kvcache
-          param.lse_acc_strides[0], // split_stride_lse_acc
-          param.out_acc_strides[0], // split_stride_out_acc
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type);
+      if (param.num_kv_splits > 1)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr
+            0, // batch_stride_block_table
+            0, // page_block_size
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[1],
+            param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[2],
+            0, // batch_stride_k, not used, only used for paged-kvcache
+            0, // batch_stride_v, not used, only used for paged-kvcache
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_ptr,
+            param.out_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr
+            0, // batch_stride_block_table
+            0, // page_block_size
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_strides[0],
+            param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim
+                                // stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            param.lse_strides[0],
+            param.out_strides[1],
+            0, // batch_stride_k, not used, only used for paged-kvcache
+            0, // batch_stride_v, not used, only used for paged-kvcache
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index f9a7ce8a4b..d8e97c9453 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -24,7 +24,10 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
-  template <typename FmhaFwdSplitKVTraits, typename FmhaMask>
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
   using FmhaFwdSplitKVPipelineProblemTemp =
       ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -36,7 +39,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           true, // kIsGroupMode
           FmhaMask,
@@ -85,43 +88,86 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
 
         BOOL_SWITCH_2(
             pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  true, // kHasUnevenSplits
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaFwdSplitKVPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                  FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              if (param.num_kv_splits > 1) {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDimQ,
+                    kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    true, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    true, // kHasUnevenSplits
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDimQ,
+                    kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    false, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    true, // kHasUnevenSplits
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                    FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                    FmhaTilePartitioner,
+                    FmhaPipeline,
+                    FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
             });
       });
     };
 
-    {
+    if (param.num_kv_splits > 1) {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
@@ -175,48 +221,92 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
       GroupedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      return FmhaFwdSplitKVKernel::MakeKargs(
-          param.q_ptr,
-          param.k_ptr,
-          param.v_ptr,
-          param.attn_bias_ptr,
-          param.logsumexp_acc_ptr,
-          param.out_acc_ptr,
-          param.num_batches,
-          param.seqstart_q_dev_ptr,
-          param.seqstart_k_dev_ptr,
-          param.seqlen_k_dev_ptr,
-          param.K, // hdim_q
-          param.Kv, // hdim_v
-          param.Hq, // nhead_q
-          param.Hq / param.Hkv, // nhead_ratio_qk
-          param.num_kv_splits, // num_splits
-          nullptr, // block_table_ptr
-          0, // batch_stride_block_table
-          0, // page_block_size
-          param.scale,
-          1.0f, // scale_p
-          param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
-                              // stride
-          param.k_strides[0],
-          param.v_strides[0],
-          param.attn_bias_strides[2],
-          param.out_acc_strides[1],
-          param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
-                              // head-dim stride
-          param.k_strides[1],
-          param.v_strides[1],
-          param.attn_bias_strides[1],
-          param.lse_acc_strides[1],
-          param.out_acc_strides[2],
-          0, // batch_stride_k, not used, only used for paged-kvcache
-          0, // batch_stride_v, not used, only used for paged-kvcache
-          param.lse_acc_strides[0], // split_stride_lse_acc
-          param.out_acc_strides[0], // split_stride_out_acc
-          (param.window_size > 0) ? param.window_size - 1
-                                  : -1, // window_left_size
-          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
-          param.custom_mask_type);
+      if (param.num_kv_splits > 1)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr
+            0, // batch_stride_block_table
+            0, // page_block_size
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[1],
+            param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[2],
+            0, // batch_stride_k, not used, only used for paged-kvcache
+            0, // batch_stride_v, not used, only used for paged-kvcache
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            nullptr, // lse_ptr,
+            param.out_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr
+            0, // batch_stride_block_table
+            0, // page_block_size
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out tensor seq-dim
+                                // stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_strides[0],
+            param.q_strides[1], // q, k, v, bias, lse, out tensor
+                                // head-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            0, // nhead_stride_lse
+            param.out_strides[1],
+            0, // batch_stride_k, not used, only used for paged-kvcache
+            0, // batch_stride_v, not used, only used for paged-kvcache
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(

From 273a892c5d4a14247f5ef3eb5de704da293dc45d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 25 Nov 2024 13:11:20 +0000
Subject: [PATCH 704/837] Add supported for Paged-KVCache
 (PagedBlockDiagonalPaddedKeysMask passed)

---
 third_party/composable_kernel_tiled           |  2 +-
 xformers/csrc/attention/attention.cpp         |  2 +-
 .../attention_forward_generic_ck_tiled.cpp    | 40 ++++++++++--
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 42 ++++++++-----
 .../attention/hip_fmha/ck_tiled_fmha_params.h |  6 ++
 xformers/ops/fmha/ck.py                       | 63 ++++++++++++++-----
 6 files changed, 117 insertions(+), 38 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index fb1ccfa9df..645fe812f6 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit fb1ccfa9df534c8c9f351dd959a0ff692d6f9210
+Subproject commit 645fe812f65db86a9eaca7ae00e0004c1634bc0a
diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 350e56427c..94c673a0ef 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -36,7 +36,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::efficient_attention_forward_ck(Tensor query, "
       "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
       "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
-      "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size) -> (Tensor, Tensor, int, int)"));
+      "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size, Tensor? block_tables, int? page_size) -> (Tensor, Tensor, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
       "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 08c5aaba2e..aced7b0a30 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -66,7 +66,9 @@ efficient_attention_forward_ck(
     int64_t custom_mask_type,
     c10::optional<double> scale,
     const c10::optional<at::Tensor>& seqlen_k,
-    const c10::optional<int64_t> window_size) {
+    const c10::optional<int64_t> window_size,
+    const c10::optional<at::Tensor>& block_tables,
+    const c10::optional<int64_t> page_size) {
   TORCH_CHECK(query.dim() == 4);
   TORCH_CHECK(key.dim() == 4);
   TORCH_CHECK(value.dim() == 4);
@@ -100,6 +102,12 @@ efficient_attention_forward_ck(
     CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_k));
   };
 
+  TORCH_CHECK(block_tables.has_value() == page_size.has_value());
+  TORCH_CHECK(!block_tables.has_value() || block_tables->dim() == 2);
+
+  // Currently xformers only use Paged-KVcache in grouped mode
+  TORCH_CHECK(seqstart_q.has_value() || !block_tables.has_value());
+
   // last dim is contiguous, device is kCUDA
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(query);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
@@ -336,6 +344,22 @@ efficient_attention_forward_ck(
     } else
       p.seqlen_k_dev_ptr = nullptr;
 
+    p.is_gappy = false;
+    if (block_tables.has_value()) {
+      p.block_table_ptr = block_tables->data_ptr();
+      p.page_block_size = *page_size;
+      p.batch_stride_block_table = block_tables->stride(0);
+      p.use_paged_kvcache = true;
+
+      TORCH_CHECK(seqlen_k.has_value());
+
+      // PageBlockDiagonalGappyKeysMask has special way to use seqstart_k,
+      // somehow ck_tile kernel need know this
+      if (seqstart_k->size(0) == seqlen_k->size(0))
+        p.is_gappy = true;
+    } else
+      p.use_paged_kvcache = false;
+
     p.philox_seed = philox_seed;
     p.philox_offset = philox_offset;
     p.compute_logsumexp = compute_logsumexp;
@@ -361,10 +385,14 @@ efficient_attention_forward_ck(
     p.num_kv_splits = get_num_kv_splits_heuristic(
         p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 32);
 
-    // fmha fwd split-kv kernel does not support dropout
-    p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
+    // 1) fmha fwd split-kv kernel does not support dropout
+    // 2) Paged-KVcache is only available from the split-kv kernel at present
+    p.use_split_kv =
+        (p.use_paged_kvcache || (!use_dropout && (p.num_kv_splits > 1)))
+        ? true
+        : false;
 
-    if (p.use_split_kv) {
+    if (p.use_split_kv && p.num_kv_splits > 1) {
       out_acc = at::empty({p.num_kv_splits, M, Hq, Kv}, opts.dtype(at::kFloat));
       p.out_acc_ptr = out_acc.data_ptr();
       p.out_acc_strides = {
@@ -454,7 +482,9 @@ efficient_attention_forward_ck_meta(
     int64_t custom_mask_type,
     c10::optional<double> scale,
     const c10::optional<at::Tensor>& seqlen_k,
-    const c10::optional<int64_t> window_size) {
+    const c10::optional<int64_t> window_size,
+    const c10::optional<at::Tensor>& block_tables,
+    const c10::optional<int64_t> page_size) {
   int64_t B = query.size(0);
   int64_t M = query.size(1);
   int64_t N = key.size(1);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index d8e97c9453..06d687ec49 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -86,8 +86,16 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
         bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
         bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
 
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+        bool is_paged_kv = param.use_paged_kvcache;
+
+        BOOL_SWITCH_3(
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            is_paged_kv,
+            kIsPagedKV,
+            [&] {
               if (param.num_kv_splits > 1) {
                 using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
                     kPadSeqLenQ,
@@ -98,7 +106,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
                     false, // kHasBiasGrad place-holder
                     true, // kStoreLSE
                     false, // kDoFp8StaticQuant place-holder
-                    false, // kIsPagedKV
+                    kIsPagedKV,
                     true, // kHasUnevenSplits
                     occupancy>;
 
@@ -135,7 +143,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
                     false, // kHasBiasGrad place-holder
                     false, // kStoreLSE
                     false, // kDoFp8StaticQuant place-holder
-                    false, // kIsPagedKV
+                    kIsPagedKV,
                     true, // kHasUnevenSplits
                     occupancy>;
 
@@ -238,9 +246,9 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             param.Hq, // nhead_q
             param.Hq / param.Hkv, // nhead_ratio_qk
             param.num_kv_splits, // num_splits
-            nullptr, // block_table_ptr
-            0, // batch_stride_block_table
-            0, // page_block_size
+            param.use_paged_kvcache ? param.block_table_ptr : nullptr,
+            param.use_paged_kvcache ? param.batch_stride_block_table : 0,
+            param.use_paged_kvcache ? param.page_block_size : 0,
             param.scale,
             1.0f, // scale_p
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
@@ -256,9 +264,11 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             param.attn_bias_strides[1],
             param.lse_acc_strides[1],
             param.out_acc_strides[2],
-            0, // batch_stride_k, not used, only used for paged-kvcache
-            0, // batch_stride_v, not used, only used for paged-kvcache
-            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.use_paged_kvcache ? param.k_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_k
+            param.use_paged_kvcache ? param.v_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_v
+            param.lse_acc_strides[0], // split_stride_l
             param.out_acc_strides[0], // split_stride_out_acc
             (param.window_size > 0) ? param.window_size - 1
                                     : -1, // window_left_size
@@ -281,9 +291,9 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             param.Hq, // nhead_q
             param.Hq / param.Hkv, // nhead_ratio_qk
             param.num_kv_splits, // num_splits
-            nullptr, // block_table_ptr
-            0, // batch_stride_block_table
-            0, // page_block_size
+            param.use_paged_kvcache ? param.block_table_ptr : nullptr,
+            param.use_paged_kvcache ? param.batch_stride_block_table : 0,
+            param.use_paged_kvcache ? param.page_block_size : 0,
             param.scale,
             1.0f, // scale_p
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim
@@ -299,8 +309,10 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             param.attn_bias_strides[1],
             0, // nhead_stride_lse
             param.out_strides[1],
-            0, // batch_stride_k, not used, only used for paged-kvcache
-            0, // batch_stride_v, not used, only used for paged-kvcache
+            param.use_paged_kvcache ? param.k_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_k
+            param.use_paged_kvcache ? param.v_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_v
             0, // split_stride_lse_acc
             0, // split_stride_out_acc
             (param.window_size > 0) ? param.window_size - 1
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
index d3a5f0039f..67f0afdf19 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_params.h
@@ -103,6 +103,12 @@ struct GroupedInferParams {
   int window_size; // local-attention
 
   void* out_ptr;
+
+  bool use_paged_kvcache;
+  bool is_gappy;
+  void* block_table_ptr;
+  int page_block_size;
+  int batch_stride_block_table;
 };
 
 struct GroupedForwardParams : public GroupedInferParams {
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index f7830f45b7..8d2e4b5392 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -28,6 +28,9 @@
     LowerTriangularFromBottomRightMask,
     LowerTriangularMask,
     LowerTriangularMaskWithTensorBias,
+    PagedBlockDiagonalPaddedKeysMask,
+    PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
+    PagedBlockDiagonalGappyKeysMask,
 )
 from .common import (
     AttentionBwOpBase,
@@ -50,7 +53,7 @@ def _get_seqlen_info(
     attn_bias = inp.attn_bias
     if isinstance(
         attn_bias,
-        (BlockDiagonalMask, BlockDiagonalPaddedKeysMask, BlockDiagonalGappyKeysMask),
+        (BlockDiagonalMask, BlockDiagonalPaddedKeysMask, BlockDiagonalGappyKeysMask, PagedBlockDiagonalPaddedKeysMask, PagedBlockDiagonalGappyKeysMask)
     ):
         attn_bias.k_seqinfo.to(inp.query.device)
         attn_bias.q_seqinfo.to(inp.query.device)
@@ -123,6 +126,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
             LowerTriangularMask,
             BlockDiagonalCausalMask,
             BlockDiagonalCausalLocalAttentionMask,
+            PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromTopLeft)
@@ -150,21 +154,24 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_MAX_K = 256
 
     SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
-        type(None),
-        torch.Tensor,
-        LowerTriangularMask,
-        LowerTriangularFromBottomRightMask,
-        LowerTriangularFromBottomRightLocalAttentionMask,
-        LowerTriangularMaskWithTensorBias,
-        BlockDiagonalMask,
-        BlockDiagonalCausalMask,
-        BlockDiagonalCausalWithOffsetGappyKeysMask,
-        BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        BlockDiagonalGappyKeysMask,
-        BlockDiagonalPaddedKeysMask,
-        attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        attn_bias.BlockDiagonalCausalLocalAttentionMask,
-        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+        ##type(None),
+        ##torch.Tensor,
+        ##LowerTriangularMask,
+        ##LowerTriangularFromBottomRightMask,
+        ##LowerTriangularFromBottomRightLocalAttentionMask,
+        ##LowerTriangularMaskWithTensorBias,
+        ##BlockDiagonalMask,
+        ##BlockDiagonalCausalMask,
+        ##BlockDiagonalCausalWithOffsetGappyKeysMask,
+        ##BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ##BlockDiagonalGappyKeysMask,
+        ##BlockDiagonalPaddedKeysMask,
+        ##attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        ##attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        ##BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+        PagedBlockDiagonalPaddedKeysMask,
+        ##PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ##PagedBlockDiagonalGappyKeysMask,
     )
 
     SUPPORTS_DROPOUT = True
@@ -282,6 +289,8 @@ def apply_bmhk(
                     (
                         BlockDiagonalGappyKeysMask,
                         BlockDiagonalPaddedKeysMask,
+                        PagedBlockDiagonalPaddedKeysMask,
+                        PagedBlockDiagonalGappyKeysMask,
                     ),
                 )
                 else None
@@ -298,6 +307,28 @@ def apply_bmhk(
                 )
                 else None
             ),
+            block_tables=(
+                inp.attn_bias.block_tables
+                if isinstance(
+                    inp.attn_bias,
+                    (
+                        PagedBlockDiagonalPaddedKeysMask,
+                        PagedBlockDiagonalGappyKeysMask,
+                    ),
+                )
+                else None
+            ),
+            page_size=(
+                inp.attn_bias.page_size
+                if isinstance(
+                    inp.attn_bias,
+                    (
+                        PagedBlockDiagonalPaddedKeysMask,
+                        PagedBlockDiagonalGappyKeysMask,
+                    ),
+                )
+                else None
+            ),
         )
 
         ctx: Optional[Context] = None

From 22df8c97d605ac6914f6e26dd3fd8efd2ca3964a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 25 Nov 2024 15:51:04 +0000
Subject: [PATCH 705/837] Add is_gappy indicator to let kernel have special
 treatment for seqstart_k of PagedBlockDiagonalGappyKey

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../attention_forward_generic_ck_tiled.cpp    |  4 ++-
 ...ed_fmha_grouped_forward_splitkv_dispatch.h |  2 ++
 ...iled_fmha_grouped_infer_splitkv_dispatch.h |  2 ++
 xformers/ops/fmha/ck.py                       | 34 +++++++++----------
 6 files changed, 26 insertions(+), 20 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index b642ad5b97..1369a6968b 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop 
+	branch = feature/fix-group-mode-paged-kvcache 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 645fe812f6..af457e502b 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 645fe812f65db86a9eaca7ae00e0004c1634bc0a
+Subproject commit af457e502b7f0ef3b40edfdf56d7586ac284adce
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index aced7b0a30..b672c4ff73 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -95,7 +95,9 @@ efficient_attention_forward_ck(
     TORCH_CHECK(seqstart_q->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_k->scalar_type() == at::ScalarType::Int);
     TORCH_CHECK(seqstart_q->dim() == 1 && seqstart_k->dim() == 1);
-    TORCH_CHECK(seqstart_q->size(0) == seqstart_k->size(0));
+    TORCH_CHECK(
+        seqstart_q->size(0) == seqstart_k->size(0) ||
+        seqstart_q->size(0) == seqstart_k->size(0) + 1);
     TORCH_CHECK(query.size(0) == 1, "cu_seqlen only supports batch_size=1");
     TORCH_CHECK(max_seqlen_q_.has_value());
     CHECK_NOSPARSE_CONTIGUOUS_CUDA((*seqstart_q));
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index ed5fc850c8..eab6038763 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -231,6 +231,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
             nullptr, // block_table_ptr
             0, // batch_stride_block_table
             0, // page_block_size
+            false, // is_gappy
             param.scale,
             1.0f, // scale_p
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
@@ -274,6 +275,7 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
             nullptr, // block_table_ptr
             0, // batch_stride_block_table
             0, // page_block_size
+            false, // is_gappy
             param.scale,
             1.0f, // scale_p
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 06d687ec49..8d5de5afe0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -249,6 +249,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             param.use_paged_kvcache ? param.block_table_ptr : nullptr,
             param.use_paged_kvcache ? param.batch_stride_block_table : 0,
             param.use_paged_kvcache ? param.page_block_size : 0,
+            param.use_paged_kvcache ? param.is_gappy : false,
             param.scale,
             1.0f, // scale_p
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
@@ -294,6 +295,7 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
             param.use_paged_kvcache ? param.block_table_ptr : nullptr,
             param.use_paged_kvcache ? param.batch_stride_block_table : 0,
             param.use_paged_kvcache ? param.page_block_size : 0,
+            param.use_paged_kvcache ? param.is_gappy : false,
             param.scale,
             1.0f, // scale_p
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 8d2e4b5392..8cada88c9e 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -154,24 +154,24 @@ class FwOp(AttentionFwOpBase):
     SUPPORTED_MAX_K = 256
 
     SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
-        ##type(None),
-        ##torch.Tensor,
-        ##LowerTriangularMask,
-        ##LowerTriangularFromBottomRightMask,
-        ##LowerTriangularFromBottomRightLocalAttentionMask,
-        ##LowerTriangularMaskWithTensorBias,
-        ##BlockDiagonalMask,
-        ##BlockDiagonalCausalMask,
-        ##BlockDiagonalCausalWithOffsetGappyKeysMask,
-        ##BlockDiagonalCausalWithOffsetPaddedKeysMask,
-        ##BlockDiagonalGappyKeysMask,
-        ##BlockDiagonalPaddedKeysMask,
-        ##attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        ##attn_bias.BlockDiagonalCausalLocalAttentionMask,
-        ##BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+        type(None),
+        torch.Tensor,
+        LowerTriangularMask,
+        LowerTriangularFromBottomRightMask,
+        LowerTriangularFromBottomRightLocalAttentionMask,
+        LowerTriangularMaskWithTensorBias,
+        BlockDiagonalMask,
+        BlockDiagonalCausalMask,
+        BlockDiagonalCausalWithOffsetGappyKeysMask,
+        BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        BlockDiagonalGappyKeysMask,
+        BlockDiagonalPaddedKeysMask,
+        attn_bias.BlockDiagonalCausalFromBottomRightMask,
+        attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        BlockDiagonalCausalLocalAttentionFromBottomRightMask,
         PagedBlockDiagonalPaddedKeysMask,
-        ##PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
-        ##PagedBlockDiagonalGappyKeysMask,
+        PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
+        PagedBlockDiagonalGappyKeysMask,
     )
 
     SUPPORTS_DROPOUT = True

From e768502e3c544c97f6997e98746519f304396f46 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Nov 2024 05:05:13 +0000
Subject: [PATCH 706/837] Fix in _custom_mask_type of ck.py

---
 xformers/ops/fmha/ck.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 8cada88c9e..b552c3c843 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -126,7 +126,6 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
             LowerTriangularMask,
             BlockDiagonalCausalMask,
             BlockDiagonalCausalLocalAttentionMask,
-            PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromTopLeft)
@@ -138,6 +137,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
             BlockDiagonalCausalWithOffsetPaddedKeysMask,
             BlockDiagonalCausalLocalAttentionFromBottomRightMask,
+            PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
         ),
     ):
         return int(_CustomMaskType.CausalFromBottomRight)

From 00c70d02cfac93162c59c6e9c5740f89741eb6f9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Nov 2024 08:46:52 +0000
Subject: [PATCH 707/837] Add test_paged_attention_ck in
 tests/test_mem_eff_attention.py

---
 tests/test_mem_eff_attention.py | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 03b6f6a5e2..05dc678cb4 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2469,6 +2469,15 @@ def test_paged_attention(
         B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy
     )
 
+@cuda_only
+@pytest.mark.parametrize("B", [1, 5, 128])
+@pytest.mark.parametrize("MAX_T", [64, 128, 2048, 4096, 8192])
+@pytest.mark.parametrize("page_size", [128, 256])
+@pytest.mark.parametrize("gappy", [False, True], ids=lambda x: "gappy" if x else "")
+def test_paged_attention_ck(B, MAX_T: int, page_size: int, gappy: bool):
+    op = fmha.ck.FwOp
+    num_quant_groups = 0
+    paged_attention_run_inner(B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy)
 
 @sm80_or_better_only
 @disable_on_rocm

From 468c83f2ffc9645bfe1ab7ebbe629deca5a42c10 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Nov 2024 13:04:37 +0000
Subject: [PATCH 708/837] position to the latest ck develop branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 1369a6968b..b642ad5b97 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = feature/fix-group-mode-paged-kvcache 
+	branch = develop 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index af457e502b..cf2d635ea2 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit af457e502b7f0ef3b40edfdf56d7586ac284adce
+Subproject commit cf2d635ea27c074e7025896514c4b94034d370cc

From 95460bc539d06520ff252a9605c634d7e3d32270 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 26 Nov 2024 14:31:05 +0000
Subject: [PATCH 709/837] Change to check causalmask type and window_size
 parameter together to save compile-time

---
 .../hip_fmha/ck_tiled_fmha_batched_backward.h | 139 +++++------
 .../ck_tiled_fmha_batched_backward_bf16.cpp   |  10 +-
 .../ck_tiled_fmha_batched_backward_fp16.cpp   |  10 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  16 +-
 .../ck_tiled_fmha_batched_forward_bf16.cpp    |  10 +-
 .../ck_tiled_fmha_batched_forward_dispatch.h  | 140 +++++------
 .../ck_tiled_fmha_batched_forward_fp16.cpp    |  10 +-
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 203 ++++++++--------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  16 +-
 .../ck_tiled_fmha_batched_infer_bf16.cpp      |  10 +-
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 204 ++++++++--------
 .../ck_tiled_fmha_batched_infer_fp16.cpp      |  10 +-
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 229 +++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h | 141 ++++++-----
 .../ck_tiled_fmha_grouped_backward_bf16.cpp   |  10 +-
 .../ck_tiled_fmha_grouped_backward_fp16.cpp   |  10 +-
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  16 +-
 .../ck_tiled_fmha_grouped_forward_bf16.cpp    |  10 +-
 .../ck_tiled_fmha_grouped_forward_dispatch.h  | 142 ++++++-----
 .../ck_tiled_fmha_grouped_forward_fp16.cpp    |  10 +-
 ...ed_fmha_grouped_forward_splitkv_dispatch.h | 175 +++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  16 +-
 .../ck_tiled_fmha_grouped_infer_bf16.cpp      |  10 +-
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 226 +++++++++--------
 .../ck_tiled_fmha_grouped_infer_fp16.cpp      |  10 +-
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 220 ++++++++---------
 .../attention/hip_fmha/generate_instances.py  |  60 ++---
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...fmha_batched_backward_bf16_instances_ref.h | 120 ++++-----
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...fmha_batched_backward_fp16_instances_ref.h | 120 ++++-----
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_batched_forward_bf16_instances_ref.h |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_batched_forward_fp16_instances_ref.h |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_batched_infer_bf16_instances_ref.h   |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_batched_infer_fp16_instances_ref.h   |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...fmha_grouped_backward_bf16_instances_ref.h | 120 ++++-----
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   6 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...fmha_grouped_backward_fp16_instances_ref.h | 120 ++++-----
 ...ias_has_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...ias_has_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_32.cpp} |   4 +-
 ...bias_has_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ...bias_has_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ...bias_has_biasgrad_no_dropout_maxk_128.cpp} |   4 +-
 ...bias_has_biasgrad_no_dropout_maxk_256.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_32.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_64.cpp} |   4 +-
 ..._bias_has_biasgrad_no_dropout_maxk_96.cpp} |   4 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   6 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   6 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   6 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...s_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_128.cpp} |   2 +-
 ...bias_no_biasgrad_has_dropout_maxk_256.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_32.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_64.cpp} |   2 +-
 ..._bias_no_biasgrad_has_dropout_maxk_96.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_128.cpp} |   2 +-
 ..._bias_no_biasgrad_no_dropout_maxk_256.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_32.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_64.cpp} |   2 +-
 ...o_bias_no_biasgrad_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_grouped_forward_bf16_instances_ref.h |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_grouped_forward_fp16_instances_ref.h |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   4 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_grouped_infer_bf16_instances_ref.h   |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...as_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ...has_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_has_bias_no_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_has_bias_no_dropout_maxk_96.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...has_mask_no_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._has_mask_no_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._has_mask_no_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._has_mask_no_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_has_mask_no_bias_no_dropout_maxk_96.cpp} |   4 +-
 .../fmha_grouped_infer_fp16_instances_ref.h   |  80 +++---
 ...no_mask_has_bias_has_dropout_maxk_128.cpp} |   2 +-
 ...no_mask_has_bias_has_dropout_maxk_256.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_32.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_64.cpp} |   2 +-
 ..._no_mask_has_bias_has_dropout_maxk_96.cpp} |   2 +-
 ..._no_mask_has_bias_no_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_has_bias_no_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_has_bias_no_dropout_maxk_96.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_128.cpp} |   4 +-
 ..._no_mask_no_bias_has_dropout_maxk_256.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_32.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_64.cpp} |   4 +-
 ...6_no_mask_no_bias_has_dropout_maxk_96.cpp} |   4 +-
 ...6_no_mask_no_bias_no_dropout_maxk_128.cpp} |   2 +-
 ...6_no_mask_no_bias_no_dropout_maxk_256.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_32.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_64.cpp} |   2 +-
 ...16_no_mask_no_bias_no_dropout_maxk_96.cpp} |   2 +-
 599 files changed, 2421 insertions(+), 2462 deletions(-)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp => fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp} (87%)
 rename xformers/csrc/attention/hip_fmha/instances/{fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp => fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp} (87%)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index 30d69691d4..dbb9f451b0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -18,12 +18,12 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-struct batched_backward_causalmask_bias_dropout_dispatch {
+struct batched_backward_mask_bias_dropout_dispatch {
   using FmhaBlockDropout =
       typename FmhaBwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
 
@@ -93,72 +93,67 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
     }
 
     {
-      const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck_tile::index_t occupancy = 1;
-        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-        constexpr auto kBiasEnum = kHasBias
-            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-        constexpr bool kPadSeqLenQ = true;
-        constexpr bool kPadSeqLenK = true;
-
-        const bool pad_headdim_q =
-            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
-        const bool pad_headdim_v =
-            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
-
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  kHasBiasGrad,
-                  false, // kStoreLSE
-                  false, // place-holder for kHasDropout, not used actually
-                  false, // kDoFp8StaticQuant place-holder
-                  occupancy>;
-
-              using FmhaBwdPipelineProblem =
-                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
-
-              constexpr auto FmhaBwdPipelineEnum_ =
-                  FmhaBwdPipelineEnumSelector<MaxK>::value;
-
-              using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
-                  FmhaBwdPipelineEnum_,
-                  FmhaBwdPipelineProblem>::pipeline;
-
-              using FmhaBwdKGradEpilogue_ =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                      typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-                      kPadSeqLenK,
-                      kPadHeadDimQ>>;
-
-              using FmhaBwdVGradEpilogue_ =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
-                      kPadSeqLenK,
-                      kPadHeadDimV>>;
-
-              using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
-                  FmhaBwdPipeline_,
-                  FmhaBwdKGradEpilogue_,
-                  FmhaBwdVGradEpilogue_>;
-
-              RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
-            });
-      });
+      constexpr ck_tile::index_t occupancy = 1;
+
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      const bool pad_headdim_q =
+          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+      const bool pad_headdim_v =
+          !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                kHasBiasGrad,
+                false, // kStoreLSE
+                false, // place-holder for kHasDropout, not used actually
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaBwdPipelineProblem =
+                FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+            constexpr auto FmhaBwdPipelineEnum_ =
+                FmhaBwdPipelineEnumSelector<MaxK>::value;
+
+            using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
+                FmhaBwdPipelineEnum_,
+                FmhaBwdPipelineProblem>::pipeline;
+
+            using FmhaBwdKGradEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+                    kPadSeqLenK,
+                    kPadHeadDimQ>>;
+
+            using FmhaBwdVGradEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+                    kPadSeqLenK,
+                    kPadHeadDimV>>;
+
+            using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
+                FmhaBwdPipeline_,
+                FmhaBwdKGradEpilogue_,
+                FmhaBwdVGradEpilogue_>;
+
+            RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
+          });
     };
     if constexpr (NeedConvertGradQ) {
       constexpr ck_tile::index_t kBlockSize = 256;
@@ -352,17 +347,17 @@ struct batched_backward_causalmask_bias_dropout_dispatch {
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-void run_batched_backward_causalmask_bias_dropout_dispatch(
+void run_batched_backward_mask_bias_dropout_dispatch(
     BatchedBackwardParams& param,
     hipStream_t stream) {
-  batched_backward_causalmask_bias_dropout_dispatch<
+  batched_backward_mask_bias_dropout_dispatch<
       ScalarType,
-      kHasCausalMask,
+      kHasMask,
       kHasBias,
       kHasBiasGrad,
       kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
index 3cf339b834..f6d6fb4eb6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_bf16.cpp
@@ -25,16 +25,18 @@ void batched_backward_bf16(BatchedBackwardParams& param, hipStream_t stream) {
       [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-            if (param.custom_mask_type == 0)
-              run_batched_backward_causalmask_bias_dropout_dispatch<
+            if (param.custom_mask_type == 0 && param.window_size <= 0)
+              run_batched_backward_mask_bias_dropout_dispatch<
                   ck_tile::bf16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   kHasDropout,
                   MaxK>(param, stream);
-            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_batched_backward_causalmask_bias_dropout_dispatch<
+            else if (
+                param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+                param.window_size > 0)
+              run_batched_backward_mask_bias_dropout_dispatch<
                   ck_tile::bf16_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
index 807169ccd0..342677ae88 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward_fp16.cpp
@@ -25,16 +25,18 @@ void batched_backward_fp16(BatchedBackwardParams& param, hipStream_t stream) {
       [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-            if (param.custom_mask_type == 0)
-              run_batched_backward_causalmask_bias_dropout_dispatch<
+            if (param.custom_mask_type == 0 && param.window_size <= 0)
+              run_batched_backward_mask_bias_dropout_dispatch<
                   ck_tile::fp16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   kHasDropout,
                   MaxK>(param, stream);
-            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_batched_backward_causalmask_bias_dropout_dispatch<
+            else if (
+                param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+                param.window_size > 0)
+              run_batched_backward_mask_bias_dropout_dispatch<
                   ck_tile::fp16_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index cbf9845bae..9bb7785498 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -12,11 +12,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-void run_batched_forward_causalmask_bias_dropout_dispatch(
+void run_batched_forward_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
@@ -24,25 +24,25 @@ void run_batched_forward_causalmask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-        batched_forward_splitkv_causalmask_bias_dropout_dispatch<
+        batched_forward_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
-            kHasCausalMask,
+            kHasMask,
             kHasBias,
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
     } else
 #endif
-      batched_forward_causalmask_bias_dropout_dispatch<
+      batched_forward_mask_bias_dropout_dispatch<
           ScalarType,
-          kHasCausalMask,
+          kHasMask,
           kHasBias,
           kHasDropout,
           MaxK>::Run(param, stream);
   } else {
-    batched_forward_causalmask_bias_dropout_dispatch<
+    batched_forward_mask_bias_dropout_dispatch<
         ScalarType,
-        kHasCausalMask,
+        kHasMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
index bd2e076e0c..216dab5347 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_bf16.cpp
@@ -17,15 +17,17 @@ void batched_forward_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_batched_forward_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_batched_forward_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_forward_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_batched_forward_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index 25e3c48949..f2e7f10ba8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -18,11 +18,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-struct batched_forward_causalmask_bias_dropout_dispatch {
+struct batched_forward_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -42,77 +42,71 @@ struct batched_forward_causalmask_bias_dropout_dispatch {
       FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-      using FmhaFwdTilePartitioner_ =
-          ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
-      const bool pad_seqlen_k =
-          (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
-      const bool pad_headdim_q = !(param.K % FmhaFwdShape_::kSubQKHeaddim == 0);
-      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
-
-      // usually headdim_q and headdim_v are same, consider them together to
-      // determine whether to do padding saving some compiling time
-      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-      const bool use_async_pipeline =
-          ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
-
-      BOOL_SWITCH_3(
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_seqlen_k,
-          kPadSeqLenK,
-          pad_headdim,
-          kPadHeadDim,
-          [&] {
-            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDim, // kPadHeadDimQ
-                kPadHeadDim, // kPadHeadDimV
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                true, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-            using FmhaFwdPipeline_ =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-            using FmhaFwdEpilogue_ =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDim>>;
-
-            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                FmhaFwdTilePartitioner_,
-                FmhaFwdPipeline_,
-                FmhaFwdEpilogue_>;
-
-            RunWithKernel<FmhaFwdKernel_>(param, stream);
-          });
-    });
+    using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+    using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+    using FmhaFwdTilePartitioner_ =
+        ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
+    constexpr ck_tile::index_t occupancy =
+        (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+
+    constexpr auto kBiasEnum = kHasBias
+        ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+        : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+    const bool pad_seqlen_q = !(param.M % FmhaFwdShape_::kM0 == 0);
+    const bool pad_seqlen_k =
+        (param.N == 0) || !(param.N % FmhaFwdShape_::kN0 == 0);
+    const bool pad_headdim_q = !(param.K % FmhaFwdShape_::kSubQKHeaddim == 0);
+    const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+
+    // usually headdim_q and headdim_v are same, consider them together to
+    // determine whether to do padding saving some compiling time
+    const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+    const bool use_async_pipeline =
+        ((param.K % 8 == 0) && (param.Kv % 8 == 0) && (MaxK <= 128));
+
+    BOOL_SWITCH_3(
+        pad_seqlen_q,
+        kPadSeqLenQ,
+        pad_seqlen_k,
+        kPadSeqLenK,
+        pad_headdim,
+        kPadHeadDim,
+        [&] {
+          using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDim, // kPadHeadDimQ
+              kPadHeadDim, // kPadHeadDimV
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              true, // kStoreLSE
+              kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+          using FmhaFwdPipeline_ =
+              ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+          using FmhaFwdEpilogue_ =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDim>>;
+
+          using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+              FmhaFwdTilePartitioner_,
+              FmhaFwdPipeline_,
+              FmhaFwdEpilogue_>;
+
+          RunWithKernel<FmhaFwdKernel_>(param, stream);
+        });
   };
 
   template <typename FmhaFwdKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
index 3c3791bdfb..e1d2e95557 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_fp16.cpp
@@ -17,15 +17,17 @@ void batched_forward_fp16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_batched_forward_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_batched_forward_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_forward_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_batched_forward_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 4a14da3d74..75580afcba 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -19,11 +19,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
-struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
+struct batched_forward_splitkv_mask_bias_dropout_dispatch {
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -62,109 +62,102 @@ struct batched_forward_splitkv_causalmask_bias_dropout_dispatch {
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     {
-      const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-        using FmhaTileShape =
-            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-        using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
-        constexpr ck_tile::index_t occupancy = -1;
-
-        constexpr auto kBiasEnum = kHasBias
-            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-        const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
-        const bool pad_headdim_q =
-            !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
-
-        // usually headdim_q and headdim_v are same, consider them together to
-        // determine whether to do padding saving some compiling time
-        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-        const bool has_uneven_splits =
-            !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
-
-        BOOL_SWITCH_3(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_headdim,
-            kPadHeadDim,
-            has_uneven_splits,
-            kHasUnevenSplits,
-            [&] {
-              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
-
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  true, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  kHasUnevenSplits,
-                  occupancy>;
-
-              if (param.num_kv_splits > 1) {
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-                using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-              } else {
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-                using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-              }
-            });
-      });
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+      const bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+      const bool has_uneven_splits =
+          !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
+
+      BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_headdim,
+          kPadHeadDim,
+          has_uneven_splits,
+          kHasUnevenSplits,
+          [&] {
+            constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
+            using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ,
+                kPadHeadDim, // kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                true, // kStoreLSE
+                false, // kDoFp8StaticQuant place-holder
+                false, // kIsPagedKV
+                kHasUnevenSplits,
+                occupancy>;
+
+            if (param.num_kv_splits > 1) {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            } else {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            }
+          });
     }
 
     if (param.num_kv_splits > 1) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 20042fd4f5..ac9d5db2ca 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -12,11 +12,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-void run_batched_infer_causalmask_bias_dropout_dispatch(
+void run_batched_infer_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
@@ -24,25 +24,25 @@ void run_batched_infer_causalmask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-        batched_infer_splitkv_causalmask_bias_dropout_dispatch<
+        batched_infer_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
-            kHasCausalMask,
+            kHasMask,
             kHasBias,
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
     } else
 #endif
-      batched_infer_causalmask_bias_dropout_dispatch<
+      batched_infer_mask_bias_dropout_dispatch<
           ScalarType,
-          kHasCausalMask,
+          kHasMask,
           kHasBias,
           kHasDropout,
           MaxK>::Run(param, stream);
   } else {
-    batched_infer_causalmask_bias_dropout_dispatch<
+    batched_infer_mask_bias_dropout_dispatch<
         ScalarType,
-        kHasCausalMask,
+        kHasMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
index 23b04d935f..dca87ca6c7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_bf16.cpp
@@ -16,15 +16,17 @@ void batched_infer_bf16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_batched_infer_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_batched_infer_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_infer_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_batched_infer_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 7ca00ecae9..c5275a7d2d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -19,11 +19,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-struct batched_infer_causalmask_bias_dropout_dispatch {
+struct batched_infer_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -43,111 +43,103 @@ struct batched_infer_causalmask_bias_dropout_dispatch {
       FmhaTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaShape = FmhaFwdShape<MaxK>;
-      using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-      const bool pad_seqlen_k =
-          (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
-      const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-      const bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
-
-      // usually headdim_q and headdim_v are same, consider them together to
-      // determine whether to do padding saving some compiling time
-      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-      const bool use_async_pipeline =
-          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-           (MaxK <= 128));
-
-      if (!use_async_pipeline) {
-        BOOL_SWITCH_3(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_seqlen_k,
+    using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+    using FmhaShape = FmhaFwdShape<MaxK>;
+    using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
+    constexpr ck_tile::index_t occupancy =
+        (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+
+    constexpr auto kBiasEnum = kHasBias
+        ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+        : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+    const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
+    const bool pad_seqlen_k =
+        (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
+    const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+    const bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
+
+    // usually headdim_q and headdim_v are same, consider them together to
+    // determine whether to do padding saving some compiling time
+    const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+    const bool use_async_pipeline =
+        (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+         (MaxK <= 128));
+
+    if (!use_async_pipeline) {
+      BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim,
+          kPadHeadDim,
+          [&] {
+            using FmhaTraits = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ,
+                kPadHeadDim, // kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDim>>;
+
+            using FmhaKernel = ck_tile::
+                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          });
+    } else {
+      BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
+        using FmhaTraits = ck_tile::TileFmhaTraits<
+            true, // kPadSeqLenQ,
             kPadSeqLenK,
-            pad_headdim,
-            kPadHeadDim,
-            [&] {
-              using FmhaTraits = ck_tile::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  kHasDropout,
-                  false, // kDoFp8StaticQuant place-holder
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                      kPadSeqLenQ,
-                      kPadHeadDim>>;
-
-              using FmhaKernel = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            });
-      } else {
-        BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-          using FmhaTraits = ck_tile::TileFmhaTraits<
-              true, // kPadSeqLenQ,
-              kPadSeqLenK,
-              true, // kPadHeadDimQ,
-              true, // kPadHeadDimV,
-              kBiasEnum,
-              false, // kHasBiasGrad place-holder
-              false, // kStoreLSE
-              kHasDropout,
-              false, // kDoFp8StaticQuant place-holder
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-          using FmhaPipeline =
-              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
-
-          using FmhaEpilogue =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                  true,
-                  true>>;
-
-          using FmhaKernel = ck_tile::
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        });
-      };
-    });
+            true, // kPadHeadDimQ,
+            true, // kPadHeadDimV,
+            kBiasEnum,
+            false, // kHasBiasGrad place-holder
+            false, // kStoreLSE
+            kHasDropout,
+            false, // kDoFp8StaticQuant place-holder
+            occupancy>;
+
+        using FmhaPipelineProblem =
+            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+        using FmhaPipeline =
+            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+
+        using FmhaEpilogue =
+            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                true,
+                true>>;
+
+        using FmhaKernel = ck_tile::
+            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+        RunWithKernel<FmhaKernel>(param, stream);
+      });
+    };
   };
 
   template <typename FmhaKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
index 4e1d99e8ec..2d899e9378 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_fp16.cpp
@@ -16,15 +16,17 @@ void batched_infer_fp16(BatchedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_batched_infer_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_batched_infer_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_batched_infer_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_batched_infer_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 7cb4659931..eae2327f73 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -19,11 +19,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
-struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
+struct batched_infer_splitkv_mask_bias_dropout_dispatch {
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -62,122 +62,115 @@ struct batched_infer_splitkv_causalmask_bias_dropout_dispatch {
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     {
-      const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-        using FmhaTileShape =
-            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-        using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
-        constexpr ck_tile::index_t occupancy = -1;
-
-        constexpr auto kBiasEnum = kHasBias
-            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-        const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
-        const bool pad_headdim_q =
-            !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
-
-        // usually headdim_q and headdim_v are same, consider them together to
-        // determine whether to do padding saving some compiling time
-        const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
-
-        const bool has_uneven_splits =
-            !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
-
-        BOOL_SWITCH_3(
-            pad_seqlen_q,
-            kPadSeqLenQ,
-            pad_headdim,
-            kPadHeadDim,
-            has_uneven_splits,
-            kHasUnevenSplits,
-            [&] {
-              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
-
-              if (param.num_kv_splits > 1) {
-                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                    kPadSeqLenQ,
-                    kPadSeqLenK,
-                    kPadHeadDim, // kPadHeadDimQ,
-                    kPadHeadDim, // kPadHeadDimV,
-                    kBiasEnum,
-                    false, // kHasBiasGrad place-holder
-                    true, // kStoreLSE
-                    false, // kDoFp8StaticQuant place-holder
-                    false, // kIsPagedKV
-                    kHasUnevenSplits,
-                    occupancy>;
-
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-                using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-              } else {
-                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                    kPadSeqLenQ,
-                    kPadSeqLenK,
-                    kPadHeadDim, // kPadHeadDimQ,
-                    kPadHeadDim, // kPadHeadDimV,
-                    kBiasEnum,
-                    false, // kHasBiasGrad place-holder
-                    false, // kStoreLSE
-                    false, // kDoFp8StaticQuant place-holder
-                    false, // kIsPagedKV
-                    kHasUnevenSplits,
-                    occupancy>;
-
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-                using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-              }
-            });
-      });
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+      const bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+      const bool has_uneven_splits =
+          !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
+
+      BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_headdim,
+          kPadHeadDim,
+          has_uneven_splits,
+          kHasUnevenSplits,
+          [&] {
+            constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
+            if (param.num_kv_splits > 1) {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  kHasUnevenSplits,
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  kHasUnevenSplits,
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            }
+          });
     };
 
     if (param.num_kv_splits > 1) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index 6f2fe1eff9..dc7909a576 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -18,12 +18,12 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-struct grouped_backward_causalmask_bias_dropout_dispatch {
+struct grouped_backward_mask_bias_dropout_dispatch {
   using FmhaBlockDropout =
       typename FmhaBwdBlockDropoutMaker<kHasDropout, MaxK>::dropout;
 
@@ -90,73 +90,68 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
     };
 
     {
-      const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr ck_tile::index_t occupancy = 1;
-        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-        const bool has_dropout = (param.dropout_prob > 0.0f);
-
-        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-        constexpr auto kBiasEnum = kHasBias
-            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-        constexpr bool kPadSeqLenQ = true;
-        constexpr bool kPadSeqLenK = true;
-
-        const bool pad_headdim_q =
-            !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
-        const bool pad_headdim_v =
-            !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
-
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  kHasBiasGrad,
-                  false, // kStoreLSE
-                  false, // place-holder for kHasDropout, not used actually
-                  false, // kDoFp8StaticQuant place-holder
-                  occupancy>;
-
-              using FmhaBwdPipelineProblem =
-                  FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
-
-              constexpr auto FmhaBwdPipelineEnum_ =
-                  FmhaBwdPipelineEnumSelector<MaxK>::value;
-
-              using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
-                  FmhaBwdPipelineEnum_,
-                  FmhaBwdPipelineProblem>::pipeline;
-
-              using FmhaBwdKGradEpilogue_ =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                      typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
-                      kPadSeqLenK,
-                      kPadHeadDimQ>>;
-
-              using FmhaBwdVGradEpilogue_ =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
-                      typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
-                      kPadSeqLenK,
-                      kPadHeadDimV>>;
-
-              using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
-                  FmhaBwdPipeline_,
-                  FmhaBwdKGradEpilogue_,
-                  FmhaBwdVGradEpilogue_>;
-
-              RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
-            });
-      });
+      constexpr ck_tile::index_t occupancy = 1;
+      const bool has_dropout = (param.dropout_prob > 0.0f);
+
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      const bool pad_headdim_q =
+          !(param.K % FmhaBwdShape<MaxK>::kQKHeaddim == 0);
+      const bool pad_headdim_v =
+          !(param.Kv % FmhaBwdShape<MaxK>::kVHeaddim == 0);
+
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaBwdTraits_ = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                kHasBiasGrad,
+                false, // kStoreLSE
+                false, // place-holder for kHasDropout, not used actually
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaBwdPipelineProblem =
+                FmhaBwdPipelineProblemTemp<FmhaBwdTraits_, FmhaMask>;
+
+            constexpr auto FmhaBwdPipelineEnum_ =
+                FmhaBwdPipelineEnumSelector<MaxK>::value;
+
+            using FmhaBwdPipeline_ = typename FmhaBwdPipelineMaker<
+                FmhaBwdPipelineEnum_,
+                FmhaBwdPipelineProblem>::pipeline;
+
+            using FmhaBwdKGradEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::KGradDataType,
+                    kPadSeqLenK,
+                    kPadHeadDimQ>>;
+
+            using FmhaBwdVGradEpilogue_ =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaBwdTypeConfig<ScalarType>::AccDataType,
+                    typename FmhaBwdTypeConfig<ScalarType>::VGradDataType,
+                    kPadSeqLenK,
+                    kPadHeadDimV>>;
+
+            using FmhaBwdDQDKDVKernel_ = ck_tile::FmhaBwdDQDKDVKernel<
+                FmhaBwdPipeline_,
+                FmhaBwdKGradEpilogue_,
+                FmhaBwdVGradEpilogue_>;
+
+            RunWithBwdDQDKDVKernel<FmhaBwdDQDKDVKernel_>(param, stream);
+          });
     };
 
     if constexpr (NeedConvertGradQ) {
@@ -335,17 +330,17 @@ struct grouped_backward_causalmask_bias_dropout_dispatch {
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasBiasGrad,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-void run_grouped_backward_causalmask_bias_dropout_dispatch(
+void run_grouped_backward_mask_bias_dropout_dispatch(
     GroupedBackwardParams& param,
     hipStream_t stream) {
-  grouped_backward_causalmask_bias_dropout_dispatch<
+  grouped_backward_mask_bias_dropout_dispatch<
       ScalarType,
-      kHasCausalMask,
+      kHasMask,
       kHasBias,
       kHasBiasGrad,
       kHasDropout,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
index 7b77442be6..dd18cb4d4b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_bf16.cpp
@@ -25,16 +25,18 @@ void grouped_backward_bf16(GroupedBackwardParams& param, hipStream_t stream) {
       [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-            if (param.custom_mask_type == 0)
-              run_grouped_backward_causalmask_bias_dropout_dispatch<
+            if (param.custom_mask_type == 0 && param.window_size <= 0)
+              run_grouped_backward_mask_bias_dropout_dispatch<
                   ck_tile::bf16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   kHasDropout,
                   MaxK>(param, stream);
-            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_grouped_backward_causalmask_bias_dropout_dispatch<
+            else if (
+                param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+                param.window_size > 0)
+              run_grouped_backward_mask_bias_dropout_dispatch<
                   ck_tile::bf16_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
index be47bbdbb1..f5f2a954e8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward_fp16.cpp
@@ -25,16 +25,18 @@ void grouped_backward_fp16(GroupedBackwardParams& param, hipStream_t stream) {
       [&] {
         if constexpr (kHasBias || !kHasBiasGrad) {
           FMHA_BWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-            if (param.custom_mask_type == 0)
-              run_grouped_backward_causalmask_bias_dropout_dispatch<
+            if (param.custom_mask_type == 0 && param.window_size <= 0)
+              run_grouped_backward_mask_bias_dropout_dispatch<
                   ck_tile::fp16_t,
                   false,
                   kHasBias,
                   kHasBiasGrad,
                   kHasDropout,
                   MaxK>(param, stream);
-            else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-              run_grouped_backward_causalmask_bias_dropout_dispatch<
+            else if (
+                param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+                param.window_size > 0)
+              run_grouped_backward_mask_bias_dropout_dispatch<
                   ck_tile::fp16_t,
                   true,
                   kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 6fc55036c1..fc727bb101 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -12,11 +12,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-void run_grouped_forward_causalmask_bias_dropout_dispatch(
+void run_grouped_forward_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
@@ -24,25 +24,25 @@ void run_grouped_forward_causalmask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-        grouped_forward_splitkv_causalmask_bias_dropout_dispatch<
+        grouped_forward_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
-            kHasCausalMask,
+            kHasMask,
             kHasBias,
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
     } else
 #endif
-      grouped_forward_causalmask_bias_dropout_dispatch<
+      grouped_forward_mask_bias_dropout_dispatch<
           ScalarType,
-          kHasCausalMask,
+          kHasMask,
           kHasBias,
           kHasDropout,
           MaxK>::Run(param, stream);
   } else {
-    grouped_forward_causalmask_bias_dropout_dispatch<
+    grouped_forward_mask_bias_dropout_dispatch<
         ScalarType,
-        kHasCausalMask,
+        kHasMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
index 28d75ddc56..bc8d28a930 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_bf16.cpp
@@ -17,15 +17,17 @@ void grouped_forward_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_grouped_forward_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_grouped_forward_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_forward_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_grouped_forward_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index 52e55bdada..179ae711c8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -18,11 +18,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-struct grouped_forward_causalmask_bias_dropout_dispatch {
+struct grouped_forward_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -42,78 +42,72 @@ struct grouped_forward_causalmask_bias_dropout_dispatch {
       FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
-
-      constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
-          : (MaxK == 256)                                 ? 1
-                                                          : 2;
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      constexpr bool kPadSeqLenQ = true;
-      constexpr bool kPadSeqLenK = true;
-
-      const bool pad_headdim_q = !(param.K % FmhaFwdShape_::kSubQKHeaddim == 0);
-      const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
-
-      BOOL_SWITCH_2(
-          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-            using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDimQ,
-                kPadHeadDimV,
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                true, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
-
-            using FmhaFwdPipeline_ =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-            using FmhaFwdEpilogue_ =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDimV>>;
-
-            if (param.seqlen_k_dev_ptr !=
-                nullptr) { // seqlen_k of batches are padded
-              using FmhaTilePartitioner =
-                  ck_tile::FmhaFwdTilePartitioner_HBS<FmhaFwdShape_>;
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            } else {
-              using FmhaTilePartitioner =
-                  ck_tile::FmhaFwdTilePartitioner_SHB<FmhaFwdShape_>;
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
-
-              RunWithKernel<FmhaFwdKernel_>(param, stream);
-            }
-          });
-    });
+    using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+    using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+
+    constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
+        : (MaxK == 256)                                 ? 1
+                                                        : 2;
+
+    constexpr auto kBiasEnum = kHasBias
+        ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+        : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+    constexpr bool kPadSeqLenQ = true;
+    constexpr bool kPadSeqLenK = true;
+
+    const bool pad_headdim_q = !(param.K % FmhaFwdShape_::kSubQKHeaddim == 0);
+    const bool pad_headdim_v = !(param.Kv % FmhaFwdShape_::kN1 == 0);
+
+    BOOL_SWITCH_2(
+        pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+          using FmhaFwdTraits_ = ck_tile::TileFmhaTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDimQ,
+              kPadHeadDimV,
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              true, // kStoreLSE
+              kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
+
+          using FmhaFwdPipeline_ =
+              ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+          using FmhaFwdEpilogue_ =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+          if (param.seqlen_k_dev_ptr !=
+              nullptr) { // seqlen_k of batches are padded
+            using FmhaTilePartitioner =
+                ck_tile::FmhaFwdTilePartitioner_HBS<FmhaFwdShape_>;
+            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                FmhaTilePartitioner,
+                FmhaFwdPipeline_,
+                FmhaFwdEpilogue_>;
+
+            RunWithKernel<FmhaFwdKernel_>(param, stream);
+          } else {
+            using FmhaTilePartitioner =
+                ck_tile::FmhaFwdTilePartitioner_SHB<FmhaFwdShape_>;
+            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
+                FmhaTilePartitioner,
+                FmhaFwdPipeline_,
+                FmhaFwdEpilogue_>;
+
+            RunWithKernel<FmhaFwdKernel_>(param, stream);
+          }
+        });
   };
 
   template <typename FmhaFwdKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
index 31e28bad6d..ecd80de2bc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_fp16.cpp
@@ -17,15 +17,17 @@ void grouped_forward_fp16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_grouped_forward_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_grouped_forward_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_forward_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_grouped_forward_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index eab6038763..47d23d40c7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -19,11 +19,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
-struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
+struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -62,99 +62,92 @@ struct grouped_forward_splitkv_causalmask_bias_dropout_dispatch {
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     {
-      const bool has_local_attention = (param.window_size > 0) ? true : false;
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-        using FmhaTileShape =
-            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-        using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
-
-        constexpr ck_tile::index_t occupancy = -1;
-
-        constexpr auto kBiasEnum = kHasBias
-            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
-        constexpr bool kPadSeqLenQ = true;
-        constexpr bool kPadSeqLenK = true;
+      constexpr ck_tile::index_t occupancy = -1;
 
-        const bool pad_headdim_q =
-            !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
-        const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  true, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  true, // kHasUnevenSplits
-                  occupancy>;
-
-              if (param.num_kv_splits > 1) {
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaFwdPipeline_ =
-                    ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                        FmhaPipelineProblem>;
-
-                using FmhaFwdEpilogue_ = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaFwdPipeline_,
-                    FmhaFwdEpilogue_>;
-
-                RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
-              } else {
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaFwdPipeline_ =
-                    ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                        FmhaPipelineProblem>;
-
-                using FmhaFwdEpilogue_ = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaFwdPipeline_,
-                    FmhaFwdEpilogue_>;
-
-                RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
-              }
-            });
-      });
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      const bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                true, // kStoreLSE
+                false, // kDoFp8StaticQuant place-holder
+                false, // kIsPagedKV
+                true, // kHasUnevenSplits
+                occupancy>;
+
+            if (param.num_kv_splits > 1) {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaFwdPipeline_ =
+                  ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaFwdEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+            } else {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaFwdPipeline_ =
+                  ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaFwdEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+            }
+          });
     };
 
     if (param.num_kv_splits > 1) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 62d8d9db62..70ce0ea0fe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -12,11 +12,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-void run_grouped_infer_causalmask_bias_dropout_dispatch(
+void run_grouped_infer_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
@@ -24,25 +24,25 @@ void run_grouped_infer_causalmask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-        grouped_infer_splitkv_causalmask_bias_dropout_dispatch<
+        grouped_infer_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
-            kHasCausalMask,
+            kHasMask,
             kHasBias,
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
     } else
 #endif
-      grouped_infer_causalmask_bias_dropout_dispatch<
+      grouped_infer_mask_bias_dropout_dispatch<
           ScalarType,
-          kHasCausalMask,
+          kHasMask,
           kHasBias,
           kHasDropout,
           MaxK>::Run(param, stream);
   } else {
-    grouped_infer_causalmask_bias_dropout_dispatch<
+    grouped_infer_mask_bias_dropout_dispatch<
         ScalarType,
-        kHasCausalMask,
+        kHasMask,
         kHasBias,
         kHasDropout,
         MaxK>::Run(param, stream);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
index 090227c1db..e740b7308b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_bf16.cpp
@@ -16,15 +16,17 @@ void grouped_infer_bf16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_grouped_infer_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_grouped_infer_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_infer_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_grouped_infer_mask_bias_dropout_dispatch<
             ck_tile::bf16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 9348bed6b2..f22c2cb21b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -19,11 +19,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
     ck_tile::index_t MaxK>
-struct grouped_infer_causalmask_bias_dropout_dispatch {
+struct grouped_infer_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -43,123 +43,115 @@ struct grouped_infer_causalmask_bias_dropout_dispatch {
       FmhaTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
-    const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-    BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-      constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-      using FmhaShape = FmhaFwdShape<MaxK>;
-      constexpr ck_tile::index_t occupancy =
-          (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
-
-      constexpr auto kBiasEnum = kHasBias
-          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-      constexpr bool kPadSeqLenQ = true;
-      constexpr bool kPadSeqLenK = true;
-
-      bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
-      bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-      const bool use_async_pipeline =
-          (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-           (MaxK <= 128));
-
-      if (!use_async_pipeline) {
-        BOOL_SWITCH_2(
-            pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-              using FmhaTraits = ck_tile::TileFmhaTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  kHasDropout,
-                  false, // kDoFp8StaticQuant place-holder
-                  occupancy>;
-
-              using FmhaPipelineProblem =
-                  FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                      kPadSeqLenQ,
-                      kPadHeadDimV>>;
-
-              if (param.seqlen_k_dev_ptr !=
-                  nullptr) { // seqlen_k of batches are padded
-                using FmhaTilePartitioner =
-                    ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
-                using FmhaKernel = ck_tile::FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              } else {
-                using FmhaTilePartitioner =
-                    ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
-                using FmhaKernel = ck_tile::FmhaFwdKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithKernel<FmhaKernel>(param, stream);
-              }
-            });
+    using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+    using FmhaShape = FmhaFwdShape<MaxK>;
+    constexpr ck_tile::index_t occupancy =
+        (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+
+    constexpr auto kBiasEnum = kHasBias
+        ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+        : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+    constexpr bool kPadSeqLenQ = true;
+    constexpr bool kPadSeqLenK = true;
+
+    bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
+    bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
+    const bool use_async_pipeline =
+        (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+         (MaxK <= 128));
+
+    if (!use_async_pipeline) {
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaTraits = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDimV>>;
+
+            if (param.seqlen_k_dev_ptr !=
+                nullptr) { // seqlen_k of batches are padded
+              using FmhaTilePartitioner =
+                  ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
+              using FmhaKernel = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaTilePartitioner =
+                  ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
+              using FmhaKernel = ck_tile::FmhaFwdKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            }
+          });
+    } else {
+      using FmhaTraits = ck_tile::TileFmhaTraits<
+          true, // kPadSeqLenQ,
+          kPadSeqLenK,
+          true, // kPadHeadDimQ,
+          true, // kPadHeadDimV,
+          kBiasEnum,
+          false, // kHasBiasGrad place-holder
+          false, // kStoreLSE
+          kHasDropout,
+          false, // kDoFp8StaticQuant place-holder
+          occupancy>;
+
+      using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+      using FmhaPipeline =
+          ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+
+      using FmhaEpilogue =
+          ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+              true,
+              true>>;
+
+      if (param.seqlen_k_dev_ptr != nullptr) { // seqlen_k of batches are padded
+        using FmhaTilePartitioner =
+            ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
+        using FmhaKernel = ck_tile::
+            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+        RunWithKernel<FmhaKernel>(param, stream);
       } else {
-        using FmhaTraits = ck_tile::TileFmhaTraits<
-            true, // kPadSeqLenQ,
-            kPadSeqLenK,
-            true, // kPadHeadDimQ,
-            true, // kPadHeadDimV,
-            kBiasEnum,
-            false, // kHasBiasGrad place-holder
-            false, // kStoreLSE
-            kHasDropout,
-            false, // kDoFp8StaticQuant place-holder
-            occupancy>;
-
-        using FmhaPipelineProblem =
-            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-        using FmhaPipeline =
-            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
-
-        using FmhaEpilogue =
-            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                true,
-                true>>;
-
-        if (param.seqlen_k_dev_ptr !=
-            nullptr) { // seqlen_k of batches are padded
-          using FmhaTilePartitioner =
-              ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
-          using FmhaKernel = ck_tile::
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        } else {
-          using FmhaTilePartitioner =
-              ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
-          using FmhaKernel = ck_tile::
-              FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
-        }
+        using FmhaTilePartitioner =
+            ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
+        using FmhaKernel = ck_tile::
+            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+        RunWithKernel<FmhaKernel>(param, stream);
       }
-    });
+    }
   };
 
   template <typename FmhaKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
index 62c774ff59..fd0110cb96 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_fp16.cpp
@@ -16,15 +16,17 @@ void grouped_infer_fp16(GroupedForwardParams& param, hipStream_t stream) {
   const bool has_dropout = (param.dropout_prob > 0.0f);
   BOOL_SWITCH_2(param.has_attn_bias, kHasBias, has_dropout, kHasDropout, [&] {
     FMHA_FWD_HEADDIM_SWITCH(param.K, param.Kv, MaxK, [&] {
-      if (param.custom_mask_type == 0)
-        run_grouped_infer_causalmask_bias_dropout_dispatch<
+      if (param.custom_mask_type == 0 && param.window_size <= 0)
+        run_grouped_infer_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             false,
             kHasBias,
             kHasDropout,
             MaxK>(param, stream);
-      else if (param.custom_mask_type == 1 || param.custom_mask_type == 2)
-        run_grouped_infer_causalmask_bias_dropout_dispatch<
+      else if (
+          param.custom_mask_type == 1 || param.custom_mask_type == 2 ||
+          param.window_size > 0)
+        run_grouped_infer_mask_bias_dropout_dispatch<
             ck_tile::fp16_t,
             true,
             kHasBias,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 8d5de5afe0..a4274904cf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -19,11 +19,11 @@
 
 template <
     typename ScalarType,
-    bool kHasCausalMask,
+    bool kHasMask,
     bool kHasBias,
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
-struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
+struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -62,117 +62,111 @@ struct grouped_infer_splitkv_causalmask_bias_dropout_dispatch {
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     {
-      const bool has_local_attention = (param.window_size > 0) ? true : false;
-
-      BOOL_SWITCH(has_local_attention, USE_LOCAL_ATTENTION, [&] {
-        constexpr bool has_masking = kHasCausalMask || USE_LOCAL_ATTENTION;
-
-        using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<has_masking>;
-
-        using FmhaTileShape =
-            typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-        using FmhaTilePartitioner =
-            ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
-
-        constexpr ck_tile::index_t occupancy = -1;
-
-        constexpr auto kBiasEnum = kHasBias
-            ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
-            : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
-
-        constexpr bool kPadSeqLenQ = true;
-        constexpr bool kPadSeqLenK = true;
-
-        bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
-        bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
-
-        bool is_paged_kv = param.use_paged_kvcache;
-
-        BOOL_SWITCH_3(
-            pad_headdim_q,
-            kPadHeadDimQ,
-            pad_headdim_v,
-            kPadHeadDimV,
-            is_paged_kv,
-            kIsPagedKV,
-            [&] {
-              if (param.num_kv_splits > 1) {
-                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                    kPadSeqLenQ,
-                    kPadSeqLenK,
-                    kPadHeadDimQ,
-                    kPadHeadDimV,
-                    kBiasEnum,
-                    false, // kHasBiasGrad place-holder
-                    true, // kStoreLSE
-                    false, // kDoFp8StaticQuant place-holder
-                    kIsPagedKV,
-                    true, // kHasUnevenSplits
-                    occupancy>;
-
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-                using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-              } else {
-                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                    kPadSeqLenQ,
-                    kPadSeqLenK,
-                    kPadHeadDimQ,
-                    kPadHeadDimV,
-                    kBiasEnum,
-                    false, // kHasBiasGrad place-holder
-                    false, // kStoreLSE
-                    false, // kDoFp8StaticQuant place-holder
-                    kIsPagedKV,
-                    true, // kHasUnevenSplits
-                    occupancy>;
-
-                using ODataType =
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
-                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                    FmhaTraits,
-                    FmhaMask,
-                    ODataType>;
-
-                using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
-                    FmhaPipelineProblem>;
-
-                using FmhaEpilogue = ck_tile::Default2DEpilogue<
-                    ck_tile::Default2DEpilogueProblem<
-                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                        ODataType,
-                        false,
-                        false>>;
-
-                using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                    FmhaTilePartitioner,
-                    FmhaPipeline,
-                    FmhaEpilogue>;
-
-                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-              }
-            });
-      });
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape =
+          typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+
+      bool is_paged_kv = param.use_paged_kvcache;
+
+      BOOL_SWITCH_3(
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          is_paged_kv,
+          kIsPagedKV,
+          [&] {
+            if (param.num_kv_splits > 1) {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  kIsPagedKV,
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  kIsPagedKV,
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline = ck_tile::BlockFmhaFwdSplitKVPipelineQRKSVS<
+                  FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            }
+          });
     };
 
     if (param.num_kv_splits > 1) {
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index f8436e1e17..8a62095ae1 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -27,16 +27,16 @@
 """
 
 FMHA_INFER_INSTANCE_TEMPLATE = """
-{extern}template void run_{mode}_infer_causalmask_bias_dropout_dispatch<
+{extern}template void run_{mode}_infer_mask_bias_dropout_dispatch<
     {dtype},
-    {has_causalmask},
+    {has_mask},
     {has_bias},
     {has_dropout},
     {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
 """
 
 FMHA_INFER_INSTANCE_FNAME = (
-    "fmha_{mode}_infer_{dtype_str}_{has_or_no_causalmask_str}_"
+    "fmha_{mode}_infer_{dtype_str}_{has_or_no_mask_str}_"
     "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 )
 
@@ -46,16 +46,16 @@
 """
 
 FMHA_FORWARD_INSTANCE_TEMPLATE = """
-{extern}template void run_{mode}_forward_causalmask_bias_dropout_dispatch<
+{extern}template void run_{mode}_forward_mask_bias_dropout_dispatch<
     {dtype},
-    {has_causalmask},
+    {has_mask},
     {has_bias},
     {has_dropout},
     {max_k}>({cap_mode}ForwardParams& param, hipStream_t stream);
 """
 
 FMHA_FORWARD_INSTANCE_FNAME = (
-    "fmha_{mode}_forward_{dtype_str}_{has_or_no_causalmask_str}_"
+    "fmha_{mode}_forward_{dtype_str}_{has_or_no_mask_str}_"
     "{has_or_no_bias_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 )
 
@@ -65,9 +65,9 @@
 """
 
 FMHA_BACKWARD_INSTANCE_TEMPLATE = """
-{extern}template void run_{mode}_backward_causalmask_bias_dropout_dispatch<
+{extern}template void run_{mode}_backward_mask_bias_dropout_dispatch<
     {dtype},
-    {has_causalmask},
+    {has_mask},
     {has_bias},
     {has_bias_grad},
     {has_dropout},
@@ -75,7 +75,7 @@
 """
 
 FMHA_BACKWARD_INSTANCE_FNAME = (
-    "fmha_{mode}_backward_{dtype_str}_{has_or_no_causalmask_str}_"
+    "fmha_{mode}_backward_{dtype_str}_{has_or_no_mask_str}_"
     "{has_or_no_bias_str}_{has_or_no_biasgrad_str}_{has_or_no_dropout_str}_{max_k_str}.cpp"
 )
 
@@ -83,9 +83,9 @@
 
 BOOL_MAP = {True: "true", False: "false"}
 
-BOOL_MAP_CAUSALMASK = {
-    True: "has_causalmask",
-    False: "no_causalmask",
+BOOL_MAP_MASK = {
+    True: "has_mask",
+    False: "no_mask",
 }
 
 BOOL_MAP_BIAS = {
@@ -130,15 +130,15 @@
 def create_infer_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
-            for has_causalmask in [True, False]:
+            for has_mask in [True, False]:
                 for has_bias in [True, False]:
                     for has_dropout in [True, False]:
                         for max_k in headdims:
                             fname = FMHA_INFER_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[
-                                    has_causalmask
+                                has_or_no_mask_str=BOOL_MAP_MASK[
+                                    has_mask
                                 ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
@@ -154,7 +154,7 @@ def create_infer_instances(instance_dir: Path, headdims: List) -> None:
                                 extern="",
                                 mode=mode,
                                 dtype=TYPE_CTYPE_MAP[dtype],
-                                has_causalmask=BOOL_MAP[has_causalmask],
+                                has_mask=BOOL_MAP[has_mask],
                                 has_bias=BOOL_MAP[has_bias],
                                 has_dropout=BOOL_MAP[has_dropout],
                                 max_k=max_k,
@@ -186,12 +186,12 @@ def create_infer_instances_ref(instance_dir: Path, headdims: List) -> None:
                 for max_k in headdims:
                     for has_bias in [True, False]:
                         for has_dropout in [True, False]:
-                            for has_causalmask in [True, False]:
+                            for has_mask in [True, False]:
                                 infer_instance = FMHA_INFER_INSTANCE_TEMPLATE.format(
                                     extern="extern ",
                                     mode=mode,
                                     dtype=TYPE_CTYPE_MAP[dtype],
-                                    has_causalmask=BOOL_MAP[has_causalmask],
+                                    has_mask=BOOL_MAP[has_mask],
                                     has_bias=BOOL_MAP[has_bias],
                                     has_dropout=BOOL_MAP[has_dropout],
                                     max_k=max_k,
@@ -203,15 +203,15 @@ def create_infer_instances_ref(instance_dir: Path, headdims: List) -> None:
 def create_forward_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
-            for has_causalmask in [True, False]:
+            for has_mask in [True, False]:
                 for has_bias in [True, False]:
                     for has_dropout in [True, False]:
                         for max_k in headdims:
                             fname = FMHA_FORWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[
-                                    has_causalmask
+                                has_or_no_mask_str=BOOL_MAP_MASK[
+                                    has_mask
                                 ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
@@ -227,7 +227,7 @@ def create_forward_instances(instance_dir: Path, headdims: List) -> None:
                                 extern="",
                                 mode=mode,
                                 dtype=TYPE_CTYPE_MAP[dtype],
-                                has_causalmask=BOOL_MAP[has_causalmask],
+                                has_mask=BOOL_MAP[has_mask],
                                 has_bias=BOOL_MAP[has_bias],
                                 has_dropout=BOOL_MAP[has_dropout],
                                 max_k=max_k,
@@ -259,13 +259,13 @@ def create_forward_instances_ref(instance_dir: Path, headdims: List) -> None:
                 for max_k in headdims:
                     for has_bias in [True, False]:
                         for has_dropout in [True, False]:
-                            for has_causalmask in [True, False]:
+                            for has_mask in [True, False]:
                                 forward_instance = (
                                     FMHA_FORWARD_INSTANCE_TEMPLATE.format(
                                         extern="extern ",
                                         mode=mode,
                                         dtype=TYPE_CTYPE_MAP[dtype],
-                                        has_causalmask=BOOL_MAP[has_causalmask],
+                                        has_mask=BOOL_MAP[has_mask],
                                         has_bias=BOOL_MAP[has_bias],
                                         has_dropout=BOOL_MAP[has_dropout],
                                         max_k=max_k,
@@ -278,7 +278,7 @@ def create_forward_instances_ref(instance_dir: Path, headdims: List) -> None:
 def create_backward_instances(instance_dir: Path, headdims: List) -> None:
     for mode in ["batched", "grouped"]:
         for dtype in ["fp16", "bf16"]:
-            for has_causalmask in [True, False]:
+            for has_mask in [True, False]:
                 for has_bias, has_bias_grad in [
                     [True, False],
                     [True, True],
@@ -289,8 +289,8 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_causalmask_str=BOOL_MAP_CAUSALMASK[
-                                    has_causalmask
+                                has_or_no_mask_str=BOOL_MAP_MASK[
+                                    has_mask
                                 ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
@@ -307,7 +307,7 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
                                 extern="",
                                 mode=mode,
                                 dtype=TYPE_CTYPE_MAP[dtype],
-                                has_causalmask=BOOL_MAP[has_causalmask],
+                                has_mask=BOOL_MAP[has_mask],
                                 has_bias=BOOL_MAP[has_bias],
                                 has_bias_grad=BOOL_MAP[has_bias_grad],
                                 has_dropout=BOOL_MAP[has_dropout],
@@ -344,13 +344,13 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
                         [False, False],
                     ]:
                         for has_dropout in [True, False]:
-                            for has_causalmask in [True, False]:
+                            for has_mask in [True, False]:
                                 backward_instance = (
                                     FMHA_BACKWARD_INSTANCE_TEMPLATE.format(
                                         extern="extern ",
                                         mode=mode,
                                         dtype=TYPE_CTYPE_MAP[dtype],
-                                        has_causalmask=BOOL_MAP[has_causalmask],
+                                        has_mask=BOOL_MAP[has_mask],
                                         has_bias=BOOL_MAP[has_bias],
                                         has_bias_grad=BOOL_MAP[has_bias_grad],
                                         has_dropout=BOOL_MAP[has_dropout],
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index b129b07194..d6b447d173 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 58aaac8016..c319629872 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 73360d7dc6..6161fc4ae4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 7f99b48199..08c3ec38a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 0507274536..12c1aa463c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index b831c919df..8bea77809d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 070e8b2c0b..5ed35bbef6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 504c22609f..672d36fe11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 62a1c9d0b5..b70134c681 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 7138c96268..e2301db5ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index b5b258196e..c132e77e64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 1829f50f2d..aac5a1aaf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    true,
     false,
+    true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 2a5977be38..a4d5950050 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
+    false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 573d9bf4b8..aa88585bc2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 243b68b6ed..3e99fd87db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    true,
     false,
+    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 0d902e1203..8c95d9392c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
+    true,
     false,
     false,
-    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 4067c8e5ac..25e054c6ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
     false,
+    false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index c3dd3d5fe3..cec2dec8bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
     false,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d8fd52d7aa..fe59c183f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
     false,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index cfa553fd21..9c1dd943e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
+    true,
     false,
     false,
-    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index f4f3ac89c2..7603478867 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 13dfd5a096..a085a7ab08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 331b791409..1e0a77cfd4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    true,
     false,
     false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a820ad76c3..ec28f459b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index b6d8dbe00d..aefdd4d6af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index fbd6b8b48b..d580e1549e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
     false,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 2a72588f19..6a2ffe01cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index ea7baeea2c..2fbc707a50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 2028826784..8a8ac48042 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 76537e08f2..ddd9e4ff7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
     false,
+    false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
index 2673bc7fbf..607048cbad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -19,7 +19,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -27,7 +27,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -35,7 +35,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -43,7 +43,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -51,7 +51,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -59,7 +59,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -67,7 +67,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -75,7 +75,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -83,7 +83,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -91,7 +91,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -99,7 +99,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -107,7 +107,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -115,7 +115,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -123,7 +123,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -131,7 +131,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -139,7 +139,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -147,7 +147,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -155,7 +155,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -163,7 +163,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -171,7 +171,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -179,7 +179,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -187,7 +187,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -195,7 +195,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -203,7 +203,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -211,7 +211,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -219,7 +219,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -227,7 +227,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -235,7 +235,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -243,7 +243,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -251,7 +251,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -259,7 +259,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -267,7 +267,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -275,7 +275,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -283,7 +283,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -291,7 +291,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -299,7 +299,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -307,7 +307,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -315,7 +315,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -323,7 +323,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -331,7 +331,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -339,7 +339,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -347,7 +347,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -355,7 +355,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -363,7 +363,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -371,7 +371,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -379,7 +379,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -387,7 +387,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -395,7 +395,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -403,7 +403,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -411,7 +411,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -419,7 +419,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -427,7 +427,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -435,7 +435,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -443,7 +443,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -451,7 +451,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -459,7 +459,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -467,7 +467,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -475,7 +475,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -483,7 +483,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 8689b5389f..6901b50c17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index fd52bcc4de..efa38d5329 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 74501e0072..0d21552eee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
+    false,
     true,
     true,
     true,
-    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 490659b74c..8366fe3350 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index d236f6bfd9..f57bb62706 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index f9e140aaef..b481351c79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
-    false,
     true,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 71b1586ac3..470a8ee444 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
-    false,
     true,
+    false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index e6b8fd85f2..1a58c63720 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    false,
     false,
     true,
+    true,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 1c3a956d4c..f5c4d3df3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
+    false,
     true,
     true,
     false,
-    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 3d0d926922..2e8451901e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
-    false,
     true,
+    false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 67bf8995c8..8d3e5e0ad2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 4bc3b5a836..69492777b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 5688539e83..b25b805768 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 4c2c0672ea..1f8ac812df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 9a17ee2cb6..247dd491cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 68bac14f28..d66ebd7d54 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index b64b16b8da..f71f0a98fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index db6ee679cb..3d001ec57c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index e79dd63df7..4ffb7f4193 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 0482764f09..cf9da51fd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 35a9684053..e0e5c1093b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 14d9356112..cb039bd893 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 783c741b66..e988f88a63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 7ddd65d116..6d4f8e8832 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 50b501cf5f..7bc8fbb70e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 69e6983446..b40590e752 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 5fa39c8804..9e543ce456 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index fed439c709..d4b4d3d25a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 6a955e9821..78d157c8b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 8353530303..c26216d39e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index b4df2bf407..80f5cbafaa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 545a779553..e09b3ada17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 1da7bae3a8..c7bb811828 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 4c3cf7ff66..3184149372 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index d10dcbd853..fe54bed624 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 1cbafbf70d..4285510a6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index cf89aa7bd8..86410bafac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    false,
     true,
+    false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index bbc4eea829..2c91e6152a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    false,
     true,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 75fef6ab41..8855ffd887 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 7803abf872..cc4e57f2d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    false,
     true,
+    false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 836e9428ee..2d98de9388 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index f1e9009d1a..89b21aa7c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    true,
     false,
+    true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 8b498600a2..648a99f443 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     true,
+    false,
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2d804bd5df..fc4e72b84a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 0cb38468dd..6c25ae5b80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    true,
     false,
+    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index bdf72b91aa..e77b97fd84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 2588185d9e..304bdea6ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 087b8e1c80..2aaaa250bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d01cb1e375..82cf516785 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 0502ca3b01..744858265b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d1bdf1fa57..71f2f421e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index b8c8eb5b31..8b84758423 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 60553e4057..70ceb95945 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index dafd1d5d2b..54a97cc2c1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index a146c6da13..0b5415c041 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 99a2823b48..217d876bcc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index acceefffbd..303b93b077 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index ac3a2a5fdb..74d455fff4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 5a281913f3..2783b3be1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 4ab5beec9a..11f72a7b4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
index 1f8e8ed58d..1655e42ce5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -19,7 +19,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -27,7 +27,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -35,7 +35,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -43,7 +43,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -51,7 +51,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -59,7 +59,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -67,7 +67,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -75,7 +75,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -83,7 +83,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -91,7 +91,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -99,7 +99,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -107,7 +107,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -115,7 +115,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -123,7 +123,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -131,7 +131,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -139,7 +139,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -147,7 +147,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -155,7 +155,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -163,7 +163,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -171,7 +171,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -179,7 +179,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -187,7 +187,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -195,7 +195,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -203,7 +203,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -211,7 +211,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -219,7 +219,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -227,7 +227,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -235,7 +235,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -243,7 +243,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -251,7 +251,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -259,7 +259,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -267,7 +267,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -275,7 +275,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -283,7 +283,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -291,7 +291,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -299,7 +299,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -307,7 +307,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -315,7 +315,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -323,7 +323,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -331,7 +331,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -339,7 +339,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -347,7 +347,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -355,7 +355,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -363,7 +363,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -371,7 +371,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -379,7 +379,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -387,7 +387,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -395,7 +395,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -403,7 +403,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -411,7 +411,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -419,7 +419,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -427,7 +427,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -435,7 +435,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -443,7 +443,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -451,7 +451,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -459,7 +459,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -467,7 +467,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -475,7 +475,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -483,7 +483,7 @@ extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
 
-extern template void run_batched_backward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 68ffee4bf8..6748c1b011 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 4d84693d6f..ecc6392b9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 9511965063..c9280ecea9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
+    false,
     true,
     true,
     true,
-    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 7ddd6efd88..4a3fb67186 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 09ca74c2e4..f54fd36354 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index dd6ef7d002..110394c34d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index daee392159..161304b8ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index dc19712620..6ec124e26a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index e9c8d75e34..8d8fa202e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 10565fbb0c..29c9fb6a4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 3b85cea79a..671d37710a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     128>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index f261d64baf..6ba00de55c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     256>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 635f9f1a23..367d9f6e26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     32>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 919a01fb9c..643f6ad5bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     64>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index ba52ba6314..4832c97990 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     96>(BatchedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index bc25646dca..3712d8cd6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a324ea3d19..ad905cbdf9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 8ffe3a4c36..777bef0160 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 0d3ab043e3..b748de7b95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index bf7ccf142b..dbb567a280 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 64c0c14fb6..d76eae7cff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 2d0e3efaaf..37ded4ac11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 003201abf5..0cfc315f8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a6570b6bfc..2e95e9082f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index d1f6446bf9..f1d3f39d00 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a23a7087d1..4a65054c8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 274405d533..fb57f88653 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 46a8e8a4d4..3cb6b9d3e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 5bdd29dbdb..53052e40d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 9241f7293c..494f10a720 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_backward.h"
 
-template void run_batched_backward_causalmask_bias_dropout_dispatch<
+template void run_batched_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 189677f41b..a60963f802 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 39881bd0de..cfe158f63e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index a24b8868a8..f83330c354 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 849a6633b5..d218b55775 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 6425aa081e..1ab50df932 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index c49a96edbb..88664056e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 4e3144c61e..52327df1ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 1654eb5354..e7576d0c4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index c485fdfcd0..eeaf62d6fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 9adb0399b9..ae7317559d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 68345b50d9..a1544c50a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index f362ff83b1..565a51e164 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    true,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index b949c55579..5a33c64489 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index fef0b43b9e..40bfebada2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 1c72ab7230..96287c4882 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    true,
     false,
+    true,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index eae1bef147..8e071fc747 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 3fea67a9df..406c49d6d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index e9e1d8c03d..0bf56df8c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 0b5b5e9acd..83ba77748f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 6ca3a5ae57..43a36ce652 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
index 757a2b2169..dd1a636a6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index b0898e658f..967c68daa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index aee8358c14..3bbc694732 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 62205efbdc..f4e5f5eb7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 3e28448d41..71569c47c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index c46162436c..fa01afbfb2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 20e880ae32..0e385e642b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 2d9e145b8a..3375f54543 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index d2eeed0208..4cff079b20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 296c93e84d..489bad0fad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index b6de89b882..0b955693c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 87d8256c23..65d7b902a9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 521469e26c..972ad19835 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 12c05851be..ea7a9926ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 77e509f0c5..9111ebbbbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index c182551497..5038f0028e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index ffcd7f0d89..55d50683d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index a0fbb353fc..be72e76d24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 729e834bf8..96d9f212de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index b2ee36ac21..247d27508f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 97ee4e6e38..8fbe1f0ce6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index e9c50c43e0..8a22e0a124 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 98ad34421e..b523959364 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index df8cb489a0..3f8d2ea4a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 9ff6b63464..c73e76ba54 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 9b31f48816..cb6f657839 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 8e5fc2b224..3721e1206e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 0a32ecd5e4..6449266a26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 5caa44509a..98a23c5da4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 89b57dc002..c12921f2f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index ecf1126ac3..3b347a64bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    false,
     true,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 286ce1f10a..498c653437 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 8489a8255f..fd696a20b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    true,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 8b10f11921..2660e9f956 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
+    false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 7b45b7050a..ffd777b0f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 30efee5689..03e08c45a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    true,
     false,
+    true,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 9b5b928f7f..fe81619104 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 1b36a0d252..0fc54fd688 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 785ecd397e..ca9c1aeb5f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 82199beb7a..bf77caa3a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index a364b1a4a8..2e56a95123 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
index c0dadbebb4..f4fb71af63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_forward_causalmask_bias_dropout_dispatch<
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 1af052fb63..fa4ca05fd6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 5616cdc520..078fc9a96c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 0ab15f4316..722424784f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
+    false,
     true,
     true,
-    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 988a2fe2bc..c13355df47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index b5fbcd947b..63141d2382 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index e18cda6c98..640a324464 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index ed23610a9a..b1d2f9261b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 2e512e089b..6be825ead5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index cfd204f045..82b2d2a37d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index df3d887de5..518d809847 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index ea683ccd0a..5ceff03a83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index c17397faf7..ec115bde5d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 6483bd6da2..e237d7a1d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 607227078c..d22f8e5e7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 6e1b575535..ada24fa386 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index f161893bda..bf94d16cac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index c37fb70c92..91f8252bc0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index f05aca856e..2849c4a01e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index cd0f3d4ffc..bfb2727b55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 5b565a222e..b2c4b3fc95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_forward.h"
 
-template void run_batched_forward_causalmask_bias_dropout_dispatch<
+template void run_batched_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index ad22843e37..c969aaddd4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index a457b90f34..4b5c1722f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 51d21df17c..82155df9dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 0c2a21bf6e..0f037342f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 0bbd1b6e8c..4199f8dfc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 4e33efc722..4a02de28c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index f3eb7b0ec0..33f3521253 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index d8db2ebe22..251f3435c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 72e7fb412e..db0bcc4905 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 8627c5104a..84d693dcd4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 0b4ed8294a..4964bfa57b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 2e752c9418..d1afa4f97b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 68366ee2f8..b53ce42583 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 9d0c50e134..10fecb0b1f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 34a21d80aa..9683175ce5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 25c006c093..99ecd3f153 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 77ab1fc3e3..9fe1f47000 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 15311470c6..9cb5037ff4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 4c98864b26..688e746c30 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 2df7a5ea63..9d345eb620 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
index 9933cff82e..a0a632332c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index db28d72f40..384ed6c7d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 228bb5397c..1d14ec3223 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index d0152e1600..38bb1e4898 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 8cb88dd943..9e01187176 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index bbf8dce87a..94a7b0ecf6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index d20c61ee11..f9eee86a38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 0410708e11..662850493a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index d837f7b54e..809d7fb2fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 7462600fb3..2b015348a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 433ee76a89..23badfdcb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 8129cbf852..1eb945d8c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 3d6e897a47..bdae23c5f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index c264d95adc..abcd6e5054 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index fb8e9fb0a5..f91e7d396a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 2300e0a499..6633c2a2d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 65d1fd39a7..606f3e51d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index c0ea4369af..f37c3155a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index b46f0c0c8a..d05287595e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 8051de4d96..931c73fb80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 19a58f75a4..222818766a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index c1ee8c7693..48d3a2c3f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 46a38e82df..71e0a40272 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 6040d41cd9..2914d3566b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index db5d5d577c..1dc4f4cefe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 6943325080..49089a5a2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index ccc0a02543..83ee3847ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index d81ff0d38e..f6d3cd1f9a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 48b74b2bc4..44e794f26d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index fda07f6cda..2b8d9371b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 6e45bcd296..cda89d9882 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 43069dd547..b83806efab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index bf8afd4242..c22ec1891b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 351f5ea1d4..39d5af11cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index d06dc1f10c..1333e0e3a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 668ef4f6a2..c6dd68fbcf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 609b4981c9..a8c94892ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 5fca4f4eea..37abd037a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index fe3a2e2bc3..d45e9747ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index d077701b99..4a5b32f1d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 5a6c9874e3..3aded97795 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
index abc184461a..5b63c0083b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     32>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     64>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     96>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     128>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
 
-extern template void run_batched_infer_causalmask_bias_dropout_dispatch<
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 37f18fd7d1..215574613c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index dd5ec21185..fda3a851a9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 3afe1c2f86..3a461d75b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index e9ddc972d5..f5de5ab9fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 28859ae55f..6199c05109 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 501a83e9ae..8ca40c295b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index d0b619f604..9ea1c82aae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index af0bc1c85a..7e6fdd12f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 578454c52f..4eeeafdda9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 241d817e83..cba6c7eb6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index df91366da4..a46736ec72 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     128>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 4c292918bd..477836c7c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     256>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 9dc31e3ea8..81dba703d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     32>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 2bbd4f3dd4..92dd14a639 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     64>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index be1a754206..c2780682c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     96>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index d20d225cd6..4488da3605 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index ce76fd765e..f38d36564e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index ca44ac6b0d..9025bd9b97 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 5d7589a162..8aa5368312 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index e793295c7c..3ef3ae0ad2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_batched_infer.h"
 
-template void run_batched_infer_causalmask_bias_dropout_dispatch<
+template void run_batched_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index c22b793d35..52258dd70d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index f4b7a307aa..f18614fa08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index c5b1454c5a..ba78d65d3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index c8c71960df..7258831cee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 32240e064a..c37c77d554 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index de55b8e88c..bd10c628ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 18d1940620..99903f6560 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 8e87f044df..fb92ebe6fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 71ac1de6fa..59249a8b03 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 93b9ed6401..db4d2ce297 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    false,
     true,
+    false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index f2baaf01df..bbe5fc4a71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 577c43def5..91f7af8f29 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    true,
     false,
+    true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 1ba22ae616..33467b58f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
+    false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index dbe7c0560f..628ad56249 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 0467ced4bf..979c39e34a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
-    true,
     false,
+    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 295e3f4034..67f3bb857b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
+    true,
     false,
     false,
-    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 07b019af4c..5fc15b960f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
     false,
+    false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 485b647757..be106ab035 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
     false,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index ac1bccc146..1bc566b34a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     true,
     false,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 2e566f5f99..f17c75ecbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
+    true,
     false,
     false,
-    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 42818cfa92..6ab1929abb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index e23b3c60b9..9153f0a6dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 8b878747f6..f9d2de3cd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    true,
     false,
     false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index dfbcd25bec..02e6479f99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index cdabdac586..7352541275 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 8650510c3c..cdf8c64d07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
     false,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index b85fa82e9b..ea0cdd8794 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 86d8d4776c..4b20062e26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index e8e862d54d..262fe65ae7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 3898ef46c3..342bccf249 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
     false,
+    false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
index dc11abac19..77fd2adfd4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -19,7 +19,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -27,7 +27,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -35,7 +35,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -43,7 +43,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -51,7 +51,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -59,7 +59,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -67,7 +67,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -75,7 +75,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -83,7 +83,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -91,7 +91,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -99,7 +99,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -107,7 +107,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -115,7 +115,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -123,7 +123,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -131,7 +131,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -139,7 +139,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -147,7 +147,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -155,7 +155,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -163,7 +163,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -171,7 +171,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -179,7 +179,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -187,7 +187,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -195,7 +195,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -203,7 +203,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -211,7 +211,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -219,7 +219,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -227,7 +227,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -235,7 +235,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -243,7 +243,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -251,7 +251,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -259,7 +259,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -267,7 +267,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -275,7 +275,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -283,7 +283,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -291,7 +291,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -299,7 +299,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -307,7 +307,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -315,7 +315,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -323,7 +323,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -331,7 +331,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -339,7 +339,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -347,7 +347,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -355,7 +355,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -363,7 +363,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -371,7 +371,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -379,7 +379,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -387,7 +387,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -395,7 +395,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -403,7 +403,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -411,7 +411,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -419,7 +419,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -427,7 +427,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -435,7 +435,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -443,7 +443,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
@@ -451,7 +451,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
@@ -459,7 +459,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -467,7 +467,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
@@ -475,7 +475,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
@@ -483,7 +483,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 76a4e7dcb7..1ec85b39bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index a4b3c633d0..11e98efd9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 9ffa70e780..28a019accc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
+    false,
     true,
     true,
     true,
-    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 07813b2c57..ea25b5eaff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index ce596091ee..a5e8ac4541 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 65b67988ae..fb21b6429d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
-    false,
     true,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 81616d6af3..90046688f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
-    false,
     true,
+    false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 08af2d6677..8bee1bacd7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    false,
     false,
     true,
+    true,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 1871a6cbed..b8a6e10e65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
+    false,
     true,
     true,
     false,
-    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index daf39e9643..1f0d4e2d28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
-    false,
     true,
+    false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 7a293a9735..fb7617cf96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index dc5f5c749a..649682a521 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 9fc0a6c625..b7ef701393 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 4d2d7e78dd..f043077872 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 5915b9242a..7f5cc32bf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 43fc95070c..20f2299474 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 261017c529..0c5b0899d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 842c071d96..a10ed99695 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 1bf3602e38..1778c650af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 68607964e9..7f18e6c0d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 302c566e73..90eaf9020c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index c3f030c5f3..6041d88106 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 070e741168..f4f4a74a29 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 8011c547d1..723dad8b4d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index e4b460f539..725fb3b751 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 249bf2a54b..a213e1feea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 9fed2aefc2..55be37bff0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 224d5f1bc3..8d4e8157c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 43fea8dee1..2a11628eaf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index e22834cc62..37c739e6d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index dc70813fc6..be282c1692 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 10ae8c3026..16c1a56335 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 4fdbb099c2..0d126762fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index e5d4365a19..bba62020d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 1acd7f721d..b4973f6d4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index e028d1bee9..d397432a8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index ccd459e844..576f4ec43c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    false,
     true,
+    false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 20033dee2f..9ec9c32a5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    false,
     true,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 28fcbfad6e..0e1421f0ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index af6b35c046..1cfbb64a6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    false,
     true,
+    false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 34b227fad6..936aceb179 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 3c47d406b5..2601c44b53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    true,
     false,
+    true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index de40300749..db40de8e14 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     true,
+    false,
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index c9dece923d..520aef06c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index b04a8544cf..e11bd53369 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
-    true,
     false,
+    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index c0d222f058..db1a8fe044 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 8d32e0b35b..9a7ae39f16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index fe11f7f00e..57b874c858 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 45ba2ddd3e..c542a2c255 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index d76c10a456..1d22178487 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
+    true,
     false,
     false,
-    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 7c5978f3fe..a4f08bb7be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 1dd5dfa0f7..9d24093276 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 69ebd58335..3596811967 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 3218e1606b..a958635127 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 63926ac3a8..792825647a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
-    true,
     true,
     false,
+    false,
+    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index e8e20cb4d5..7fb1932394 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 81668563ec..a81fe6db2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1961a1a295..e4940345d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index ba07be603b..dad5ec5274 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index b8601d6f45..c0e01a73b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
index e51bf7f8f3..61472494f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -19,7 +19,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -27,7 +27,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -35,7 +35,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -43,7 +43,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -51,7 +51,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -59,7 +59,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -67,7 +67,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -75,7 +75,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -83,7 +83,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -91,7 +91,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -99,7 +99,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -107,7 +107,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -115,7 +115,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -123,7 +123,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -131,7 +131,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -139,7 +139,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -147,7 +147,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -155,7 +155,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -163,7 +163,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -171,7 +171,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -179,7 +179,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -187,7 +187,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -195,7 +195,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -203,7 +203,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -211,7 +211,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -219,7 +219,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -227,7 +227,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -235,7 +235,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -243,7 +243,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -251,7 +251,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -259,7 +259,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -267,7 +267,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -275,7 +275,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -283,7 +283,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -291,7 +291,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -299,7 +299,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -307,7 +307,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -315,7 +315,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -323,7 +323,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -331,7 +331,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -339,7 +339,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -347,7 +347,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -355,7 +355,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -363,7 +363,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -371,7 +371,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -379,7 +379,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -387,7 +387,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -395,7 +395,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -403,7 +403,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -411,7 +411,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -419,7 +419,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -427,7 +427,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -435,7 +435,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -443,7 +443,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
@@ -451,7 +451,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
@@ -459,7 +459,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -467,7 +467,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
@@ -475,7 +475,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
@@ -483,7 +483,7 @@ extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
     false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 15e2f31d8f..70837e9b2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 00effd83ca..3ad63b3fb7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 1651af366a..d2ec293abe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
+    false,
     true,
     true,
     true,
-    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 756c1dc187..6f988aedf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index f679f682df..170b7dc080 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 831e8b9ac2..060a6b875a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index d7aeb937ff..4093a812e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 2659f809d0..ef3521c8bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 4668340309..9f76e20d90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 629cea07fd..6274a56bb5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
-    false,
     true,
+    false,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 3b71014f6b..6b97237665 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     128>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 09ac8a84e2..fc9b10b1a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     256>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 62df2f2dd3..c166a7bd48 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     32>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 07514352b4..30cc3c575d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     64>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 3455d00b26..2f4058c055 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,10 +11,10 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
-    true,
     false,
+    true,
     false,
+    true,
     96>(GroupedBackwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index dc7f41755f..dd172a8cd6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 8d13665117..4eb6cba1aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 07e60021b8..34a1a45a03 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index d562c03844..15691115b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 94d2afc7e7..5ea99eb70f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 3b38e48f68..9e72f65f20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index cc9c0e3771..143c79b972 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 7237f3cab9..e7935d54b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 7f7b87b465..0b911129cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index edcde9deb0..e2ff64c3dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index fca2defab5..ee07981f0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 247d2933f7..5e47962a51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 952d91a05e..8936424612 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index df612447ff..b8d022181c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 563ee7e9b7..835604b023 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_causalmask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_backward.h"
 
-template void run_grouped_backward_causalmask_bias_dropout_dispatch<
+template void run_grouped_backward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 436b35249b..e221a4df68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 673ace243f..7708b6be81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 12f2dce035..f500369249 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index b05db1117d..7af9ce737b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 7b97b555c6..90ed257288 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index ac8a014bc1..63d87a7ceb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index b98a212b3c..5ec5b2076d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index ba57b065d5..0202533758 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 58357d0f8e..d49d2b41de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 79ed7712c8..8945954299 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    false,
     true,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 6b03e2ffd8..acc3e80445 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 2bb41cd3bc..ef243b0dc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    true,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 249011ee13..23a3d60725 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 6b5463311d..2048527030 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 731ce90136..9866d6a0b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
-    true,
     false,
+    true,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 4b833c8f83..ce742afc08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 3e07c10500..8170a8859c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 276962324e..33515ab436 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index f43d7b41cc..c1bfa5227f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index fe88ed6153..c0602f9c08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
index 2a85240b1b..ea0947de21 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 222d1ed50c..9f5253947f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index bcad83e85f..83474e1d76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 8c17a20b72..8e8b152379 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
+    false,
     true,
     true,
-    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 15ac9062f8..c542571932 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 140902b9c4..a5a67b1ad6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 1da0732d8f..48a41626a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 4891094bce..41c9d6f57c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 2b9b0559fd..553b1fc8ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
+    true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 2e552a9973..dfe68ffcad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index b26ed7dcbd..810e671500 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index c1b145ccd0..2d72bcb6a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index ea2ee50829..eda1008bf9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index d20de70d8a..c101072938 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 6bad209f7c..a67bb0844f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index e69b05b3b4..71182531ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 85f9097f59..4910d1463e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 456ae223ab..ab647a2e7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 51cbbf71d7..f8c7491ae4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 0614b84a2a..c4cd4e7b88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 7100319f81..9203a02a35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 6db568b7c8..1d130ea119 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 7c14a9f97a..e9525bfd6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 3ad15a89ca..601415d752 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index a0431622e7..571780c49b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 0bd4f3287f..608cf7b582 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 3c5f652c7d..3841dadae0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index f765d967b0..3ed3b86656 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 65a976a9a2..8f45feab8c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 1f3b70c843..8690683e49 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 657e48d00e..e8ae22495d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    false,
     true,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 1ce7084261..4a985fb011 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 562298f722..3420d3aa50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    true,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index b7f09b7c36..74849113c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
+    false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 30b56e1b19..1303aa9b43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 305d2740fd..213703efeb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
-    true,
     false,
+    true,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 2b747e5e28..5ef755ddf6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 0d7c558cd3..24c5729743 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 3efca37987..6a6952ec63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index dae892ab78..434dcc2693 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 8f88f8f367..1ecdd0f832 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
index 375029794d..e4327e83e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index b0918f6838..3f5f2707fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 432cdd9783..3a24dd4611 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 9daf7f6c68..b20dcc77ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
+    false,
     true,
     true,
-    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 8c6ad2498e..e93471b9a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index e7674c2057..cbfcdfa07d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index d2020485ee..4fd11b41bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index a29929b80d..5b83a321c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index d5f3cdffe1..ece97ea1d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 6a7482d692..a9af6a8ded 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index b437528697..60f4f7d652 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 22ece82890..94bfe75ea5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index d5a7778e5d..31136ded22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index bc5553560a..0e79cea140 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 4b74c49ef9..c4e8677838 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index c6c8de0fe5..77d6057173 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index fc5604b5e4..25c0c1ac25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index f8741ae4f8..d7d3a36219 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 8c4e8581b5..a49ac26ee6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index b29ac4d4f3..fc7ddced9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index d55b7cd68b..2942d3e91a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_forward.h"
 
-template void run_grouped_forward_causalmask_bias_dropout_dispatch<
+template void run_grouped_forward_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 52e1d5d711..d50935b1d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 055b769f9f..e985ad8805 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 9ce3756a6f..8f88cf8e63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 46d4e69b75..bcf4508b97 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 4e14302f39..e6bbaad9e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 5f11a042f3..82b400f0c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 3134e1c4ca..a3325e6686 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index f858eccb53..cca4cc5431 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 5da3272f08..e033986a24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index d5254ceb1b..cb80ff6e05 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index ed632d7ea6..2f257ffd73 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index d336cc52d2..a772490804 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 7095195dd6..94b83ea16b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 312a64a29d..1e0258d11a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 0185d16da2..b8aecbef49 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 5949924e4c..5c5052773a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 4ed0179061..f5267d11a7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index d5df909462..17549b1ff6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 8be8afd5ee..49b14547cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 54e1c96de5..30db8093b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    false,
     true,
     false,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
index c94a65d145..6022b79cc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 95eb7e0ed8..e5fb64fac3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index e9c361bd0a..4eec28e4df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 5530bb928f..d26e0d4771 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 0a55926151..b9498adfc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index c881adc299..48530caca9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 4416036397..d09cd5a863 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 39e2f9fed8..acb1b14fef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 6172df88a2..1924525a47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 41681f1805..818af21711 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 116d256fe7..a1236ed698 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
-    false,
     true,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 5747867dc4..b73fbd3e60 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index f54dadca5a..8e40965635 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index a6b637a297..92db0a3bac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 47abe27d92..affb5a980b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index e4b6d51d2b..75ff69dfec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
-    true,
     false,
     false,
+    true,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 98625d1428..7efc0e9203 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 9d3d732888..c1493d3e44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index bb537cfe2c..315429ef08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 66769f244c..8cce00c824 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 6b0fd8363a..86f93c2b3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/bfloat16.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::bf16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 4c35127f9b..cbbd746a8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 12a2a61052..960634ed47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 885584ef4b..d3bbeeaea0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index a11af5773c..0fda8f6a47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index f55e482d33..9eac3a46b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 8d1f0fb7f9..91a3b3aec9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 50577f7f96..8859657b71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 07fcfd2eb6..ab8ee4823b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index dc3690344b..dea721a634 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 835191b9cd..d843caa1ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index b3727732a0..edecb5ee5b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index b8cb896222..5aabfa102d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index a4c2cacf19..d4b2a56bd7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 2b36d6f33f..5c6b91be17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 64e09f6db1..90175276f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 2f63665845..40d3950944 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index aed425ba5c..0abf5b79ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index c3678b42f5..afa07836b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 7481a9b9aa..03fa1e82b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 1faa75d7b7..5efcef2c86 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    false,
     true,
     false,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
index 15f407d9ad..c38d01ca60 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
@@ -11,280 +11,280 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     32>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     64>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     96>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     false,
     128>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
     true,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     true,
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
 
-extern template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index ffb1b36d60..db687f5110 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index db5416d92f..d78135bea3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index d5cce31a76..fd4fea5d62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index bb3ad0e570..c1c4742435 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 06314accca..37d18699ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     true,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index f6282217df..33dd36ae2a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 0564af6ec1..4ed97869a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index afbe9a21f5..8317354c85 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 99e9133dce..f761773b84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 8f46d34691..3d80d5fd9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
-    false,
     true,
+    false,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index f3827c2401..f9ab0be1fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     128>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 6627919bb5..f4f7fee792 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     256>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 793fc5c902..a510dfb2b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     32>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 2d50423e73..9d8b8e8987 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     64>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 3140d51d64..15788edbf7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -11,9 +11,9 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
-    true,
     false,
     false,
+    true,
     96>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 637d40bc17..3287d5e4ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index ca8cb1bed3..b7f99432ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 61f1540aeb..f6d6340842 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index cad791039f..44f3b7d0cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
similarity index 87%
rename from xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
rename to xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 14658d0fc4..b6e94978f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_causalmask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -11,7 +11,7 @@
 #include <ck_tile/core/numeric/half.hpp>
 #include "ck_tiled_fmha_grouped_infer.h"
 
-template void run_grouped_infer_causalmask_bias_dropout_dispatch<
+template void run_grouped_infer_mask_bias_dropout_dispatch<
     ck_tile::fp16_t,
     false,
     false,

From 9ccc42ffa1b1570b246782974e025667b8c69e63 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Nov 2024 00:25:41 +0000
Subject: [PATCH 710/837] bump python op maxk

---
 xformers/ops/fmha/ck.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index b552c3c843..622a0d7457 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -151,7 +151,7 @@ class FwOp(AttentionFwOpBase):
     OPERATOR = get_operator("xformers", "efficient_attention_forward_ck")
     SUPPORTED_DEVICES: Set[str] = {"cuda"}
     SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16}
-    SUPPORTED_MAX_K = 256
+    SUPPORTED_MAX_K = 512
 
     SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
         type(None),

From 760cdcc865fc5ad830d35457c4f80b255c398d25 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Nov 2024 01:19:29 +0000
Subject: [PATCH 711/837] run codegen

---
 .../ck_tiled_fmha_batched_infer_dispatch.h    |  2 +-
 .../attention/hip_fmha/generate_instances.py  | 11 ++--
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...fmha_batched_backward_bf16_instances_ref.h |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...fmha_batched_backward_fp16_instances_ref.h |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_batched_forward_bf16_instances_ref.h | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...f16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_batched_forward_fp16_instances_ref.h | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...p16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_batched_infer_bf16_instances_ref.h   | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...f16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_batched_infer_fp16_instances_ref.h   | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...p16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...fmha_grouped_backward_bf16_instances_ref.h |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...fmha_grouped_backward_fp16_instances_ref.h |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ...bias_has_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ..._bias_has_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ..._bias_has_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...s_bias_has_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...s_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...s_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...as_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_128.cpp |  1 +
 ..._bias_no_biasgrad_has_dropout_maxk_256.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_32.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_64.cpp |  1 +
 ...o_bias_no_biasgrad_has_dropout_maxk_96.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_128.cpp |  1 +
 ...o_bias_no_biasgrad_no_dropout_maxk_256.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_32.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_64.cpp |  1 +
 ...no_bias_no_biasgrad_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_grouped_forward_bf16_instances_ref.h | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...f16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_grouped_forward_fp16_instances_ref.h | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...p16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_grouped_infer_bf16_instances_ref.h   | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...f16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...f16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ...has_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ..._has_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ..._has_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ..._has_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ..._has_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_has_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_has_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_has_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_has_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_has_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 .../fmha_grouped_infer_fp16_instances_ref.h   | 57 +++++++++++++++++++
 ..._no_mask_has_bias_has_dropout_maxk_128.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_256.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_32.cpp |  1 +
 ..._no_mask_has_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...6_no_mask_has_bias_has_dropout_maxk_64.cpp |  1 +
 ...6_no_mask_has_bias_has_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_has_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_has_bias_no_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_has_bias_no_dropout_maxk_96.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_128.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_256.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_32.cpp |  1 +
 ...6_no_mask_no_bias_has_dropout_maxk_512.cpp | 20 +++++++
 ...16_no_mask_no_bias_has_dropout_maxk_64.cpp |  1 +
 ...16_no_mask_no_bias_has_dropout_maxk_96.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_128.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_256.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_32.cpp |  1 +
 ...16_no_mask_no_bias_no_dropout_maxk_512.cpp | 20 +++++++
 ...p16_no_mask_no_bias_no_dropout_maxk_64.cpp |  1 +
 ...p16_no_mask_no_bias_no_dropout_maxk_96.cpp |  1 +
 638 files changed, 2305 insertions(+), 8 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
 create mode 100644 xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index c5275a7d2d..0f21cb6d0c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -48,7 +48,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
     using FmhaShape = FmhaFwdShape<MaxK>;
     using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
     constexpr ck_tile::index_t occupancy =
-        (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+        (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
 
     constexpr auto kBiasEnum = kHasBias
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 8a62095ae1..eb3dbcc54e 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -18,8 +18,9 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `{file}`
  */
-"""
+""".format(file=__file__)
 
 FMHA_INFER_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
@@ -104,11 +105,7 @@
 }
 
 INT_MAP_MAX_K = {
-    32: "maxk_32",
-    64: "maxk_64",
-    96: "maxk_96",
-    128: "maxk_128",
-    256: "maxk_256",
+    hd: f"maxk_{hd}" for hd in [32, 64, 96, 128, 256, 512]
 }
 
 TYPE_CTYPE_MAP = {
@@ -372,7 +369,7 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
         headdims_fwd = [32, 64, 96, 128]
         headdims_bwd = [32, 64, 96, 128]
     else:
-        headdims_fwd = [32, 64, 96, 128, 256]
+        headdims_fwd = [32, 64, 96, 128, 256, 512]
         headdims_bwd = [32, 64, 96, 128, 256]
 
     this_dir = os.path.dirname(__file__)
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index d6b447d173..3c8becf665 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index c319629872..ed469b817b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 6161fc4ae4..ffde423ceb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 08c3ec38a2..08b1acba2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 12c1aa463c..a5a17f3ff3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 8bea77809d..ff3b4ab63e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 5ed35bbef6..6e0b50cf07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 672d36fe11..c55cc90dd2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index b70134c681..5f0569441d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index e2301db5ec..5f69c9ccfc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index c132e77e64..b7bf20edbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index aac5a1aaf8..ac19eec39d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index a4d5950050..6ad6d71454 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index aa88585bc2..141a049dbf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 3e99fd87db..55dc55de61 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 8c95d9392c..4ae460f5c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 25e054c6ce..cfcb0c41e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index cec2dec8bf..82dc0ad3b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index fe59c183f4..67a8a7c5ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 9c1dd943e7..ff6aa41956 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 7603478867..80895a87c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index a085a7ab08..0656a6f5ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 1e0a77cfd4..4535becd44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index ec28f459b8..36300debe3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index aefdd4d6af..f37c905f72 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index d580e1549e..a3910f1fc7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 6a2ffe01cf..ea36df6265 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 2fbc707a50..0374982665 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 8a8ac48042..4bf09ad95f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index ddd9e4ff7e..27f8dfe3ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
index 607048cbad..584da80c16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 6901b50c17..4e79fe9571 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index efa38d5329..825670bcfe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 0d21552eee..d8654f2110 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 8366fe3350..db2d19cf7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index f57bb62706..5c1be6faa7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index b481351c79..f5cff8b54d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 470a8ee444..3367326304 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 1a58c63720..e50edf1806 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index f5c4d3df3b..e33c7c9b27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 2e8451901e..d6d5f68c98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 8d3e5e0ad2..8846ed076f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 69492777b2..5c5fb2abdf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index b25b805768..5dc2f38c6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 1f8ac812df..95bae5cb44 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 247dd491cf..479dd58843 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index d66ebd7d54..2f013f983a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index f71f0a98fd..263a11b542 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 3d001ec57c..a7e4eb125b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 4ffb7f4193..9e5693d3f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index cf9da51fd8..e9d64a07c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index e0e5c1093b..091b43a104 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index cb039bd893..bb93d9a0ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index e988f88a63..278d63d326 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 6d4f8e8832..d8c97eb7b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 7bc8fbb70e..93c054d6ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b40590e752..c30c448dde 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 9e543ce456..2223391df5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index d4b4d3d25a..dd26d14881 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 78d157c8b0..7123d04076 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index c26216d39e..92b7c85a4e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 80f5cbafaa..8abe40dac7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index e09b3ada17..53d01d43df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index c7bb811828..205c43f895 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 3184149372..358b924ab0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index fe54bed624..4bc91de036 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 4285510a6a..970da481f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 86410bafac..018703edec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 2c91e6152a..c8297b314d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 8855ffd887..926d1f7bc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index cc4e57f2d3..15c38a3161 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 2d98de9388..4165cedfc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 89b21aa7c6..4d801ba1b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 648a99f443..31fe0a781a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index fc4e72b84a..709a6d55a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 6c25ae5b80..660235ef08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index e77b97fd84..3cf63f26db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 304bdea6ac..23d1dd9824 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 2aaaa250bb..a9c0795427 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 82cf516785..5a2d0d71e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 744858265b..2461cf7fb8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 71f2f421e0..10a5821614 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 8b84758423..f0953b71df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 70ceb95945..40d2f96a6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 54a97cc2c1..c0d2f84919 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 0b5415c041..b4f607bd35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 217d876bcc..24ce42e41f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 303b93b077..9fa267447a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 74d455fff4..d7e92846d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 2783b3be1d..60119f9745 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 11f72a7b4c..a0a5ff6700 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
index 1655e42ce5..771d95a9f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 6748c1b011..c879c16a8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index ecc6392b9c..381a1b04a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index c9280ecea9..1f8c1a178d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 4a3fb67186..89e833b8b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index f54fd36354..b5cafb45bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 110394c34d..7b524d112d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 161304b8ed..264e292b3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 6ec124e26a..a8811db0e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 8d8fa202e0..cb3db7d3a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 29c9fb6a4c..8b28b3cb16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 671d37710a..56059a2606 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 6ba00de55c..446b6a17a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 367d9f6e26..29d5784a42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 643f6ad5bd..53d04e7efe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 4832c97990..6000eaca02 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 3712d8cd6a..520305e848 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index ad905cbdf9..f2a44ac521 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 777bef0160..8c8cdde80f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index b748de7b95..0915759460 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index dbb567a280..5250711180 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d76eae7cff..36afc7896d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 37ded4ac11..0752cb36e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 0cfc315f8b..e422cef953 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2e95e9082f..9cb88d4697 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index f1d3f39d00..a2f0e1a6fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 4a65054c8f..0f528542f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index fb57f88653..1a2da98cd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 3cb6b9d3e2..beb88101c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 53052e40d4..6c4edd6d1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 494f10a720..e6b7be4016 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index a60963f802..cf9dc95f3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index cfe158f63e..d92fc018f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index f83330c354..03535b0f2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..f8175cc60c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index d218b55775..666f1af2cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 1ab50df932..468fc7aa95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 88664056e3..7b041aae5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 52327df1ce..ee1df6eb9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index e7576d0c4c..6f91e81e7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..92a573ddf1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index eeaf62d6fc..142fdd0aaf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index ae7317559d..ea3058898d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index a1544c50a6..a849859b7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 565a51e164..6a4a17b3ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 5a33c64489..357e4fecc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..419fa60776
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 40bfebada2..206bdbb346 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 96287c4882..d69dfea61c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 8e071fc747..1135937c26 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 406c49d6d1..1229d5ce0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 0bf56df8c0..e4c43c5327 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..e31d1db682
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 83ba77748f..27bc6fe25b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 43a36ce652..940d6b59ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
index dd1a636a6b..8b5a450fba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
@@ -290,3 +291,59 @@ extern template void run_batched_forward_mask_bias_dropout_dispatch<
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 967c68daa5..31ea11bea8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 3bbc694732..30ebb9e751 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index f4e5f5eb7f..7f1205a5fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..9ce73b1fcc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 71569c47c6..61a9fd4634 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index fa01afbfb2..860f862fb7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 0e385e642b..5dad4926d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 3375f54543..a958667321 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 4cff079b20..0f57a87ae9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..c8b416afac
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 489bad0fad..ef08452b3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 0b955693c0..26e3c66dbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 65d7b902a9..241396a1ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 972ad19835..ac835e92f0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index ea7a9926ab..d17295a617 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..24e0bba655
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 9111ebbbbc..81ed166808 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 5038f0028e..c1c246f477 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 55d50683d0..90b53f68ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index be72e76d24..362ad1d017 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 96d9f212de..7ebfd7170c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..0b376d4f6b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 247d27508f..6a81e8a44f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 8fbe1f0ce6..e98907f8f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 8a22e0a124..5fa0b483b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index b523959364..72fcc87d24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 3f8d2ea4a0..b71575adc9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..961a3b5874
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index c73e76ba54..a91fbd02e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index cb6f657839..d500b32bc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 3721e1206e..500ae40f18 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 6449266a26..ea78b73717 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 98a23c5da4..0f05777432 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..5d794c5e99
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index c12921f2f4..5dbd424052 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 3b347a64bd..21aaa34fc6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 498c653437..0eba3dff9a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index fd696a20b2..c4c3f69dd5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 2660e9f956..79161436a9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..1b4785d8b3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index ffd777b0f3..2bdb1a1d28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 03e08c45a1..96f2f991c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index fe81619104..0206c386d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 0fc54fd688..1ebf8906bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index ca9c1aeb5f..80818b3f22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..16d40319d0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index bf77caa3a8..8a90d95271 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 2e56a95123..59896a7650 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
index f4fb71af63..da93e1de63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
@@ -290,3 +291,59 @@ extern template void run_batched_forward_mask_bias_dropout_dispatch<
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index fa4ca05fd6..f6128f2c9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 078fc9a96c..102c4559fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 722424784f..614882f5da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..4fc889ab3a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index c13355df47..e17a13b990 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 63141d2382..5e90f61f98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 640a324464..3ebbc3f465 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index b1d2f9261b..d2bc1114f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 6be825ead5..a2a3fe310b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..123b3cdc41
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 82b2d2a37d..b95ebd9265 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 518d809847..fed7a50a79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 5ceff03a83..cad1fd9b7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index ec115bde5d..d8dbe76e37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index e237d7a1d9..a663866024 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..e3b3445472
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index d22f8e5e7c..57127f02d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index ada24fa386..2c23cf8151 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index bf94d16cac..206c716153 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 91f8252bc0..7f4fac3b8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 2849c4a01e..228acc3d57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..41e9181830
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_forward.h"
+
+template void run_batched_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index bfb2727b55..4575c66f48 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index b2c4b3fc95..aa97efb037 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index c969aaddd4..5a3d1c59bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 4b5c1722f2..258dfa5d23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 82155df9dc..b06eae7cb4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..e5ad26ae83
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 0f037342f1..59565ba604 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 4199f8dfc1..461247aa09 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 4a02de28c9..057127b094 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 33f3521253..9cf22b284c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 251f3435c7..e8d46c4254 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..6e3e144574
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index db0bcc4905..f5119a3521 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 84d693dcd4..fb4fab44ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 4964bfa57b..98e86a8961 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index d1afa4f97b..af3d2cd308 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index b53ce42583..a4767c35f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..3936ed5c98
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 10fecb0b1f..fa4e03e2ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 9683175ce5..08e2ea06da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 99ecd3f153..457fd3ed22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 9fe1f47000..ceecef9e40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 9cb5037ff4..bb38104046 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..1657186994
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 688e746c30..54aada2d22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 9d345eb620..072e65ed2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
index a0a632332c..816cefefd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
@@ -290,3 +291,59 @@ extern template void run_batched_infer_mask_bias_dropout_dispatch<
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 384ed6c7d6..e9127bfe2d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 1d14ec3223..deca4b3512 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 38bb1e4898..2e6b59b15e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..a70a8df12a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 9e01187176..478adda712 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 94a7b0ecf6..2164f28eab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index f9eee86a38..23b5e7ef7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 662850493a..ca25392108 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 809d7fb2fa..55d9f02236 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..94b07f02a6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 2b015348a3..72dc0dd729 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 23badfdcb3..ba33c2731d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 1eb945d8c9..ac9b482f74 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index bdae23c5f5..5967411365 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index abcd6e5054..4518541a55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..7de1d93829
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index f91e7d396a..546597eadc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 6633c2a2d8..d6257939a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 606f3e51d0..8919be4450 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index f37c3155a5..86ec590036 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index d05287595e..9959bcae71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..1121473376
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 931c73fb80..523a08e0af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 222818766a..077aa8f499 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 48d3a2c3f0..e9647ac84b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 71e0a40272..80b021118b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 2914d3566b..84c59ff121 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..0697b4d99d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 1dc4f4cefe..74cf0cb56c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 49089a5a2c..9d4cec3617 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 83ee3847ac..2e6bc1f36a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index f6d3cd1f9a..9c4040ed0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 44e794f26d..c964cdddaa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..47fba1b12d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 2b8d9371b1..048fa78c1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index cda89d9882..8f87a504d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index b83806efab..123c396fac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index c22ec1891b..4f0d0260bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 39d5af11cb..4acc8193da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..bc04e38ab5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 1333e0e3a2..c8b6658b96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index c6dd68fbcf..35a8599924 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index a8c94892ae..c106214642 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 37abd037a6..754a776060 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index d45e9747ac..ee6f70fa42 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..69eb3b29f2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 4a5b32f1d6..385fa3ad34 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 3aded97795..b32721b62d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
index 5b63c0083b..71ef6fbab1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
@@ -290,3 +291,59 @@ extern template void run_batched_infer_mask_bias_dropout_dispatch<
     false,
     false,
     256>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
+
+extern template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 215574613c..cdad72cb69 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index fda3a851a9..09043efdce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 3a461d75b8..d92a0a12cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..b725891272
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index f5de5ab9fc..e5aaa393ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 6199c05109..8c07e4ed7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 8ca40c295b..ca8ee31aae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 9ea1c82aae..1935413de1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 7e6fdd12f1..761bb5d341 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..2db267ef5a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 4eeeafdda9..e269d14b7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index cba6c7eb6e..fb6fb41857 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index a46736ec72..43faddeeb8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 477836c7c5..e63be82f06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 81dba703d5..3b83eb81ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..0e3bffb52a
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 92dd14a639..09e7da740f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index c2780682c6..88dd74a660 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 4488da3605..49a32037a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index f38d36564e..ba05343b2a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 9025bd9b97..9452f0cc15 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..4d22e752b0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_batched_infer.h"
+
+template void run_batched_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(BatchedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 8aa5368312..ec8d1234c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 3ef3ae0ad2..573317edc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 52258dd70d..e0608f7bf0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index f18614fa08..2c8d11b3b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index ba78d65d3b..4bca435925 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 7258831cee..379f2271fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index c37c77d554..34216ba7d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index bd10c628ac..12bb72767e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 99903f6560..8eeeab5f37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index fb92ebe6fc..2a417c5431 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 59249a8b03..334c3a8aa1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index db4d2ce297..9206ba269b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index bbe5fc4a71..089b491e25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 91f7af8f29..6c19eed619 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 33467b58f8..bc41914d05 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 628ad56249..2b6397bcd5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 979c39e34a..4931e05bc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 67f3bb857b..9c2ddb206c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 5fc15b960f..05b2f882e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index be106ab035..c4150c2f5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 1bc566b34a..f4df99dc88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index f17c75ecbc..df96951ba8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 6ab1929abb..7668a2e63c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 9153f0a6dd..e454a721f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f9d2de3cd8..d7be9a07d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 02e6479f99..8094a76cf6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 7352541275..458ba46c36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index cdf8c64d07..dc5c0c6658 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index ea0cdd8794..09a78f1959 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 4b20062e26..187f889ba5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 262fe65ae7..5c8af92e77 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 342bccf249..10983623e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
index 77fd2adfd4..90d6fc6c27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 1ec85b39bd..57a4b1f66f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 11e98efd9f..48056cd834 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 28a019accc..227c54acda 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index ea25b5eaff..eea8fcd20c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index a5e8ac4541..64b1546be8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index fb21b6429d..7c5fe0bd46 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 90046688f1..748dd75d22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 8bee1bacd7..ac2fa78506 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index b8a6e10e65..67e02c6d6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 1f0d4e2d28..e5303c4162 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index fb7617cf96..9bf12eaefe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 649682a521..d887a994af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index b7ef701393..f3dcab6af0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index f043077872..9bd0398e51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 7f5cc32bf8..e482ab0ccc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 20f2299474..949458bd6c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 0c5b0899d2..3670b2994d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a10ed99695..ebabe3f23a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 1778c650af..4c51d6ed1e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 7f18e6c0d9..f548bce67b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 90eaf9020c..fae7b8192a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 6041d88106..fbd2760c71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f4f4a74a29..f4b67cfe22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 723dad8b4d..921ea51867 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 725fb3b751..592c5f5ca7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a213e1feea..b661ec2433 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 55be37bff0..42252c25bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 8d4e8157c4..ccb1255366 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 2a11628eaf..93c0982e16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 37c739e6d6..11980a5993 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index be282c1692..35759afac7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 16c1a56335..c2b7d22d19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 0d126762fb..ab1a48b5d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index bba62020d6..d397b6c287 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index b4973f6d4f..ef0cd2b55c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index d397432a8b..e482627c4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 576f4ec43c..0b71055aa8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 9ec9c32a5e..07baf5c51b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 0e1421f0ba..8a9d2a09cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 1cfbb64a6a..d6e936d7f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 936aceb179..9ba8cb5fec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 2601c44b53..aff856f5e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index db40de8e14..7ab9a5ed66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 520aef06c0..614106b449 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index e11bd53369..c78d8cc45e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index db1a8fe044..fbdf049c77 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 9a7ae39f16..575b9cb2dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 57b874c858..52479fe8c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index c542a2c255..f77121e8ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 1d22178487..f666579dab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index a4f08bb7be..e6415f0204 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 9d24093276..a6e4eaee86 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 3596811967..a05b01f6cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a958635127..45c725d1ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 792825647a..981e00a0cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 7fb1932394..0ee01e1e39 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a81fe6db2e..13ad2073ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index e4940345d3..9096f71313 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index dad5ec5274..a99eb399ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index c0e01a73b9..350231a4b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
index 61472494f2..b6c2d001e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 70837e9b2b..7493148ca2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 3ad63b3fb7..b0b50219c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index d2ec293abe..fe0689d261 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 6f988aedf5..e47cb78916 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 170b7dc080..80ea624e98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 060a6b875a..06a2180a4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 4093a812e7..1e4243c9a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index ef3521c8bd..9cb0a3a128 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 9f76e20d90..17840e4821 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 6274a56bb5..5710916124 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 6b97237665..bcd41bed04 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index fc9b10b1a1..51ad39f19a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c166a7bd48..77e30ebcc7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 30cc3c575d..32f6b10bc8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 2f4058c055..0a91e7dc27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index dd172a8cd6..6c98139893 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 4eb6cba1aa..86a41cae1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 34a1a45a03..939618fb5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 15691115b3..66b29e3f8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 5ea99eb70f..08339dd11d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 9e72f65f20..234c92dec5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 143c79b972..c8dde93ec7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index e7935d54b7..0e23a592ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 0b911129cb..548db3f1b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index e2ff64c3dc..0b43faeb10 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index ee07981f0e..0abaab5e57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 5e47962a51..867f773b2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 8936424612..c3ebd58df1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index b8d022181c..90b71d7a8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 835604b023..32379a264e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index e221a4df68..ba671ab825 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 7708b6be81..ccfc61aa1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index f500369249..d42fddfc6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..af6fb8298c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 7af9ce737b..fc33566f2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 90ed257288..0a26d6bb80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 63d87a7ceb..6d7e46e836 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 5ec5b2076d..d1273b0bc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 0202533758..e90f19e250 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..ed30cfac3d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index d49d2b41de..74585eac9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 8945954299..07ba4d093a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index acc3e80445..2df121537a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index ef243b0dc5..bffed9b419 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 23a3d60725..a3eb6351bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..257d93ffaf
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 2048527030..3a4ff2c881 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 9866d6a0b2..ac711f78f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index ce742afc08..d1cbddf974 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 8170a8859c..4a942cad8e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 33515ab436..b9c6054e25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..cb780a8c7f
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index c1bfa5227f..b3baca38ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index c0602f9c08..ac11532c08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
index ea0947de21..b3c7728798 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
@@ -290,3 +291,59 @@ extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 9f5253947f..3cfe0e356d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 83474e1d76..47f2716488 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 8e8b152379..1a07d031fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..17605de9be
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index c542571932..a4c43a4f1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index a5a67b1ad6..4cd06938da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 48a41626a1..4f0566472e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 41c9d6f57c..58ca5103d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 553b1fc8ba..ee3fcf220d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..b11f464c47
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index dfe68ffcad..8eeb7914e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 810e671500..c40b95f616 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 2d72bcb6a3..16b75dbba1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index eda1008bf9..92220045eb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index c101072938..63d3597544 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..871fc9c1cc
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index a67bb0844f..7cd5e475ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 71182531ad..89f1a3d820 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 4910d1463e..eec5ea48df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index ab647a2e7e..237592a62d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index f8c7491ae4..e8412ba9dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..426be5ceef
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index c4cd4e7b88..71feaa5b59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 9203a02a35..0dae645bf1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 1d130ea119..8e705f6e47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index e9525bfd6a..3c954660b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 601415d752..c6867ee879 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..e46d0a3fe0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 571780c49b..f4cfe72791 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 608cf7b582..ac67568c85 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 3841dadae0..3df28f391c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 3ed3b86656..e8c20e6653 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 8f45feab8c..23365ea07c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..b6b5088143
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 8690683e49..99dbfdc17d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index e8ae22495d..65caad4c3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 4a985fb011..e4ee82ad91 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 3420d3aa50..3510afd083 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 74849113c9..aebedfff36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..a951f3dfac
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 1303aa9b43..57d73100fe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 213703efeb..80cb709010 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 5ef755ddf6..ac97830334 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 24c5729743..68787bec6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 6a6952ec63..cde3fff610 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..561d6166a0
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 434dcc2693..09d10ff071 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 1ecdd0f832..1caa07ce19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
index e4327e83e5..bbcd17f361 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
@@ -290,3 +291,59 @@ extern template void run_grouped_forward_mask_bias_dropout_dispatch<
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 3f5f2707fc..9844733b23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 3a24dd4611..5692b65511 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index b20dcc77ec..db9e59b98f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..74708d1374
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index e93471b9a2..822802e232 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index cbfcdfa07d..e0064545ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 4fd11b41bf..8a952c9d9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 5b83a321c2..3d6ae04d8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index ece97ea1d8..0b3b0c4aed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..b43f2fd18d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index a9af6a8ded..9d7c831836 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 60f4f7d652..61245f5479 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 94bfe75ea5..828c5bf3ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 31136ded22..c0932a45f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 0e79cea140..a3b652ff70 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..550bcdd364
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index c4e8677838..5b0e3d6fa4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 77d6057173..5b4fc6dab7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 25c0c1ac25..fb717a95cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index d7d3a36219..53a58658dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index a49ac26ee6..90e8e4aea8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..9662499beb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_forward.h"
+
+template void run_grouped_forward_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index fc7ddced9e..90cac49cf3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 2942d3e91a..c762d15be8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index d50935b1d7..7325dbfb3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index e985ad8805..e3959860e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 8f88cf8e63..1e8f71ab62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..adb411d385
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index bcf4508b97..c2160938d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index e6bbaad9e8..5aaff32ce8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 82b400f0c6..aceff17f6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index a3325e6686..2068aa49c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index cca4cc5431..2ca71c8a24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..9f857410c8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index e033986a24..d4cdd3ea15 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index cb80ff6e05..dc2c7a98f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 2f257ffd73..c1ab661853 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index a772490804..570af5a807 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 94b83ea16b..fb1116f9ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..3b134edd58
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 1e0258d11a..789122aeab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index b8aecbef49..e273a2cc58 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 5c5052773a..6949cdd08b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index f5267d11a7..7ef41771dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 17549b1ff6..2f3e9504e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..75005091f8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 49b14547cd..b7c30d76ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 30db8093b3..ce8aa4faea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
index 6022b79cc3..93ef3e0906 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
@@ -290,3 +291,59 @@ extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index e5fb64fac3..ba930926d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 4eec28e4df..0bcbb9cfd3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index d26e0d4771..f7797866c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..01cf0d8a55
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index b9498adfc1..72eca9629e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 48530caca9..b2727b79df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index d09cd5a863..8cf261a115 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index acb1b14fef..e9e8c3cda6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 1924525a47..9022c72076 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..f9337878d1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 818af21711..7bf43a6e59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index a1236ed698..d6f030f15a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index b73fbd3e60..8063e55e0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 8e40965635..548ce18d64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 92db0a3bac..1db775dd6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..a3fe299df8
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index affb5a980b..e5790aeed7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 75ff69dfec..d658a2d1fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 7efc0e9203..31e803ed84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index c1493d3e44..0305f10c64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 315429ef08..6b0c794ca4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..0f139fa4fb
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/bfloat16.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::bf16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 8cce00c824..d8bf16e0d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 86f93c2b3a..7745b3ac7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index cbbd746a8f..5a2f854855 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 960634ed47..356ef6b8ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index d3bbeeaea0..1eba68b7d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..5758aae1c2
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 0fda8f6a47..924cffd78d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 9eac3a46b5..312b9c3014 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 91a3b3aec9..3abc693be1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 8859657b71..d6f455e871 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index ab8ee4823b..7d4b37af22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..27c99f22ce
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index dea721a634..780b52c64a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index d843caa1ac..370ab0d1dc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index edecb5ee5b..53687634e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 5aabfa102d..d06f56a92e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index d4b2a56bd7..8b6b087456 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..0049b91a34
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 5c6b91be17..4622088d4a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 90175276f0..1efb517bfd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 40d3950944..4b63648542 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 0abf5b79ba..1d00a50084 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index afa07836b9..1574d20f61 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..823028b5e7
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 03fa1e82b9..4c8fdb1caf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 5efcef2c86..29b00bec7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
index c38d01ca60..24a46b6c64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
@@ -290,3 +291,59 @@ extern template void run_grouped_infer_mask_bias_dropout_dispatch<
     false,
     false,
     256>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    true,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
+
+extern template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index db687f5110..6634ecb9e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index d78135bea3..c707ebab61 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index fd4fea5d62..e2752498cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..d4fc57d25c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index c1c4742435..f4ab9e4810 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 37d18699ee..ef9212b476 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 33dd36ae2a..72ad2333db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 4ed97869a3..06cac52e4b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 8317354c85..1b41bccd9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..05a5a5e2b5
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    true,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index f761773b84..4fea486633 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 3d80d5fd9c..1976c23a0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index f9ab0be1fa..fc137be33e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index f4f7fee792..85a20a4474 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index a510dfb2b5..26a1327d9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..d1d52a146b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    true,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 9d8b8e8987..8277de342c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 15788edbf7..3d7465768b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 3287d5e4ba..a589ef3864 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index b7f99432ce..b928522312 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index f6d6340842..5b9eec7fa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
new file mode 100644
index 0000000000..68fb09fded
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -0,0 +1,20 @@
+
+/*
+  Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ *
+ * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ */
+
+#include <ck_tile/core/numeric/half.hpp>
+#include "ck_tiled_fmha_grouped_infer.h"
+
+template void run_grouped_infer_mask_bias_dropout_dispatch<
+    ck_tile::fp16_t,
+    false,
+    false,
+    false,
+    512>(GroupedForwardParams& param, hipStream_t stream);
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 44f3b7d0cb..cadba30913 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index b6e94978f6..3f37090377 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,6 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
+ * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>

From 4de46f4baf16f67aacb3fae1e2595a614de39a4b Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 27 Nov 2024 01:39:36 +0000
Subject: [PATCH 712/837] run codegen (1)

---
 xformers/csrc/attention/hip_fmha/generate_instances.py          | 2 +-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_batched_backward_bf16_instances_ref.h        | 2 +-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_batched_backward_fp16_instances_ref.h        | 2 +-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...ched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...ched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...tched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...ched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...tched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...tched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...tched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...tched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...atched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...tched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...atched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...atched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...tched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...tched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...atched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...tched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...atched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...atched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...atched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...atched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...atched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_batched_forward_bf16_instances_ref.h         | 2 +-
 ...tched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...tched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...atched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...tched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...atched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...atched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...atched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...atched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...atched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...atched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...atched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...atched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...ched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...ched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...tched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...ched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...tched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...tched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...tched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...tched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...atched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...tched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...atched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...atched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...tched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...tched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...atched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...tched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...atched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...atched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...atched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...atched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...atched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_batched_forward_fp16_instances_ref.h         | 2 +-
 ...tched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...tched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...atched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...tched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...atched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...atched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...atched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...atched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...atched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...atched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...atched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...atched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...atched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...atched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...atched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h  | 2 +-
 ...batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ..._batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...ha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...a_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...ha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...ha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...atched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...atched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...atched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h  | 2 +-
 ...batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ..._batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...ha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...a_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...ha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...ha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_grouped_backward_bf16_instances_ref.h        | 2 +-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_grouped_backward_fp16_instances_ref.h        | 2 +-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ard_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ard_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ard_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 2 +-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 2 +-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 2 +-
 ...ward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 2 +-
 ...ward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 2 +-
 ...ward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 2 +-
 ...uped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...uped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...uped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...ouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...rouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_grouped_forward_bf16_instances_ref.h         | 2 +-
 ...ouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...ouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...ouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...rouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...uped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...uped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...uped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...ouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...rouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../instances/fmha_grouped_forward_fp16_instances_ref.h         | 2 +-
 ...ouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...ouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...ouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...rouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...rouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...rouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...rouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h  | 2 +-
 ...grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ..._grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...ha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...a_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...ha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...ha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 ...rouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...rouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...rouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ...grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 .../hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h  | 2 +-
 ...grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 2 +-
 ...grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 2 +-
 ...grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 2 +-
 ..._grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 2 +-
 ...ha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 2 +-
 ...a_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 2 +-
 ...ha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 2 +-
 ...ha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 2 +-
 637 files changed, 637 insertions(+), 637 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index eb3dbcc54e..c4449e7dff 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -20,7 +20,7 @@
  * The file is automatically generated, don't modify!
  * See the generator script `{file}`
  */
-""".format(file=__file__)
+""".format(file=os.path.relpath(os.path.realpath(__file__), start=Path(__file__).parents[4]))
 
 FMHA_INFER_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 3c8becf665..873b3bd459 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index ed469b817b..87f0f0ef4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index ffde423ceb..22d858453e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 08b1acba2f..241361404a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index a5a17f3ff3..8cfa88b2e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index ff3b4ab63e..05e600f65b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 6e0b50cf07..142d8a1884 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index c55cc90dd2..5997e6eb65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 5f0569441d..57549afec4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 5f69c9ccfc..e0f62f5351 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index b7bf20edbd..2e77015e20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index ac19eec39d..3f64fdbbc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 6ad6d71454..b31af42348 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 141a049dbf..3eed3b533c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 55dc55de61..5310ba1d11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 4ae460f5c9..8113aa57f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index cfcb0c41e6..e681704b99 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 82dc0ad3b3..bc4dd24eaa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 67a8a7c5ea..970544c470 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index ff6aa41956..37a7389532 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 80895a87c8..e340209c3e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 0656a6f5ca..c37a80a10d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 4535becd44..837e954506 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 36300debe3..71ce3f8a94 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index f37c905f72..424161cc0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a3910f1fc7..8fab225f38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index ea36df6265..a153dc627c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 0374982665..1a542613fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 4bf09ad95f..f482787fa6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 27f8dfe3ba..668ffcfc92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
index 584da80c16..183ec385b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 4e79fe9571..d80ddb4086 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 825670bcfe..a4816243b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index d8654f2110..0e025afee9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index db2d19cf7d..d394e95026 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 5c1be6faa7..ed3293e5c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index f5cff8b54d..3cf05ae1d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 3367326304..68a4938cf9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index e50edf1806..863553bacd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index e33c7c9b27..1a5e533e4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index d6d5f68c98..e205118b79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 8846ed076f..1f75ed64af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 5c5fb2abdf..95127ccb29 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 5dc2f38c6b..638218c18a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 95bae5cb44..2c72096d4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 479dd58843..f4f360b154 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 2f013f983a..75b7ba3b69 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 263a11b542..85c0c7aeab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a7e4eb125b..4fbaa4db12 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 9e5693d3f7..0bf357fbca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index e9d64a07c6..44f1a0b2b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 091b43a104..ff2fb9c0be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index bb93d9a0ea..e1150e43b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 278d63d326..7deb116b35 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index d8c97eb7b6..b0763a965a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 93c054d6ca..cf48d6aa73 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index c30c448dde..98ea879319 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 2223391df5..a4ed17fe01 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index dd26d14881..ab544ae6d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 7123d04076..f55bb67a62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 92b7c85a4e..c2332dbaea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 8abe40dac7..ae94cbfe81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 53d01d43df..b5b2d40d75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 205c43f895..1d926908c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 358b924ab0..92a84023e1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 4bc91de036..ead3e2d0d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 970da481f1..3cd2eaee3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 018703edec..a86bf7bbc4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index c8297b314d..c1281e4072 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 926d1f7bc1..57d625ee3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 15c38a3161..0d31b949b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 4165cedfc5..f0a8f0664a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 4d801ba1b0..2c45582c2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 31fe0a781a..452c0bfb6c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 709a6d55a6..10ee6184db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 660235ef08..bef8573c89 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 3cf63f26db..a9ae68d3a2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 23d1dd9824..6824f8e7a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a9c0795427..e026750e89 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 5a2d0d71e2..965b085e80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 2461cf7fb8..3d0dabbdeb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 10a5821614..d1f07388dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index f0953b71df..0a6ed85fb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 40d2f96a6f..3f448e7f4e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index c0d2f84919..6119b15455 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index b4f607bd35..d0636c0867 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 24ce42e41f..c2dc935021 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 9fa267447a..e9d9532b08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index d7e92846d8..1f2e8027eb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 60119f9745..497928da88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index a0a5ff6700..67651a9af5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
index 771d95a9f6..8681f90663 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index c879c16a8d..d203fda67b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 381a1b04a5..788e48ce16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 1f8c1a178d..12e04d03a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 89e833b8b0..4dd341b9c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index b5cafb45bf..ac626c3c20 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 7b524d112d..ea797a436f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 264e292b3b..73959c90ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index a8811db0e4..cee24ddff7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index cb3db7d3a8..6f7f62fea3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 8b28b3cb16..4f03662848 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 56059a2606..29efa7e3cf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 446b6a17a1..9968e54d7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 29d5784a42..bd7e65c172 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 53d04e7efe..b2083c4df9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 6000eaca02..9aefb8b4d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 520305e848..088ff604db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index f2a44ac521..f6d968b002 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 8c8cdde80f..34c3e569d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 0915759460..3ff030e63e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 5250711180..6cde3305c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 36afc7896d..b10b100acc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 0752cb36e6..e4620d4f22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index e422cef953..f0ca1f0798 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 9cb88d4697..a4d4898eb1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index a2f0e1a6fa..be7139761f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 0f528542f9..8de0a17a71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 1a2da98cd1..00620cb949 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index beb88101c6..9ef7481d27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 6c4edd6d1b..81445f255d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index e6b7be4016..ca477f50bd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index cf9dc95f3d..aa2dd08929 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index d92fc018f8..955b6d5246 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 03535b0f2e..ecae936932 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index f8175cc60c..6f30f6640d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 666f1af2cc..4acdc005e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 468fc7aa95..1d06879d31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 7b041aae5c..2b6646d14c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index ee1df6eb9d..858b5dd1f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 6f91e81e7a..47b8d7914d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 92a573ddf1..cda0809a3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 142fdd0aaf..5c825eadae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index ea3058898d..8fe16b3745 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index a849859b7d..f2b86b1f37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 6a4a17b3ab..9695c8d68a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 357e4fecc5..af521575ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 419fa60776..89166e4ce9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 206bdbb346..e80ee1db7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index d69dfea61c..06178e68f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 1135937c26..eb13ece12b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 1229d5ce0f..e62de2cefb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index e4c43c5327..8e308ebe0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index e31d1db682..7d4411b4d7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 27bc6fe25b..5762394222 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 940d6b59ba..33cbc7f73f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
index 8b5a450fba..cedc9845da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 31ea11bea8..cff2bf6c8c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 30ebb9e751..be03a1e054 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 7f1205a5fc..0085a9ed31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 9ce73b1fcc..12b67727a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 61a9fd4634..c177389759 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 860f862fb7..3db175d8ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 5dad4926d2..e0566e6496 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index a958667321..56241be25c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 0f57a87ae9..7526ae0ac2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index c8b416afac..98d3940da9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index ef08452b3c..cf08eaabea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 26e3c66dbd..428a0331e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 241396a1ae..83576e161e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index ac835e92f0..fefca349fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index d17295a617..46beeee8dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 24e0bba655..aeba646258 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 81ed166808..5b5b75ef3b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index c1c246f477..8c6bdddb33 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 90b53f68ab..56b634e580 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 362ad1d017..900f6015ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 7ebfd7170c..685f8b81a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 0b376d4f6b..c29447a7d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 6a81e8a44f..16f0649c98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index e98907f8f8..befff2b3ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 5fa0b483b3..7f0c4416c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 72fcc87d24..25573a2719 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index b71575adc9..62f6dc966b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 961a3b5874..19df831ed9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index a91fbd02e0..83bea31ec4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index d500b32bc3..482e8082ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 500ae40f18..788d1bd59e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index ea78b73717..e968d98938 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 0f05777432..32c9de6b92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 5d794c5e99..b7da351f0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 5dbd424052..db9439c7ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 21aaa34fc6..80f370578f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 0eba3dff9a..e597d76342 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index c4c3f69dd5..2b2e643b82 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 79161436a9..8a3731fce1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 1b4785d8b3..3541de856d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 2bdb1a1d28..723cb474a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 96f2f991c7..71f5aabd59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 0206c386d6..b70c486a19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 1ebf8906bf..8063a843d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 80818b3f22..08b0ae0292 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 16d40319d0..2e41d6a4af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 8a90d95271..9aa804ab68 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 59896a7650..b5c1ecee7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
index da93e1de63..b03cfa8337 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index f6128f2c9b..ab1536fc85 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 102c4559fc..d62053cf38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 614882f5da..b2ecdd58ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 4fc889ab3a..457e171aa5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index e17a13b990..8b2c4ea574 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 5e90f61f98..4d0428c388 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 3ebbc3f465..9629569894 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index d2bc1114f4..3b4e7c75db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index a2a3fe310b..131cb20a24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 123b3cdc41..9d828ee7dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index b95ebd9265..74ea4ca2cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index fed7a50a79..aa505dcd03 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index cad1fd9b7c..c4515502c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index d8dbe76e37..17ec5b9089 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index a663866024..852ece6adb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index e3b3445472..095542f967 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 57127f02d0..da43b677be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 2c23cf8151..174399c4e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 206c716153..2bb6c1455c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 7f4fac3b8f..42514522ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 228acc3d57..18feb4b39a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 41e9181830..2e3f6352c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 4575c66f48..c74d20b050 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index aa97efb037..d4a9a2d3e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 5a3d1c59bb..bb51cda2e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 258dfa5d23..3371f964e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index b06eae7cb4..c8631ad518 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index e5ad26ae83..b1a7d6ccf1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 59565ba604..205f2ef00f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 461247aa09..999ee25185 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 057127b094..b3b9343020 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 9cf22b284c..533442720d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index e8d46c4254..a4785bc128 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 6e3e144574..359a86a574 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index f5119a3521..2286be5b0d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index fb4fab44ac..b7a694ff0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 98e86a8961..4a4ab01eff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index af3d2cd308..478d07550b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index a4767c35f8..0985451144 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 3936ed5c98..d96084f19a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index fa4e03e2ad..5c40799bc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 08e2ea06da..c0715bf4ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 457fd3ed22..6ac9c62a8f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index ceecef9e40..26946aac77 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index bb38104046..5cdb71e79f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 1657186994..50b3942470 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 54aada2d22..ea82e44be0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 072e65ed2e..48c0c14580 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
index 816cefefd9..34a71aac07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index e9127bfe2d..634d702970 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index deca4b3512..62c399d71a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 2e6b59b15e..378eb9658d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index a70a8df12a..637888e1f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 478adda712..6fb53dc347 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 2164f28eab..7b4407bb4a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 23b5e7ef7c..ba46dbb73b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index ca25392108..912e4d4959 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 55d9f02236..64321f86fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 94b07f02a6..284ee43bc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 72dc0dd729..efcebe72e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index ba33c2731d..a171aaf17b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index ac9b482f74..72c5c70bd3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 5967411365..ca8d1cff32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 4518541a55..34677f5b86 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 7de1d93829..6f55e3f4f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 546597eadc..d3d2826370 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index d6257939a8..8ca8f3264d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 8919be4450..b4bda816ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 86ec590036..5b7881afb9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 9959bcae71..f944f215b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 1121473376..47ded0cbd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 523a08e0af..eed12b7205 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 077aa8f499..852439b5b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index e9647ac84b..a6c486ca7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 80b021118b..8679b99fa6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 84c59ff121..3d8a649926 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 0697b4d99d..a2949339b9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 74cf0cb56c..6b9a063ad7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 9d4cec3617..2a5f3a7a8e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 2e6bc1f36a..624f85234b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 9c4040ed0b..fcb2e94da7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index c964cdddaa..0b37c17a77 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 47fba1b12d..e6d4420982 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 048fa78c1b..395ac53f92 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 8f87a504d0..c6a9d62122 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 123c396fac..77b52101f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 4f0d0260bf..3331ad3cc4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 4acc8193da..f4df69337f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index bc04e38ab5..9a9ee31637 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index c8b6658b96..0da067d9de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 35a8599924..cff70dab3e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index c106214642..17f09da53a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 754a776060..2b89ca66fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index ee6f70fa42..cf68aa3197 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 69eb3b29f2..23a37c5c5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 385fa3ad34..10599c00a6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index b32721b62d..3ae7c03280 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
index 71ef6fbab1..d2b41f23e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index cdad72cb69..f514619b7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 09043efdce..57df677343 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index d92a0a12cc..d7b69df6fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index b725891272..b9fccf19be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index e5aaa393ed..6989bf58b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 8c07e4ed7d..68a8a6c6d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index ca8ee31aae..d0d412be65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 1935413de1..1446763b59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 761bb5d341..b9ea2ec169 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 2db267ef5a..6adf2a3690 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index e269d14b7f..78cd7e2691 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index fb6fb41857..7c727ff3db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 43faddeeb8..6ebc07c1fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index e63be82f06..3cdb577ab1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 3b83eb81ad..d7eb64604f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 0e3bffb52a..f01cd84e98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 09e7da740f..e652b0458b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 88dd74a660..fabef3c7b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 49a32037a0..614e4128af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index ba05343b2a..2437bc1fae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 9452f0cc15..37e10938b2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 4d22e752b0..07df87fdbf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index ec8d1234c0..f429713b9b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 573317edc5..07e32a08d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index e0608f7bf0..49bc7b0f9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 2c8d11b3b4..06e85331e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 4bca435925..34942eb2eb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 379f2271fa..d88c3c9e91 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 34216ba7d4..1153d3cb06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 12bb72767e..3c6cb92eb5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 8eeeab5f37..80ff331904 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 2a417c5431..ad9bdc1cc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 334c3a8aa1..10717fa771 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 9206ba269b..a8a675d6ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 089b491e25..931c0580d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 6c19eed619..0b837a4108 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index bc41914d05..786becbff8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2b6397bcd5..28cbcc8f07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 4931e05bc1..81ac736f63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 9c2ddb206c..74f9941122 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 05b2f882e6..f3e4faf631 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index c4150c2f5e..a319a107b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f4df99dc88..79cb5392a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index df96951ba8..033cea5bbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 7668a2e63c..6cdd814c1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index e454a721f4..6515a00732 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index d7be9a07d8..b6dba654e3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 8094a76cf6..d4f3a55133 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 458ba46c36..93c61210e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index dc5c0c6658..a66913264c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 09a78f1959..8d01baf0f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 187f889ba5..eda177fbe5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 5c8af92e77..f30883c993 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 10983623e2..5fa5a5f544 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
index 90d6fc6c27..6ea0236acc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 57a4b1f66f..e5f5d4ace5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 48056cd834..36c10c251b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 227c54acda..07dafd714c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index eea8fcd20c..a167fe84c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 64b1546be8..9351b58f12 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 7c5fe0bd46..e4da6690e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 748dd75d22..479e86d2c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index ac2fa78506..9ae5d6e950 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 67e02c6d6a..95c5a7aed4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index e5303c4162..dc746c2cf7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 9bf12eaefe..d400b00815 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index d887a994af..841ce79c62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f3dcab6af0..7b86f6df55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 9bd0398e51..61e6ec7529 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index e482ab0ccc..d7f584d9cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 949458bd6c..16b30618d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 3670b2994d..43061ae749 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index ebabe3f23a..7502898025 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 4c51d6ed1e..340efca2db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index f548bce67b..e56eb6cc27 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index fae7b8192a..e911dec7b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index fbd2760c71..65f3103a03 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f4b67cfe22..2c2ca900de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 921ea51867..7510e2d8c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 592c5f5ca7..a5a2e16576 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index b661ec2433..4e7b7c5aed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 42252c25bb..da66e4287f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index ccb1255366..666d2e2357 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 93c0982e16..feaf6c9415 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 11980a5993..e6c02525fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 35759afac7..5aef8d566b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index c2b7d22d19..0315aa2f58 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index ab1a48b5d3..4ad142afc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index d397b6c287..fe9134c8e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index ef0cd2b55c..c47f66381f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index e482627c4b..e8b04ff9ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 0b71055aa8..89158313b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 07baf5c51b..7a1453ed49 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 8a9d2a09cd..75952c1803 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index d6e936d7f7..0b08b3e0ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 9ba8cb5fec..b5a62c7ee9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index aff856f5e7..9938ce181d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 7ab9a5ed66..c1012ee160 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 614106b449..24b6dc74cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index c78d8cc45e..644a8cacb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index fbdf049c77..bbcd192445 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 575b9cb2dc..bad6fbfee2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 52479fe8c8..5a3503e055 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f77121e8ab..93055cdf53 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index f666579dab..87d23ce83b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index e6415f0204..348cd98d01 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index a6e4eaee86..862bee85c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index a05b01f6cb..e096d37bf7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 45c725d1ad..211f3199c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 981e00a0cb..05b3dabb33 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 0ee01e1e39..e25b85299c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 13ad2073ff..d1822ed1c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 9096f71313..1a50e7a0c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index a99eb399ff..da672ad8d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 350231a4b5..0fbc89c2fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
index b6c2d001e2..c1d77d6e83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 7493148ca2..5f17a53e71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index b0b50219c2..83840d2128 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index fe0689d261..5a79d596b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index e47cb78916..de20e247d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 80ea624e98..cb9002dcb9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 06a2180a4f..eed941acce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 1e4243c9a4..2bd5843010 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 9cb0a3a128..8d8f84d307 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 17840e4821..2f1e469b03 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 5710916124..fe2b58285c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index bcd41bed04..ab15fcd0a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 51ad39f19a..7173231fc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 77e30ebcc7..aafedddfbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 32f6b10bc8..1711647450 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 0a91e7dc27..4f25f529f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 6c98139893..748e89ed4c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 86a41cae1b..906110d403 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 939618fb5c..f2a08882d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 66b29e3f8b..12b34da949 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 08339dd11d..55c6c39bdb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 234c92dec5..80eee80879 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index c8dde93ec7..255c9900ac 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 0e23a592ab..5eaaa7970f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 548db3f1b7..fd8bd84f51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 0b43faeb10..339b0f07fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 0abaab5e57..905b966186 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 867f773b2f..01ffff53d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index c3ebd58df1..9d59541d16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 90b71d7a8d..57b475750c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 32379a264e..c701a8d35e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index ba671ab825..b566753661 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index ccfc61aa1a..dbb229db5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index d42fddfc6d..802086203f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index af6fb8298c..46f8023102 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index fc33566f2c..35de20af1e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 0a26d6bb80..cfd3e72bf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 6d7e46e836..ec2533f9bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index d1273b0bc1..5761fca587 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index e90f19e250..b93bca6afa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index ed30cfac3d..154406ae5a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 74585eac9c..218584a5a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 07ba4d093a..a311ecbc0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 2df121537a..373533c010 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index bffed9b419..a113de58f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index a3eb6351bb..a74423a7c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 257d93ffaf..87cb969668 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 3a4ff2c881..b7fd0215f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index ac711f78f7..e073d67d63 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index d1cbddf974..795a231236 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 4a942cad8e..d72512b12e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index b9c6054e25..c863204fe8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index cb780a8c7f..1d16e88368 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index b3baca38ca..96906bfee2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index ac11532c08..d4c160aec7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
index b3c7728798..48e77bcb58 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 3cfe0e356d..de01431fcc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 47f2716488..535b3eb100 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 1a07d031fa..f862748668 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 17605de9be..7384b98d51 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index a4c43a4f1d..712075792d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 4cd06938da..769adb5359 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 4f0566472e..cd7a4d8d0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 58ca5103d3..031f23949e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index ee3fcf220d..a92756b280 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index b11f464c47..09c04f1f33 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 8eeb7914e9..727d33da3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index c40b95f616..b04df448f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 16b75dbba1..cccf7236e1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 92220045eb..f71e3cd59e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 63d3597544..bc7d91699f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 871fc9c1cc..01e884a5b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 7cd5e475ea..386fffcc9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 89f1a3d820..cd7863dc2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index eec5ea48df..63c800ba79 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 237592a62d..323d91d862 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index e8412ba9dd..ea0c49a455 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 426be5ceef..84445c06ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 71feaa5b59..410dec8b11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 0dae645bf1..058019532d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 8e705f6e47..860709d923 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 3c954660b2..b5f6d5d90c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index c6867ee879..71268f2d84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index e46d0a3fe0..e2e56fc9d6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index f4cfe72791..bdf47a9e1b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index ac67568c85..28f6a92948 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 3df28f391c..cf204b7720 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index e8c20e6653..77149e0e09 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 23365ea07c..3389aa0fbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index b6b5088143..dfe20e5c52 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 99dbfdc17d..6da657b158 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 65caad4c3c..f952ea37ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index e4ee82ad91..1b6cec5afa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 3510afd083..fc7926e921 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index aebedfff36..f736d84552 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index a951f3dfac..b051da8998 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 57d73100fe..8c0564d9b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 80cb709010..04f7d13671 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index ac97830334..fb6d35ea32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 68787bec6a..38e509499d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index cde3fff610..46182901e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 561d6166a0..8889264163 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 09d10ff071..d90a6fe368 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 1caa07ce19..dff25908bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
index bbcd17f361..31f54101b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 9844733b23..43af5ff2c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 5692b65511..0c3a7988f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index db9e59b98f..47f1796d8e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 74708d1374..5114af7084 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 822802e232..2e7661f188 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index e0064545ae..c7975cda7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 8a952c9d9f..a409a575f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 3d6ae04d8b..8c130c6858 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 0b3b0c4aed..913daf1a3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index b43f2fd18d..bdc97a4f3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 9d7c831836..3a93841a3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 61245f5479..3f191a6ae9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 828c5bf3ba..db666ca0be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index c0932a45f5..8fc9edf432 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index a3b652ff70..ce10f5036d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 550bcdd364..ee4fbb62ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 5b0e3d6fa4..e8a72c46c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 5b4fc6dab7..b509b4818b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index fb717a95cf..5a92606d40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 53a58658dc..efe9a54feb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 90e8e4aea8..032ebe90cb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 9662499beb..343595a09c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 90cac49cf3..4143c7a3c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index c762d15be8..3e97fae2ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 7325dbfb3a..d48028de57 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index e3959860e8..dacc1b445f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 1e8f71ab62..35b8b72a50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index adb411d385..212dc494b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index c2160938d0..36cc5ca3a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 5aaff32ce8..1e5636eef1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index aceff17f6d..4c24895929 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 2068aa49c5..fcb13fa2f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 2ca71c8a24..63d1f52a31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 9f857410c8..6e186d5f2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index d4cdd3ea15..770d85d750 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index dc2c7a98f1..cf3592842b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index c1ab661853..74eb5732e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 570af5a807..1a484de07f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index fb1116f9ce..87c59db1c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 3b134edd58..e7d642fd14 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 789122aeab..25bc91ca31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index e273a2cc58..3e3a243914 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 6949cdd08b..3ca29a95a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 7ef41771dc..215d161bf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 2f3e9504e0..1c59689d2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 75005091f8..bc13ed3ddd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index b7c30d76ed..5208e85237 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index ce8aa4faea..9e8337e618 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
index 93ef3e0906..e63b1debb6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index ba930926d3..fb5483cada 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 0bcbb9cfd3..1ec6a87237 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index f7797866c6..f899cfd9b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 01cf0d8a55..d42041c475 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 72eca9629e..da9ff0f532 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index b2727b79df..1dfe9e158d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 8cf261a115..658f8e25a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index e9e8c3cda6..e654f789e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 9022c72076..6851a568f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index f9337878d1..052190fa7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 7bf43a6e59..b4ad49c80e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index d6f030f15a..529c207178 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 8063e55e0b..c61eb2addd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 548ce18d64..814c4f7e09 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 1db775dd6b..020f017f17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index a3fe299df8..1f7e661dd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index e5790aeed7..0bfd012292 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index d658a2d1fd..39345f3526 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 31e803ed84..3880d39523 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 0305f10c64..4141933cc5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 6b0c794ca4..c8f4e44948 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 0f139fa4fb..20d6858fc7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index d8bf16e0d0..bc6626abea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 7745b3ac7c..ff560eab71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 5a2f854855..ae087a287c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 356ef6b8ef..83d0a62825 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 1eba68b7d0..cc64a078af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 5758aae1c2..42b3c599e1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 924cffd78d..8a4b259af8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 312b9c3014..f6a3db297a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 3abc693be1..2743dac2f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index d6f455e871..4af84bf3e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 7d4b37af22..5f0ba6c091 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 27c99f22ce..ccabd0b441 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 780b52c64a..9af0435c36 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 370ab0d1dc..20f09a3a3a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 53687634e7..f122c216a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index d06f56a92e..4935042b9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 8b6b087456..661db14370 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 0049b91a34..5442bfa631 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 4622088d4a..231d6142a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 1efb517bfd..22d32de607 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 4b63648542..3415a6c97d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 1d00a50084..b541fd31a5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 1574d20f61..e9755e7d76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 823028b5e7..69450161f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 4c8fdb1caf..dc7eae17f9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 29b00bec7a..ce5cdd447c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
index 24a46b6c64..74b670ab31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 6634ecb9e2..2d66300c06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index c707ebab61..6b4ad69c14 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index e2752498cd..77f6ceb087 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index d4fc57d25c..ac0c23f85f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index f4ab9e4810..a369f36eab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index ef9212b476..734a62cb6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 72ad2333db..997730efc7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 06cac52e4b..99d939333c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 1b41bccd9b..26a46588d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 05a5a5e2b5..8861cfd02c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 4fea486633..6220dd75fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 1976c23a0b..54426ceb84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index fc137be33e..9a3d9eb619 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 85a20a4474..6c5658ae13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 26a1327d9e..86300b24d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index d1d52a146b..f18f85313a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 8277de342c..7e35d0a755 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 3d7465768b..c3e9f465c1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index a589ef3864..5ef048961a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index b928522312..05d8693237 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 5b9eec7fa5..5772d9eaa2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 68fb09fded..070ee17ae6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index cadba30913..f5830ec525 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 3f37090377..4407bf1798 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,7 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `/home/mpodkory/xformers/xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>

From 89e8e910a32042e3e41608c277aa3582743782fd Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Mon, 2 Dec 2024 21:27:41 +0000
Subject: [PATCH 713/837] add missing FmhaFwdBlockTile instance; handle 512
 case when computing occupancy

---
 .../ck_tiled_fmha_batched_forward_dispatch.h     |  2 +-
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h         | 16 ++++++++++++++++
 2 files changed, 17 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index f2e7f10ba8..d6b1144f60 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -48,7 +48,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
     using FmhaFwdTilePartitioner_ =
         ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
     constexpr ck_tile::index_t occupancy =
-        (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+        (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
 
     constexpr auto kBiasEnum = kHasBias
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index b42552e446..9f1b3aae46 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -83,6 +83,13 @@ struct FmhaFwdBlockTile<256> {
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
+template <>
+struct FmhaFwdBlockTile<512> {
+  using type = ck_tile::sequence<128, 128, 32, 512, 32, 512>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
 using FmhaFwdWarpTile = ck_tile::sequence<32, 32, 16>;
 
 static constexpr bool IsVLayoutRowMajor = true;
@@ -135,6 +142,15 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
 
+template <>
+struct FmhaFwdShape<512> : ck_tile::TileFmhaShape<
+                               typename FmhaFwdBlockTile<512>::type,
+                               typename FmhaFwdBlockTile<512>::gemm0_warps,
+                               FmhaFwdWarpTile,
+                               typename FmhaFwdBlockTile<512>::gemm1_warps,
+                               FmhaFwdWarpTile,
+                               IsVLayoutRowMajor> {};
+
 template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ = 0>
 struct FmhaFwdSplitKVBlockTile;
 

From f13d9876184dfa5494541d0f1c7243c1036d2545 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 3 Dec 2024 10:09:32 +0000
Subject: [PATCH 714/837] Initial adding support for splitkv smallq pipeline

---
 .../attention_forward_generic_ck_tiled.cpp    |  26 +-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  21 +-
 ...ed_fmha_batched_forward_splitkv_dispatch.h |   2 +-
 ..._batched_forward_splitkv_smallq_dispatch.h | 371 +++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  21 +-
 ...iled_fmha_batched_infer_splitkv_dispatch.h |   2 +-
 ...ha_batched_infer_splitkv_smallq_dispatch.h | 384 ++++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 178 +-------
 .../ck_tiled_fmha_fwd_splitkv_selector.h      | 102 ++++-
 .../ck_tiled_fmha_fwd_splitkv_setting.h       | 156 +++++++
 ...ck_tiled_fmha_fwd_splitkv_smallq_setting.h | 119 ++++++
 .../hip_fmha/ck_tiled_fmha_fwd_type_config.h  |  46 +++
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  21 +-
 ...ed_fmha_grouped_forward_splitkv_dispatch.h |   2 +-
 ..._grouped_forward_splitkv_smallq_dispatch.h | 344 ++++++++++++++++
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  21 +-
 ...iled_fmha_grouped_infer_splitkv_dispatch.h |   2 +-
 ...ha_grouped_infer_splitkv_smallq_dispatch.h | 370 +++++++++++++++++
 18 files changed, 1967 insertions(+), 221 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_type_config.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index b672c4ff73..e3738654d0 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -6,6 +6,7 @@
  */
 #include <cmath>
 #include <mutex>
+#include <tuple>
 
 #include <ATen/Context.h>
 #include <ATen/ScalarOps.h>
@@ -239,14 +240,18 @@ efficient_attention_forward_ck(
       p.lse_strides = {0, 0, 0};
     }
 
-    // added for support split_kv
-    p.num_kv_splits =
+    bool use_split_kv;
+    int num_kv_splits;
+
+    std::tie(use_split_kv, num_kv_splits) =
         get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 32);
 
-    // fmha fwd split-kv kernel does not support dropout
-    p.use_split_kv = (!use_dropout && (p.num_kv_splits > 1)) ? true : false;
+    // 1) fmha fwd split-kv kernel does not support dropout
+    p.use_split_kv = (!use_dropout && use_split_kv) ? true : false;
+
+    p.num_kv_splits = num_kv_splits;
 
-    if (p.use_split_kv) {
+    if (p.use_split_kv && p.num_kv_splits > 1) {
       out_acc =
           at::empty({p.num_kv_splits, B, M, Hq, Kv}, opts.dtype(at::kFloat));
       p.out_acc_ptr = out_acc.data_ptr();
@@ -383,16 +388,19 @@ efficient_attention_forward_ck(
       p.lse_strides = {0, 0};
     }
 
+    bool use_split_kv;
+    int num_kv_splits;
+
     // added for support split_kv
-    p.num_kv_splits = get_num_kv_splits_heuristic(
+    std::tie(use_split_kv, num_kv_splits) = get_num_kv_splits_heuristic(
         p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 32);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
     p.use_split_kv =
-        (p.use_paged_kvcache || (!use_dropout && (p.num_kv_splits > 1)))
-        ? true
-        : false;
+        (p.use_paged_kvcache || (!use_dropout && use_split_kv)) ? true : false;
+
+    p.num_kv_splits = num_kv_splits;
 
     if (p.use_split_kv && p.num_kv_splits > 1) {
       out_acc = at::empty({p.num_kv_splits, M, Hq, Kv}, opts.dtype(at::kFloat));
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 9bb7785498..33ea3b9e02 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -6,8 +6,11 @@
  */
 #pragma once
 
+#include <algorithm>
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
 #include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
+#include "ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h"
+#include "ck_tiled_fmha_fwd_splitkv_selector.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
@@ -23,14 +26,22 @@ void run_batched_forward_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-        batched_forward_splitkv_mask_bias_dropout_dispatch<
+      if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
+        batched_forward_splitkv_smallq_mask_bias_dropout_dispatch<
             ScalarType,
             kHasMask,
             kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+            MaxK>::Run(param, stream);
+      } else {
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+          batched_forward_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      }
     } else
 #endif
       batched_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 75580afcba..737b82baca 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -13,7 +13,7 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_num_kv_split_switch.h"
 #include "ck_tiled_fmha_params.h"
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
new file mode 100644
index 0000000000..a62c346eae
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -0,0 +1,371 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
+          typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          false, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    {
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+      const bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+      const bool has_uneven_splits =
+          !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
+
+      BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_headdim,
+          kPadHeadDim,
+          has_uneven_splits,
+          kHasUnevenSplits,
+          [&] {
+            constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
+            using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ,
+                kPadHeadDim, // kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                true, // kStoreLSE
+                false, // kDoFp8StaticQuant place-holder
+                false, // kIsPagedKV
+                kHasUnevenSplits,
+                occupancy>;
+
+            if (param.num_kv_splits > 1) {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            } else {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            }
+          });
+    }
+
+    if (param.num_kv_splits > 1) {
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
+                param.num_kv_splits, kLogMaxSplits, [&] {
+                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+                      kPadSeqLenQ,
+                      kPadHeadDimV,
+                      true, // kStoreLSE
+                      false, // kDoFp8StaticQuant place-holder
+                      kLogMaxSplits,
+                      -1>;
+
+                  using FmhaPipelineProblem =
+                      FmhaSplitKVCombinePipelineProblemTemp<
+                          kM0,
+                          kN1,
+                          FmhaTraits>;
+
+                  using FmhaPipeline =
+                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
+                          FmhaPipelineProblem>;
+
+                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                      ck_tile::Default2DEpilogueProblem<
+                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                          kPadSeqLenQ,
+                          kPadHeadDimV>>;
+
+                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+                      FmhaTilePartitioner,
+                      FmhaPipeline,
+                      FmhaEpilogue>;
+
+                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+                });
+          });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      if (param.num_kv_splits)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[2],
+            param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[2],
+            param.out_acc_strides[3],
+            param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[1],
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_ptr,
+            param.out_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_strides[1],
+            param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim
+                                // stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            param.lse_strides[1],
+            param.out_strides[2],
+            param.q_strides[0], // q, k, v, bias, lse, out tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            param.lse_strides[0],
+            param.out_strides[0],
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.B, // batches
+          param.M, // seqlen_q
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[2], // row_stride_o_acc
+          param.out_strides[1], // row_stride_o
+          param.lse_acc_strides[2], // head_stride_lse_acc
+          param.out_acc_strides[3], // head_stride_o_acc
+          param.lse_strides[1], // head_stride_lse
+          param.out_strides[2], // head_stride_o
+          param.lse_acc_strides[1], // batch_stride_lse_acc
+          param.out_acc_strides[1], // batch_stride_o_acc
+          param.lse_strides[0], // batch_stride_lse
+          param.out_strides[0], // batch_stride_o
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0]); // split_stride_out_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index ac9d5db2ca..fcdc89c518 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -6,8 +6,11 @@
  */
 #pragma once
 
+#include <algorithm>
 #include "ck_tiled_fmha_batched_infer_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_dispatch.h"
+#include "ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h"
+#include "ck_tiled_fmha_fwd_splitkv_selector.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
@@ -23,14 +26,22 @@ void run_batched_infer_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-        batched_infer_splitkv_mask_bias_dropout_dispatch<
+      if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
+        batched_infer_splitkv_smallq_mask_bias_dropout_dispatch<
             ScalarType,
             kHasMask,
             kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+            MaxK>::Run(param, stream);
+      } else {
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+          batched_infer_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      }
     } else
 #endif
       batched_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index eae2327f73..2468746e98 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -13,7 +13,7 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_num_kv_split_switch.h"
 #include "ck_tiled_fmha_params.h"
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
new file mode 100644
index 0000000000..27cf10553d
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -0,0 +1,384 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
+          typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
+          false, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          false, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(BatchedForwardParams& param, hipStream_t stream) {
+    {
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      const bool pad_seqlen_q = !(param.M % FmhaTileShape::kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+      const bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+
+      // usually headdim_q and headdim_v are same, consider them together to
+      // determine whether to do padding saving some compiling time
+      const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+
+      const bool has_uneven_splits =
+          !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
+
+      BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_headdim,
+          kPadHeadDim,
+          has_uneven_splits,
+          kHasUnevenSplits,
+          [&] {
+            constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
+            if (param.num_kv_splits > 1) {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  kHasUnevenSplits,
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDim, // kPadHeadDimQ,
+                  kPadHeadDim, // kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  false, // kIsPagedKV
+                  kHasUnevenSplits,
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            }
+          });
+    };
+
+    if (param.num_kv_splits > 1) {
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      const bool pad_seqlen_q = !(param.M % kM0 == 0);
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_seqlen_q, kPadSeqLenQ, pad_headdim_v, kPadHeadDimV, [&] {
+            FMHA_FWD_NUM_KV_SPLITS_SWITCH(
+                param.num_kv_splits, kLogMaxSplits, [&] {
+                  using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+                      kPadSeqLenQ,
+                      kPadHeadDimV,
+                      false, // kStoreLSE
+                      false, // kDoFp8StaticQuant place-holder
+                      kLogMaxSplits,
+                      -1>;
+
+                  using FmhaPipelineProblem =
+                      FmhaSplitKVCombinePipelineProblemTemp<
+                          kM0,
+                          kN1,
+                          FmhaTraits>;
+
+                  using FmhaPipeline =
+                      ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
+                          FmhaPipelineProblem>;
+
+                  using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                      ck_tile::Default2DEpilogueProblem<
+                          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                          kPadSeqLenQ,
+                          kPadHeadDimV>>;
+
+                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+                      FmhaTilePartitioner,
+                      FmhaPipeline,
+                      FmhaEpilogue>;
+
+                  RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+                });
+          });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      if (param.num_kv_splits > 1)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[2],
+            param.q_strides[2], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[2],
+            param.out_acc_strides[3],
+            param.q_strides[0], // q, k, v, bias, lse_acc, out_acc tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[1],
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            nullptr, // lse_ptr
+            param.out_ptr,
+            param.B, // batch
+            param.M, // seqlen_q
+            param.N, // seqlen_k
+            nullptr, // seqlen_k_ptr, not used
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr, not used
+            0, // batch_stride_block_table, not used
+            0, // page_table_size, not used
+            nullptr, // cache_batch_idx, not used
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[2],
+            param.out_strides[1],
+            param.q_strides[2], // q, k, v, bias, lse, out tensor head-dim
+                                // stride
+            param.k_strides[2],
+            param.v_strides[2],
+            param.attn_bias_strides[1],
+            0, // nhead_stride_lse
+            param.out_strides[2],
+            param.q_strides[0], // q, k, v, bias, lse, out tensor
+                                // batch-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[0],
+            0, // batch_stride_lse
+            param.out_strides[0],
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      BatchedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          nullptr, // lse_ptr, not used
+          param.out_ptr,
+          param.B, // batches
+          param.M, // seqlen_q
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[2], // row_stride_o_acc
+          param.out_strides[1], // row_stride_o
+          param.lse_acc_strides[2], // head_stride_lse_acc
+          param.out_acc_strides[3], // head_stride_o_acc
+          0, // head_stride_lse, // not used
+          param.out_strides[2], // head_stride_o
+          param.lse_acc_strides[1], // batch_stride_lse_acc
+          param.out_acc_strides[1], // batch_stride_o_acc
+          0, // batch_stride_lse, not used
+          param.out_strides[0], // batch_stride_o
+          param.lse_acc_strides[0], // split_stride_lse_acc
+          param.out_acc_strides[0]); // split_stride_out_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.B, param.Hq, param.M, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index b42552e446..b75c7a9657 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -8,46 +8,13 @@
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/ops/fmha.hpp>
-#include <ck_tile/ops/fmha/block/block_dropout.hpp>
-
-template <typename DataType>
-struct FmhaFwdTypeConfig;
-
-template <>
-struct FmhaFwdTypeConfig<ck_tile::fp16_t> {
-  using QDataType = ck_tile::fp16_t;
-  using KDataType = ck_tile::fp16_t;
-  using VDataType = ck_tile::fp16_t;
-  using BiasDataType = ck_tile::fp16_t;
-  using RandValOutputDataType = unsigned short;
-  using LSEDataType =
-      float; // data type for lse(logsumexp L_j = max_j + log(l_j))
-  using SaccDataType = float; // data type for first gemm accumulation
-  using SMPLComputeDataType = float; // data type for reduction, softmax
-  using PDataType = ck_tile::fp16_t; // data type for A matrix of second gemm
-  using OaccDataType = float; // data type for second gemm accumulation
-  using ODataType = ck_tile::fp16_t;
-};
-
-template <>
-struct FmhaFwdTypeConfig<ck_tile::bf16_t> {
-  using QDataType = ck_tile::bf16_t;
-  using KDataType = ck_tile::bf16_t;
-  using VDataType = ck_tile::bf16_t;
-  using BiasDataType = ck_tile::bf16_t;
-  using RandValOutputDataType = unsigned short;
-  using LSEDataType =
-      float; // data type for lse(logsumexp L_j = max_j + log(l_j))
-  using SaccDataType = float; // data type for first gemm accumulation
-  using SMPLComputeDataType = float; // data type for reduction, softmax
-  using PDataType = ck_tile::bf16_t; // data type for A matrix of second gemm
-  using OaccDataType = float; // data type for second gemm accumulation
-  using ODataType = ck_tile::bf16_t;
-};
+#include "ck_tiled_fmha_fwd_type_config.h"
 
 template <ck_tile::index_t MaxK>
 struct FmhaFwdBlockTile;
 
+// Tile-sizes: M N0 K0 N1 K1 MaxK (MaxK % K0 == 0, MaxK % N1 == 0, N0 % K1 == 0)
+//
 template <>
 struct FmhaFwdBlockTile<32> {
   using type = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
@@ -85,8 +52,6 @@ struct FmhaFwdBlockTile<256> {
 
 using FmhaFwdWarpTile = ck_tile::sequence<32, 32, 16>;
 
-static constexpr bool IsVLayoutRowMajor = true;
-
 template <ck_tile::index_t MaxK>
 struct FmhaFwdShape;
 
@@ -135,138 +100,9 @@ struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
                                FmhaFwdWarpTile,
                                IsVLayoutRowMajor> {};
 
-template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ = 0>
-struct FmhaFwdSplitKVBlockTile;
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVBlockTile<32, MaxSeqlenQ> {
-  using type = ck_tile::sequence<32, 64, 16, 32, 32, 32>;
-  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
-};
-
-template struct FmhaFwdSplitKVBlockTile<32>;
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ> {
-  using type = ck_tile::sequence<32, 64, 32, 64, 32, 64>;
-  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
-};
-
-template struct FmhaFwdSplitKVBlockTile<64>;
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVBlockTile<96, MaxSeqlenQ> {
-  using type = ck_tile::sequence<64, 128, 32, 128, 32, 96>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template struct FmhaFwdSplitKVBlockTile<96>;
-
-template <>
-struct FmhaFwdSplitKVBlockTile<128, 32> {
-  using type = ck_tile::sequence<32, 128, 32, 128, 32, 128>;
-  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
-};
-
-template <>
-struct FmhaFwdSplitKVBlockTile<128, 64> {
-  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ> {
-  using type = ck_tile::sequence<64, 128, 32, 256, 32, 256>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template struct FmhaFwdSplitKVBlockTile<256>;
-
-using FmhaFwdSplitKVWarpTile = ck_tile::sequence<16, 16, 16>;
-
-template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVShape;
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVShape<32, MaxSeqlenQ> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<32>::type,
-      typename FmhaFwdSplitKVBlockTile<32>::gemm0_warps,
-      FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<32>::gemm1_warps,
-      FmhaFwdSplitKVWarpTile,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdSplitKVShape<32, 32>;
-template struct FmhaFwdSplitKVShape<32, 64>;
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVShape<64, MaxSeqlenQ> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<64>::type,
-      typename FmhaFwdSplitKVBlockTile<64>::gemm0_warps,
-      FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<64, MaxSeqlenQ>::gemm1_warps,
-      FmhaFwdSplitKVWarpTile,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdSplitKVShape<64, 32>;
-template struct FmhaFwdSplitKVShape<64, 64>;
-
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVShape<96, MaxSeqlenQ> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<96>::type,
-      typename FmhaFwdSplitKVBlockTile<96>::gemm0_warps,
-      FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<96, MaxSeqlenQ>::gemm1_warps,
-      FmhaFwdSplitKVWarpTile,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdSplitKVShape<96, 32>;
-template struct FmhaFwdSplitKVShape<96, 64>;
-
-template <>
-struct FmhaFwdSplitKVShape<128, 32> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<128, 32>::type,
-      typename FmhaFwdSplitKVBlockTile<128, 32>::gemm0_warps,
-      FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<128, 32>::gemm1_warps,
-      FmhaFwdSplitKVWarpTile,
-      IsVLayoutRowMajor>;
-};
-
-template <>
-struct FmhaFwdSplitKVShape<128, 64> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<128, 64>::type,
-      typename FmhaFwdSplitKVBlockTile<128, 64>::gemm0_warps,
-      FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<128, 64>::gemm1_warps,
-      FmhaFwdSplitKVWarpTile,
-      IsVLayoutRowMajor>;
-};
+template <ck_tile::index_t MaxK>
+int fwd_get_mtile_size() {
+  using FmhaTileShape = FmhaFwdShape<MaxK>;
 
-template <ck_tile::index_t MaxSeqlenQ>
-struct FmhaFwdSplitKVShape<256, MaxSeqlenQ> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdSplitKVBlockTile<256>::type,
-      typename FmhaFwdSplitKVBlockTile<256>::gemm0_warps,
-      FmhaFwdSplitKVWarpTile,
-      typename FmhaFwdSplitKVBlockTile<256>::gemm1_warps,
-      FmhaFwdSplitKVWarpTile,
-      IsVLayoutRowMajor>;
+  return FmhaTileShape::kM0;
 };
-
-template struct FmhaFwdSplitKVShape<256, 32>;
-template struct FmhaFwdSplitKVShape<256, 64>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 6f7230e0a4..2a05a2cb74 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -7,45 +7,91 @@
 #pragma once
 
 #include <cmath>
+#include <tuple>
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
-static int get_num_kv_splits_heuristic(
+static std::pair<bool, int> get_num_kv_splits_heuristic(
     int num_batches,
     int num_heads,
     int max_seqlen_q,
     int max_headdim,
     int max_splits) {
-  // m_tile size is the size for dividing the seqlen_q
-  int mtile_size;
+  int num_SMs = get_number_of_cu() * 2;
+  auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
+
+  int mtile_size_for_pipeline_default = 128;
+  int mtile_size_for_splitkv = 64;
+  int mtile_size_for_splitkv_smallq = 16;
 
-  FMHA_FWD_SEQLEN_Q_SWITCH(max_seqlen_q, MaxSeqlenQ, [&] {
+  // get mtile_size_for_pipline_default
+  if (max_headdim <= 32) {
+    mtile_size_for_pipeline_default = fwd_get_mtile_size<32>();
+  } else if (max_headdim <= 64) {
+    mtile_size_for_pipeline_default = fwd_get_mtile_size<64>();
+  } else if (max_headdim <= 96) {
+    mtile_size_for_pipeline_default = fwd_get_mtile_size<96>();
+  } else if (max_headdim <= 128) {
+    mtile_size_for_pipeline_default = fwd_get_mtile_size<128>();
+  } else {
+    mtile_size_for_pipeline_default = fwd_get_mtile_size<256>();
+  };
+
+  // get mtile_size_for_splitkv
+  FMHA_FWD_SEQLEN_Q_SWITCH(max_seqlen_q, MaxSeqLenQ, [&] {
     if (max_headdim <= 32) {
-      using FmhaTileShape = typename FmhaFwdSplitKVShape<32, MaxSeqlenQ>::Type;
-      mtile_size = FmhaTileShape::kM0;
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<32, MaxSeqLenQ>();
     } else if (max_headdim <= 64) {
-      using FmhaTileShape = typename FmhaFwdSplitKVShape<64, MaxSeqlenQ>::Type;
-      mtile_size = FmhaTileShape::kM0;
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<64, MaxSeqLenQ>();
+    } else if (max_headdim <= 96) {
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<96, MaxSeqLenQ>();
     } else if (max_headdim <= 128) {
-      using FmhaTileShape = typename FmhaFwdSplitKVShape<128, MaxSeqlenQ>::Type;
-      mtile_size = FmhaTileShape::kM0;
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<128, MaxSeqLenQ>();
     } else {
-      using FmhaTileShape = typename FmhaFwdSplitKVShape<256, MaxSeqlenQ>::Type;
-      mtile_size = FmhaTileShape::kM0;
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<256, MaxSeqLenQ>();
     };
   });
 
-  int num_SMs = get_number_of_cu() * 2;
+  // get mtile_size_for_splitkv_smallq
+  if (max_headdim <= 32) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
+  } else if (max_headdim <= 64) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
+  } else if (max_headdim <= 96) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
+  } else if (max_headdim <= 128) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
+  } else {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
+  };
 
-  auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
+  if (max_seqlen_q >= mtile_size_for_pipeline_default) {
+    int batch_nhead_mblocks = num_batches * num_heads *
+        ceildiv(max_seqlen_q, mtile_size_for_pipeline_default);
+
+    if (batch_nhead_mblocks >= 0.8f * num_SMs)
+      return std::make_pair(false, 1);
+  }
+
+  bool use_splitkv = true;
+
+  // m_tile size is the size for dividing the seqlen_q
+  int mtile_size;
+
+  if (max_seqlen_q <= mtile_size_for_splitkv_smallq)
+    mtile_size = mtile_size_for_splitkv_smallq;
+  else
+    mtile_size = mtile_size_for_splitkv;
 
   int batch_nhead_mblocks =
       num_batches * num_heads * ceildiv(max_seqlen_q, mtile_size);
 
   // If we have enough to almost fill the SMs, then just use 1 split
   if (batch_nhead_mblocks >= 0.8f * num_SMs) {
-    return 1;
+    return std::make_pair(use_splitkv, 1);
   }
 
   max_splits = std::min({max_splits, num_SMs});
@@ -65,8 +111,30 @@ static int get_num_kv_splits_heuristic(
   }
   for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
     if (efficiency[num_splits - 1] >= 0.85 * max_efficiency) {
-      return num_splits;
+      return std::make_pair(use_splitkv, num_splits);
     }
   }
-  return 1;
+  return std::make_pair(use_splitkv, 1);
+}
+
+static bool use_splitkv_smallq(int max_seqlen_q, int max_headdim) {
+  int mtile_size_for_splitkv_smallq = 16;
+
+  // get mtile_size_for_splitkv_smallq
+  if (max_headdim <= 32) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
+  } else if (max_headdim <= 64) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
+  } else if (max_headdim <= 96) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
+  } else if (max_headdim <= 128) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
+  } else {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
+  };
+
+  if (max_seqlen_q <= mtile_size_for_splitkv_smallq)
+    return true;
+  else
+    return false;
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h
new file mode 100644
index 0000000000..d503b8154e
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h
@@ -0,0 +1,156 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+#include <ck_tile/ops/fmha.hpp>
+#include "ck_tiled_fmha_fwd_type_config.h"
+
+template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqLenQ = 0>
+struct FmhaFwdSplitKVBlockTile;
+
+// Tile-sizes: M N0 K0 N1 K1 MaxK (MaxK % K0 == 0, MaxK % N1 == 0, N0 % K1 == 0)
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVBlockTile<32, MaxSeqLenQ> {
+  using type = ck_tile::sequence<32, 64, 16, 32, 32, 32>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<32>;
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVBlockTile<64, MaxSeqLenQ> {
+  using type = ck_tile::sequence<32, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<64>;
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVBlockTile<96, MaxSeqLenQ> {
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 96>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<96>;
+
+template <>
+struct FmhaFwdSplitKVBlockTile<128, 32> {
+  using type = ck_tile::sequence<32, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVBlockTile<128, 64> {
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVBlockTile<256, MaxSeqLenQ> {
+  using type = ck_tile::sequence<64, 128, 32, 256, 32, 256>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<256>;
+
+using FmhaFwdSplitKVWarpTile = ck_tile::sequence<16, 16, 16>;
+
+template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVShape;
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVShape<32, MaxSeqLenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<32>::type,
+      typename FmhaFwdSplitKVBlockTile<32>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<32>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<32, 32>;
+template struct FmhaFwdSplitKVShape<32, 64>;
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVShape<64, MaxSeqLenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<64>::type,
+      typename FmhaFwdSplitKVBlockTile<64>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<64, MaxSeqLenQ>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<64, 32>;
+template struct FmhaFwdSplitKVShape<64, 64>;
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVShape<96, MaxSeqLenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<96>::type,
+      typename FmhaFwdSplitKVBlockTile<96>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<96, MaxSeqLenQ>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<96, 32>;
+template struct FmhaFwdSplitKVShape<96, 64>;
+
+template <>
+struct FmhaFwdSplitKVShape<128, 32> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<128, 32>::type,
+      typename FmhaFwdSplitKVBlockTile<128, 32>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<128, 32>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdSplitKVShape<128, 64> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<128, 64>::type,
+      typename FmhaFwdSplitKVBlockTile<128, 64>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<128, 64>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template <ck_tile::index_t MaxSeqLenQ>
+struct FmhaFwdSplitKVShape<256, MaxSeqLenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<256>::type,
+      typename FmhaFwdSplitKVBlockTile<256>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<256>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<256, 32>;
+template struct FmhaFwdSplitKVShape<256, 64>;
+
+template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqLenQ>
+int fwd_splitkv_get_mtile_size() {
+  using FmhaTileShape = typename FmhaFwdSplitKVShape<MaxK, MaxSeqLenQ>::Type;
+
+  return FmhaTileShape::kM0;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
new file mode 100644
index 0000000000..0c6c1109d9
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
@@ -0,0 +1,119 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+#include <ck_tile/ops/fmha.hpp>
+#include "ck_tiled_fmha_fwd_type_config.h"
+
+template <ck_tile::index_t MaxK>
+struct FmhaFwdSplitKVSmallQBlockTile;
+
+// Tile-sizes: M N0 K0 N1 K1 MaxK (MaxK % K0 == 0, MaxK % N1 == 0, N0 % K1 == 0)
+
+template <>
+struct FmhaFwdSplitKVSmallQBlockTile<32> {
+  using type = ck_tile::sequence<16, 64, 16, 32, 32, 32>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<1, 2, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQBlockTile<64> {
+  using type = ck_tile::sequence<16, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<1, 4, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQBlockTile<96> {
+  using type = ck_tile::sequence<16, 64, 32, 128, 16, 96>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<1, 4, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQBlockTile<128> {
+  using type = ck_tile::sequence<16, 64, 32, 128, 16, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<1, 4, 1>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQBlockTile<256> {
+  using type = ck_tile::sequence<16, 64, 32, 256, 16, 256>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<1, 4, 1>;
+};
+
+using FmhaFwdSplitKVSmallQWarpTile0 = ck_tile::sequence<4, 64, 16>;
+using FmhaFwdSplitKVSmallQWarpTile1 = ck_tile::sequence<16, 16, 16>;
+
+template <ck_tile::index_t MaxK>
+struct FmhaFwdSplitKVSmallQShape;
+
+template <>
+struct FmhaFwdSplitKVSmallQShape<32> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVSmallQBlockTile<32>::type,
+      typename FmhaFwdSplitKVSmallQBlockTile<32>::gemm0_warps,
+      FmhaFwdSplitKVSmallQWarpTile0,
+      typename FmhaFwdSplitKVSmallQBlockTile<32>::gemm1_warps,
+      FmhaFwdSplitKVSmallQWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQShape<64> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVSmallQBlockTile<64>::type,
+      typename FmhaFwdSplitKVSmallQBlockTile<64>::gemm0_warps,
+      FmhaFwdSplitKVSmallQWarpTile0,
+      typename FmhaFwdSplitKVSmallQBlockTile<64>::gemm1_warps,
+      FmhaFwdSplitKVSmallQWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQShape<96> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVSmallQBlockTile<96>::type,
+      typename FmhaFwdSplitKVSmallQBlockTile<96>::gemm0_warps,
+      FmhaFwdSplitKVSmallQWarpTile0,
+      typename FmhaFwdSplitKVSmallQBlockTile<96>::gemm1_warps,
+      FmhaFwdSplitKVSmallQWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQShape<128> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVSmallQBlockTile<128>::type,
+      typename FmhaFwdSplitKVSmallQBlockTile<128>::gemm0_warps,
+      FmhaFwdSplitKVSmallQWarpTile0,
+      typename FmhaFwdSplitKVSmallQBlockTile<128>::gemm1_warps,
+      FmhaFwdSplitKVSmallQWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdSplitKVSmallQShape<256> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVSmallQBlockTile<256>::type,
+      typename FmhaFwdSplitKVSmallQBlockTile<256>::gemm0_warps,
+      FmhaFwdSplitKVSmallQWarpTile0,
+      typename FmhaFwdSplitKVSmallQBlockTile<256>::gemm1_warps,
+      FmhaFwdSplitKVSmallQWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <ck_tile::index_t MaxK>
+int fwd_splitkv_smallq_get_mtile_size() {
+  using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+
+  return FmhaTileShape::kM0;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_type_config.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_type_config.h
new file mode 100644
index 0000000000..72e4a5e1e6
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_type_config.h
@@ -0,0 +1,46 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+
+template <typename DataType>
+struct FmhaFwdTypeConfig;
+
+template <>
+struct FmhaFwdTypeConfig<ck_tile::fp16_t> {
+  using QDataType = ck_tile::fp16_t;
+  using KDataType = ck_tile::fp16_t;
+  using VDataType = ck_tile::fp16_t;
+  using BiasDataType = ck_tile::fp16_t;
+  using RandValOutputDataType = unsigned short;
+  using LSEDataType =
+      float; // data type for lse(logsumexp L_j = max_j + log(l_j))
+  using SaccDataType = float; // data type for first gemm accumulation
+  using SMPLComputeDataType = float; // data type for reduction, softmax
+  using PDataType = ck_tile::fp16_t; // data type for A matrix of second gemm
+  using OaccDataType = float; // data type for second gemm accumulation
+  using ODataType = ck_tile::fp16_t;
+};
+
+template <>
+struct FmhaFwdTypeConfig<ck_tile::bf16_t> {
+  using QDataType = ck_tile::bf16_t;
+  using KDataType = ck_tile::bf16_t;
+  using VDataType = ck_tile::bf16_t;
+  using BiasDataType = ck_tile::bf16_t;
+  using RandValOutputDataType = unsigned short;
+  using LSEDataType =
+      float; // data type for lse(logsumexp L_j = max_j + log(l_j))
+  using SaccDataType = float; // data type for first gemm accumulation
+  using SMPLComputeDataType = float; // data type for reduction, softmax
+  using PDataType = ck_tile::bf16_t; // data type for A matrix of second gemm
+  using OaccDataType = float; // data type for second gemm accumulation
+  using ODataType = ck_tile::bf16_t;
+};
+
+static constexpr bool IsVLayoutRowMajor = true;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index fc727bb101..a54bcbaf00 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -6,8 +6,11 @@
  */
 #pragma once
 
+#include <algorithm>
+#include "ck_tiled_fmha_fwd_splitkv_selector.h"
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
 #include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
+#include "ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
@@ -23,14 +26,22 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-        grouped_forward_splitkv_mask_bias_dropout_dispatch<
+      if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
+        grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
             ScalarType,
             kHasMask,
             kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+            MaxK>::Run(param, stream);
+      } else {
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+          grouped_forward_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      }
     } else
 #endif
       grouped_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 47d23d40c7..c6a0a3def0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -13,7 +13,7 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_num_kv_split_switch.h"
 #include "ck_tiled_fmha_params.h"
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
new file mode 100644
index 0000000000..4fe72481f3
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
@@ -0,0 +1,344 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
+          typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          true, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    {
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      const bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+      const bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                true, // kStoreLSE
+                false, // kDoFp8StaticQuant place-holder
+                false, // kIsPagedKV
+                true, // kHasUnevenSplits
+                occupancy>;
+
+            if (param.num_kv_splits > 1) {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaFwdPipeline_ =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaFwdEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+            } else {
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaFwdPipeline_ =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaFwdEpilogue_ =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaFwdPipeline_,
+                  FmhaFwdEpilogue_>;
+
+              RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
+            }
+          });
+    };
+
+    if (param.num_kv_splits > 1) {
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr bool kPadSeqLenQ = true;
+
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH(pad_headdim_v, kPadHeadDimV, [&] {
+        FMHA_FWD_NUM_KV_SPLITS_SWITCH(param.num_kv_splits, kLogMaxSplits, [&] {
+          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+              kPadSeqLenQ,
+              kPadHeadDimV,
+              true, // kStoreLSE
+              false, // kDoFp8StaticQuant place-holder
+              kLogMaxSplits,
+              -1>;
+
+          using FmhaPipelineProblem =
+              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+              FmhaTilePartitioner,
+              FmhaPipeline,
+              FmhaEpilogue>;
+
+          RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+        });
+      });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      if (param.num_kv_splits > 1)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr
+            0, // batch_stride_block_table
+            0, // page_block_size
+            false, // is_gappy
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[1],
+            param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[2],
+            0, // batch_stride_k, not used, only used for paged-kvcache
+            0, // batch_stride_v, not used, only used for paged-kvcache
+            param.lse_acc_strides[0], // split_stride_lse_acc
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_ptr,
+            param.out_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            nullptr, // block_table_ptr
+            0, // batch_stride_block_table
+            0, // page_block_size
+            false, // is_gappy
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_strides[0],
+            param.q_strides[1], // q, k, v, bias, lse, out tensor head-dim
+                                // stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            param.lse_strides[0],
+            param.out_strides[1],
+            0, // batch_stride_k, not used, only used for paged-kvcache
+            0, // batch_stride_v, not used, only used for paged-kvcache
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          param.logsumexp_ptr,
+          param.out_ptr,
+          param.num_batches,
+          param.seqstart_q_dev_ptr,
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[1], // row_stride_o_acc,
+          param.out_strides[0], // row_stride_o,
+          param.lse_acc_strides[1], // nhead_stride_lse_acc
+          param.out_acc_strides[2], // nhead_stride_o_acc,
+          param.lse_strides[0], // nhead_stride_lse,
+          param.out_strides[1], // nhead_stride_o,
+          param.lse_acc_strides[0], // split_stride_lse_acc,
+          param.out_acc_strides[0]); // split_stride_o_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 70ce0ea0fe..eafd41caa9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -6,8 +6,11 @@
  */
 #pragma once
 
+#include <algorithm>
+#include "ck_tiled_fmha_fwd_splitkv_selector.h"
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
 #include "ck_tiled_fmha_grouped_infer_splitkv_dispatch.h"
+#include "ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
@@ -23,14 +26,22 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-        grouped_infer_splitkv_mask_bias_dropout_dispatch<
+      if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
+        grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch<
             ScalarType,
             kHasMask,
             kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+            MaxK>::Run(param, stream);
+      } else {
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+          grouped_infer_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      }
     } else
 #endif
       grouped_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index a4274904cf..5d2ce98ace 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -13,7 +13,7 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_num_kv_split_switch.h"
 #include "ck_tiled_fmha_params.h"
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
new file mode 100644
index 0000000000..9d0e432e4b
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -0,0 +1,370 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
+#include "ck_tiled_fmha_num_kv_split_switch.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK>
+struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <
+      typename FmhaFwdSplitKVTraits,
+      typename FmhaMask,
+      typename ODataType>
+  using FmhaFwdSplitKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdSplitKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
+          typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
+          true, // kIsGroupMode
+          FmhaMask,
+          FmhaFwdSplitKVTraits>;
+
+  template <
+      ck_tile::index_t kM0,
+      ck_tile::index_t kN1,
+      typename FmhaSplitKVCombineTraits>
+  using FmhaSplitKVCombinePipelineProblemTemp =
+      ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          MaxK, // headdim_v
+          kM0,
+          kN1,
+          true, // kIsGroupMode
+          FmhaSplitKVCombineTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    {
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
+
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+
+      bool is_paged_kv = param.use_paged_kvcache;
+
+      BOOL_SWITCH_3(
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          is_paged_kv,
+          kIsPagedKV,
+          [&] {
+            if (param.num_kv_splits > 1) {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  true, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  kIsPagedKV,
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                  kPadSeqLenQ,
+                  kPadSeqLenK,
+                  kPadHeadDimQ,
+                  kPadHeadDimV,
+                  kBiasEnum,
+                  false, // kHasBiasGrad place-holder
+                  false, // kStoreLSE
+                  false, // kDoFp8StaticQuant place-holder
+                  kIsPagedKV,
+                  true, // kHasUnevenSplits
+                  occupancy>;
+
+              using ODataType =
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                  FmhaTraits,
+                  FmhaMask,
+                  ODataType>;
+
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                      FmhaPipelineProblem>;
+
+              using FmhaEpilogue =
+                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                      ODataType,
+                      false,
+                      false>>;
+
+              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
+                  FmhaTilePartitioner,
+                  FmhaPipeline,
+                  FmhaEpilogue>;
+
+              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+            }
+          });
+    };
+
+    if (param.num_kv_splits > 1) {
+      using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
+
+      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
+      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+
+      using FmhaTilePartitioner =
+          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr bool kPadSeqLenQ = true;
+
+      const bool pad_headdim_v = !(param.Kv % kN1 == 0);
+
+      BOOL_SWITCH(pad_headdim_v, kPadHeadDimV, [&] {
+        FMHA_FWD_NUM_KV_SPLITS_SWITCH(param.num_kv_splits, kLogMaxSplits, [&] {
+          using FmhaTraits = ck_tile::TileFmhaFwdSplitKVCombineTraits<
+              kPadSeqLenQ,
+              kPadHeadDimV,
+              false, // kStoreLSE
+              false, // kDoFp8StaticQuant place-holder
+              kLogMaxSplits,
+              -1>;
+
+          using FmhaPipelineProblem =
+              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+
+          using FmhaPipeline =
+              ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
+              FmhaTilePartitioner,
+              FmhaPipeline,
+              FmhaEpilogue>;
+
+          RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
+        });
+      });
+    };
+  };
+
+  template <typename FmhaFwdSplitKVKernel>
+  static void RunWithFwdSplitKVKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      if (param.num_kv_splits > 1)
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            param.logsumexp_acc_ptr,
+            param.out_acc_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            param.use_paged_kvcache ? param.block_table_ptr : nullptr,
+            param.use_paged_kvcache ? param.batch_stride_block_table : 0,
+            param.use_paged_kvcache ? param.page_block_size : 0,
+            param.use_paged_kvcache ? param.is_gappy : false,
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
+                                // stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_acc_strides[1],
+            param.q_strides[1], // q, k, v, bias, lse_acc, out_acc tensor
+                                // head-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            param.lse_acc_strides[1],
+            param.out_acc_strides[2],
+            param.use_paged_kvcache ? param.k_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_k
+            param.use_paged_kvcache ? param.v_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_v
+            param.lse_acc_strides[0], // split_stride_l
+            param.out_acc_strides[0], // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+      else
+        return FmhaFwdSplitKVKernel::MakeKargs(
+            param.q_ptr,
+            param.k_ptr,
+            param.v_ptr,
+            param.attn_bias_ptr,
+            nullptr, // lse_ptr,
+            param.out_ptr,
+            param.num_batches,
+            param.seqstart_q_dev_ptr,
+            param.seqstart_k_dev_ptr,
+            param.seqlen_k_dev_ptr,
+            param.K, // hdim_q
+            param.Kv, // hdim_v
+            param.Hq, // nhead_q
+            param.Hq / param.Hkv, // nhead_ratio_qk
+            param.num_kv_splits, // num_splits
+            param.use_paged_kvcache ? param.block_table_ptr : nullptr,
+            param.use_paged_kvcache ? param.batch_stride_block_table : 0,
+            param.use_paged_kvcache ? param.page_block_size : 0,
+            param.use_paged_kvcache ? param.is_gappy : false,
+            param.scale,
+            1.0f, // scale_p
+            param.q_strides[0], // q, k, v, bias, out tensor seq-dim
+                                // stride
+            param.k_strides[0],
+            param.v_strides[0],
+            param.attn_bias_strides[2],
+            param.out_strides[0],
+            param.q_strides[1], // q, k, v, bias, lse, out tensor
+                                // head-dim stride
+            param.k_strides[1],
+            param.v_strides[1],
+            param.attn_bias_strides[1],
+            0, // nhead_stride_lse
+            param.out_strides[1],
+            param.use_paged_kvcache ? param.k_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_k
+            param.use_paged_kvcache ? param.v_strides[0] * param.page_block_size
+                                    : 0, // batch_stride_v
+            0, // split_stride_lse_acc
+            0, // split_stride_out_acc
+            (param.window_size > 0) ? param.window_size - 1
+                                    : -1, // window_left_size
+            (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+            param.custom_mask_type);
+    }();
+
+    dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        param.num_kv_splits);
+    constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaFwdSplitKVKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+
+  template <typename FmhaSplitKVCombineKernel>
+  static void RunWithSplitKVCombineKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaSplitKVCombineKernel::MakeKargs(
+          param.logsumexp_acc_ptr,
+          param.out_acc_ptr,
+          nullptr, // lse_ptr, not used
+          param.out_ptr,
+          param.num_batches,
+          param.seqstart_q_dev_ptr,
+          param.Kv,
+          param.num_kv_splits,
+          1.0f,
+          param.out_acc_strides[1], // row_stride_o_acc,
+          param.out_strides[0], // row_stride_o,
+          param.lse_acc_strides[1], // nhead_stride_lse_acc
+          param.out_acc_strides[2], // nhead_stride_o_acc,
+          0, // nhead_stride_lse,
+          param.out_strides[1], // nhead_stride_o,
+          param.lse_acc_strides[0], // split_stride_lse_acc,
+          param.out_acc_strides[0]); // split_stride_o_acc
+    }();
+
+    dim3 kGridSize = FmhaSplitKVCombineKernel::GridSize(
+        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+    constexpr dim3 kBlockSize = FmhaSplitKVCombineKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu =
+        FmhaSplitKVCombineKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaSplitKVCombineKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};

From 672617b161f878155b306641a0cb86476775ee95 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 3 Dec 2024 17:52:51 +0000
Subject: [PATCH 715/837] fix compile error in qr_ks_vs pipeline

---
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 23 +++++++++++++++++++
 1 file changed, 23 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 9f1b3aae46..e7d5495b71 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -204,6 +204,15 @@ struct FmhaFwdSplitKVBlockTile<256, MaxSeqlenQ> {
 
 template struct FmhaFwdSplitKVBlockTile<256>;
 
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVBlockTile<512, MaxSeqlenQ> {
+  using type = ck_tile::sequence<64, 128, 32, 512, 32, 512>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdSplitKVBlockTile<512>;
+
 using FmhaFwdSplitKVWarpTile = ck_tile::sequence<16, 16, 16>;
 
 template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqlenQ>
@@ -286,3 +295,17 @@ struct FmhaFwdSplitKVShape<256, MaxSeqlenQ> {
 
 template struct FmhaFwdSplitKVShape<256, 32>;
 template struct FmhaFwdSplitKVShape<256, 64>;
+
+template <ck_tile::index_t MaxSeqlenQ>
+struct FmhaFwdSplitKVShape<512, MaxSeqlenQ> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdSplitKVBlockTile<512>::type,
+      typename FmhaFwdSplitKVBlockTile<512>::gemm0_warps,
+      FmhaFwdSplitKVWarpTile,
+      typename FmhaFwdSplitKVBlockTile<512>::gemm1_warps,
+      FmhaFwdSplitKVWarpTile,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdSplitKVShape<512, 32>;
+template struct FmhaFwdSplitKVShape<512, 64>;

From d7099cb16097f2637d837e545fcec62b49df8106 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 3 Dec 2024 23:24:27 +0000
Subject: [PATCH 716/837] fix occupancy related compilation errors

---
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h   | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index 179ae711c8..407c034fd1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -47,7 +47,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
     using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
 
     constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
-        : (MaxK == 256)                                 ? 1
+        : (MaxK >= 256)                                 ? 1
                                                         : 2;
 
     constexpr auto kBiasEnum = kHasBias
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index f22c2cb21b..01f9e2d6f9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -47,7 +47,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
 
     using FmhaShape = FmhaFwdShape<MaxK>;
     constexpr ck_tile::index_t occupancy =
-        (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
+        (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
 
     constexpr auto kBiasEnum = kHasBias
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS

From a19834585e3cf68277db07b32102495dadad41d4 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 4 Dec 2024 18:46:33 +0000
Subject: [PATCH 717/837] try adding qsksvs pipeline and stash the result

---
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 43 ++++++++++++++++++-
 1 file changed, 42 insertions(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 0f21cb6d0c..1c1cc922ad 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -69,7 +69,8 @@ struct batched_infer_mask_bias_dropout_dispatch {
          (MaxK <= 128));
 
     if (!use_async_pipeline) {
-      BOOL_SWITCH_3(
+      if constexpr (MaxK <= 256) {
+        BOOL_SWITCH_3(
           pad_seqlen_q,
           kPadSeqLenQ,
           pad_seqlen_k,
@@ -107,6 +108,46 @@ struct batched_infer_mask_bias_dropout_dispatch {
 
             RunWithKernel<FmhaKernel>(param, stream);
           });
+      } else {
+        BOOL_SWITCH_3(
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim,
+          kPadHeadDim,
+          [&] {
+            using FmhaTraits = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ,
+                kPadHeadDim, // kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDim>>;
+
+            using FmhaKernel = ck_tile::
+                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          });
+      }
     } else {
       BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
         using FmhaTraits = ck_tile::TileFmhaTraits<

From 580ec51b36f492f0881657082fb6e0d28625367a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 6 Dec 2024 07:05:11 +0000
Subject: [PATCH 718/837] Synchronize to latest ck_tile commit to utilize the
 padding optimzation

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index cf2d635ea2..126ce85aa1 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit cf2d635ea27c074e7025896514c4b94034d370cc
+Subproject commit 126ce85aa10347007fb5ca2068bcad378cb17d74

From a19d6a32ccc3bb37ab64198cabff84ea898ea279 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 6 Dec 2024 07:15:18 +0000
Subject: [PATCH 719/837] Resync to latest ck-tile commit for padding
 optimization

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 126ce85aa1..58e7f37fc8 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 126ce85aa10347007fb5ca2068bcad378cb17d74
+Subproject commit 58e7f37fc892c1e7aeca338f96ec694712e6e412

From e27b84c67f730e86f066ca5d4b15cbacb810a419 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 6 Dec 2024 13:20:07 +0000
Subject: [PATCH 720/837] Fix in batched_forward splitkv dispatch

---
 .../hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 75580afcba..b25616c36f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -219,7 +219,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
       BatchedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      if (param.num_kv_splits)
+      if (param.num_kv_splits > 1)
         return FmhaFwdSplitKVKernel::MakeKargs(
             param.q_ptr,
             param.k_ptr,

From aee3570cb1722877c7d2b49b2d5c422160055049 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 6 Dec 2024 13:42:02 +0000
Subject: [PATCH 721/837] Fix in batched_forward splitkv smallq dispatch

---
 .../ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h     | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
index a62c346eae..393ab82451 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -218,7 +218,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
       BatchedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      if (param.num_kv_splits)
+      if (param.num_kv_splits > 1)
         return FmhaFwdSplitKVKernel::MakeKargs(
             param.q_ptr,
             param.k_ptr,

From be06c43fcafd170b4db0d4d6ecf12307aba32c82 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 9 Dec 2024 08:52:17 +0000
Subject: [PATCH 722/837] Update the splits selector and instances settings for
 splitkv-smallq pipeline

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../attention_forward_generic_ck_tiled.cpp    |  4 +-
 .../ck_tiled_fmha_fwd_splitkv_selector.h      | 65 ++++++++++++++-----
 ...ck_tiled_fmha_fwd_splitkv_smallq_setting.h |  6 +-
 .../ck_tiled_fmha_num_kv_split_switch.h       |  8 +--
 6 files changed, 59 insertions(+), 28 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index b642ad5b97..d94003afd6 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop 
+	branch = feature/add-small-warp-gemm-zqf 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 58e7f37fc8..51f7f76ac9 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 58e7f37fc892c1e7aeca338f96ec694712e6e412
+Subproject commit 51f7f76ac9daf2ba8411a9419e425191af7ac5d3
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index e3738654d0..fbc43d21dd 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -244,7 +244,7 @@ efficient_attention_forward_ck(
     int num_kv_splits;
 
     std::tie(use_split_kv, num_kv_splits) =
-        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 32);
+        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     p.use_split_kv = (!use_dropout && use_split_kv) ? true : false;
@@ -393,7 +393,7 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     std::tie(use_split_kv, num_kv_splits) = get_num_kv_splits_heuristic(
-        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 32);
+        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 2a05a2cb74..af10c67e0d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -14,13 +14,25 @@
 #include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
+// generate a list of numbers as num_splits to consider, the list of numbers is
+// like 1, 2, 4, 8, 16, 32, 64, 96, 128, 160, 192, 224, 256, 288, 320
+static int generate_splits_list(int i) {
+  if (i <= 0)
+    return 1;
+
+  if (i <= 5)
+    return 1 << (i - 1);
+  else
+    return (i - 5) * 32;
+};
+
 static std::pair<bool, int> get_num_kv_splits_heuristic(
     int num_batches,
     int num_heads,
     int max_seqlen_q,
     int max_headdim,
     int max_splits) {
-  int num_SMs = get_number_of_cu() * 2;
+  int num_SMs = get_number_of_cu();
   auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
 
   int mtile_size_for_pipeline_default = 128;
@@ -94,27 +106,46 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
     return std::make_pair(use_splitkv, 1);
   }
 
-  max_splits = std::min({max_splits, num_SMs});
+  /*
+    max_splits = std::min({max_splits, num_SMs});
 
-  float max_efficiency = 0.f;
-  std::vector<float> efficiency;
-  efficiency.reserve(max_splits);
+    float max_efficiency = 0.f;
+    std::vector<float> efficiency;
+    efficiency.reserve(max_splits);
 
-  for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
-    float n_blocks = float(batch_nhead_mblocks * num_splits) / num_SMs;
-    float eff = n_blocks / std::ceil(n_blocks);
+    for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
+      float n_blocks = float(batch_nhead_mblocks * num_splits) / num_SMs;
+      float eff = n_blocks / std::ceil(n_blocks);
 
-    if (eff > max_efficiency) {
-      max_efficiency = eff;
+      if (eff > max_efficiency) {
+        max_efficiency = eff;
+      }
+      efficiency.push_back(eff);
     }
-    efficiency.push_back(eff);
-  }
-  for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
-    if (efficiency[num_splits - 1] >= 0.85 * max_efficiency) {
-      return std::make_pair(use_splitkv, num_splits);
+    for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
+      if (efficiency[num_splits - 1] >= 0.85 * max_efficiency) {
+        return std::make_pair(use_splitkv, num_splits);
+      }
     }
-  }
-  return std::make_pair(use_splitkv, 1);
+    return std::make_pair(use_splitkv, 1);
+  */
+
+  max_splits = std::min({max_splits, num_SMs});
+
+  int max_check = 1;
+
+  while (generate_splits_list(max_check) <= max_splits)
+    max_check++;
+
+  int num_splits = 1;
+  for (int i = 1; i < max_check; i++) {
+    num_splits = generate_splits_list(i);
+
+    if (batch_nhead_mblocks * num_splits >= 0.8 * num_SMs)
+      break;
+  };
+
+  return std::make_pair(use_splitkv, num_splits);
 }
 
 static bool use_splitkv_smallq(int max_seqlen_q, int max_headdim) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
index 0c6c1109d9..7f0cf602df 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
@@ -31,21 +31,21 @@ struct FmhaFwdSplitKVSmallQBlockTile<64> {
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<96> {
-  using type = ck_tile::sequence<16, 64, 32, 128, 16, 96>;
+  using type = ck_tile::sequence<16, 64, 32, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<128> {
-  using type = ck_tile::sequence<16, 64, 32, 128, 16, 128>;
+  using type = ck_tile::sequence<16, 64, 32, 128, 64, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<256> {
-  using type = ck_tile::sequence<16, 64, 32, 256, 16, 256>;
+  using type = ck_tile::sequence<16, 64, 32, 256, 32, 256>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
index eb039651a6..3bc087b392 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
@@ -11,15 +11,15 @@
 
 #define FMHA_FWD_NUM_KV_SPLITS_SWITCH(NUM_SPLITS, CONST_NAME, ...) \
   [&] {                                                            \
-    if (NUM_SPLITS <= 8) {                                         \
+    if (NUM_SPLITS <= 4) {                                         \
+      constexpr ck_tile::index_t CONST_NAME = 2;                   \
+      __VA_ARGS__();                                               \
+    } else if (NUM_SPLITS <= 8) {                                  \
       constexpr ck_tile::index_t CONST_NAME = 3;                   \
       __VA_ARGS__();                                               \
     } else if (NUM_SPLITS <= 16) {                                 \
       constexpr ck_tile::index_t CONST_NAME = 4;                   \
       __VA_ARGS__();                                               \
-    } else if (NUM_SPLITS <= 32) {                                 \
-      constexpr ck_tile::index_t CONST_NAME = 5;                   \
-      __VA_ARGS__();                                               \
     } else {                                                       \
       throw std::runtime_error("num-splits not supported!");       \
     }                                                              \

From aff7bfd1260723edbbfe1c8e0774b1d051a08623 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 10 Dec 2024 05:38:17 +0000
Subject: [PATCH 723/837] Enable gemm-0 to use 16x16x16 warp-gemm

---
 .gitmodules                                          |  2 +-
 third_party/composable_kernel_tiled                  |  2 +-
 .../ck_tiled_fmha_fwd_splitkv_smallq_setting.h       | 12 ++++++------
 3 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index d94003afd6..8e92313d31 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = feature/add-small-warp-gemm-zqf 
+	branch = feature/add-small-warp-gemm
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 51f7f76ac9..48257c8e68 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 51f7f76ac9daf2ba8411a9419e425191af7ac5d3
+Subproject commit 48257c8e682ad4d7e69e6614319ee39197fa802a
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
index 7f0cf602df..f40e0411a7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
@@ -18,39 +18,39 @@ struct FmhaFwdSplitKVSmallQBlockTile;
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<32> {
   using type = ck_tile::sequence<16, 64, 16, 32, 32, 32>;
-  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm0_warps = ck_tile::sequence<1, 2, 1>;
   using gemm1_warps = ck_tile::sequence<1, 2, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<64> {
   using type = ck_tile::sequence<16, 64, 32, 64, 32, 64>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm0_warps = ck_tile::sequence<1, 4, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<96> {
   using type = ck_tile::sequence<16, 64, 32, 128, 32, 96>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm0_warps = ck_tile::sequence<1, 4, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<128> {
   using type = ck_tile::sequence<16, 64, 32, 128, 64, 128>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm0_warps = ck_tile::sequence<1, 4, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<256> {
   using type = ck_tile::sequence<16, 64, 32, 256, 32, 256>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm0_warps = ck_tile::sequence<1, 4, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
-using FmhaFwdSplitKVSmallQWarpTile0 = ck_tile::sequence<4, 64, 16>;
+using FmhaFwdSplitKVSmallQWarpTile0 = ck_tile::sequence<16, 16, 16>;
 using FmhaFwdSplitKVSmallQWarpTile1 = ck_tile::sequence<16, 16, 16>;
 
 template <ck_tile::index_t MaxK>

From 19220158f50684338886848fb495035fd60238de Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 4 Dec 2024 19:52:25 +0000
Subject: [PATCH 724/837] enable offload compression

fix python lints

adjust number of compilation workers to avoid ooms in CI

sync wheels_build with facebookresearch

use separate runner for wheels and ci

add rocm 6.2 for wheel build

bump pytorch to 2.5.1

do not offload compress prior to rocm 6.2

bump torch wheel to rocm+6.2 stable
---
 .github/actions/setup-build-cuda/action.yml   | 99 +++++++++++++++++++
 .github/compute_wheel_version.py              | 57 +++++++++++
 .github/workflows/rocm_build.yml              |  4 +-
 .github/workflows/rocm_ci.yml                 | 10 +-
 .github/workflows/wheels_build.yml            | 93 +++++------------
 setup.py                                      |  5 +
 tests/test_mem_eff_attention.py               |  6 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../hip_fmha/ck_tiled_fmha_dispatch_tags.h    | 25 +++++
 xformers/ops/fmha/ck.py                       | 10 +-
 10 files changed, 232 insertions(+), 79 deletions(-)
 create mode 100644 .github/actions/setup-build-cuda/action.yml
 create mode 100644 .github/compute_wheel_version.py
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h

diff --git a/.github/actions/setup-build-cuda/action.yml b/.github/actions/setup-build-cuda/action.yml
new file mode 100644
index 0000000000..824be1bd6b
--- /dev/null
+++ b/.github/actions/setup-build-cuda/action.yml
@@ -0,0 +1,99 @@
+name: Set up Runner for build
+
+inputs:
+  toolkit_type:
+    description: cuda or rocm
+    type: string
+  toolkit_short_version:
+    required: true
+    type: string
+    description: "Example: 117 for 11.7"
+  python:
+    description: Python version to install
+    type: string
+    default: "3.10"
+
+runs:
+  using: composite
+  steps:
+    - id: cuda_info
+      shell: python3 "{0}"
+      run: |
+        import os
+        import sys
+        print(sys.version)
+        cushort = "${{ inputs.toolkit_short_version }}"
+        TORCH_CUDA_DEFAULT = "121"  # pytorch 2.4.1
+        # https://github.com/Jimver/cuda-toolkit/blob/master/src/links/linux-links.ts
+        full_version, install_script = {
+          "124": ("12.4.1", "https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run"),
+          "121": ("12.1.0", "https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run"),
+          "118": ("11.8.0", "https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run"),
+          "6.0": ("6.0.2", "https://repo.radeon.com/amdgpu-install/6.0.2/rhel/8.9/amdgpu-install-6.0.60002-1.el8.noarch.rpm"),
+          "6.1": ("6.1.2", "https://repo.radeon.com/amdgpu-install/6.1.3/rhel/8.9/amdgpu-install-6.1.60103-1.el8.noarch.rpm"),
+          "6.2": ("6.2.3", "https://repo.radeon.com/amdgpu-install/6.2.3/rhel/8.9/amdgpu-install-6.2.60203-1.el8.noarch.rpm"),
+        }[cushort]
+        with open(os.environ['GITHUB_OUTPUT'], "r+") as fp:
+          fp.write("CUDA_VERSION=" + full_version + "\n")
+          if cushort == TORCH_CUDA_DEFAULT:
+            fp.write("CUDA_VERSION_SUFFIX=\n")
+          else:
+            fp.write("CUDA_VERSION_SUFFIX=+" + ("cu" if "cuda" == "${{ inputs.toolkit_type }}" else "rocm") + cushort + "\n")
+          fp.write("CUDA_INSTALL_SCRIPT=" + install_script + "\n")
+    - run: echo "CUDA_VERSION_SUFFIX=${{ steps.cuda_info.outputs.CUDA_VERSION_SUFFIX }}" >> ${GITHUB_ENV}
+      shell: bash
+
+    # WINDOWS STEPS
+    - name: Install cuda
+      if: runner.os == 'Windows' && inputs.toolkit_type == 'cuda'
+      uses: Jimver/cuda-toolkit@v0.2.16
+      with:
+        cuda: ${{ steps.cuda_info.outputs.CUDA_VERSION }}
+        method: network
+
+    - name: Install python
+      if: runner.os == 'Windows'
+      uses: actions/setup-python@v4
+      with:
+        python-version: ${{ inputs.python }}
+
+    - name: Setup MSVC
+      if: runner.os == 'Windows'
+      uses: ilammy/msvc-dev-cmd@v1
+
+    # really unfortunate: https://github.com/ilammy/msvc-dev-cmd#name-conflicts-with-shell-bash
+    - name: Remove link.exe
+      if: runner.os == 'Windows'
+      shell: bash
+      run: rm /usr/bin/link
+
+    # LINUX STEPS
+    - if: runner.os == 'Linux'
+      shell: bash
+      run: |
+        yum list installed
+        yum install gcc-toolset-11-gcc gcc-toolset-11-gcc-c++ gcc-toolset-11-libstdc++-devel wget git -y
+        echo "source /opt/rh/gcc-toolset-11/enable" >> ~/.profile
+
+    - if: runner.os == 'Linux' && contains(inputs.toolkit_type, 'cuda')
+      name: (Linux) install cuda
+      shell: bash -l {0}
+      run: >
+        wget -q "${{ steps.cuda_info.outputs.CUDA_INSTALL_SCRIPT }}" -O cuda.run &&
+        sh ./cuda.run --silent --toolkit &&
+        rm ./cuda.run
+
+    - if: runner.os == 'Linux' && contains(inputs.toolkit_type, 'rocm')
+      name: (Linux) install rocm
+      shell: bash
+      run: |
+        yum install -y libzstd
+        yum install -y ${{ steps.cuda_info.outputs.CUDA_INSTALL_SCRIPT }}
+        amdgpu-install -y --usecase=rocm --no-dkms
+        echo "ROCM_PATH=/opt/rocm" >> ${GITHUB_ENV}
+        echo "PATH=$PATH:/opt/rocm/bin" >> ${GITHUB_ENV}
+        echo "MAX_JOBS=16" >> ${GITHUB_ENV}
+
+    # host compiler is too new for cuda 12.1 :(
+    - run: echo "NVCC_FLAGS=-allow-unsupported-compiler" >> $GITHUB_ENV
+      shell: bash
diff --git a/.github/compute_wheel_version.py b/.github/compute_wheel_version.py
new file mode 100644
index 0000000000..7594f94104
--- /dev/null
+++ b/.github/compute_wheel_version.py
@@ -0,0 +1,57 @@
+# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
+#
+# This source code is licensed under the BSD license found in the
+# LICENSE file in the root directory of this source tree.
+import argparse
+import subprocess
+from pathlib import Path
+from typing import Optional
+
+# TODO: consolidate with the code in build_conda.py
+THIS_PATH = Path(__file__).resolve()
+version_from_file = (THIS_PATH.parents[1] / "version.txt").read_text().strip()
+
+
+def get_tagged_version() -> Optional[str]:
+    """
+    Return whether we are at an exact version (namely the version variable).
+    """
+    try:
+        tag = subprocess.check_output(
+            ["git", "describe", "--tags", "--exact-match", "HEAD"],
+            text=True,
+            stderr=subprocess.DEVNULL,
+        ).strip()
+    except subprocess.CalledProcessError:  # no tag
+        return None
+
+    if not tag.startswith("v"):
+        return None
+    return tag[1:]
+
+
+def get_dev_version() -> str:
+    assert ".dev" not in version_from_file
+    num_commits = subprocess.check_output(
+        ["git", "rev-list", "--count", "HEAD"], text=True
+    ).strip()
+    return f"{version_from_file}.dev{num_commits}"
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--source", choices=["tag", "dev", "tag,dev"], required=False, default="tag,dev"
+    )
+    args = parser.parse_args()
+
+    if "tag" in args.source:
+        tagged_version = get_tagged_version()
+        if args.source == "tag" and tagged_version is None:
+            raise ValueError("No tag found")
+    else:
+        tagged_version = None
+    if tagged_version is not None:
+        print(tagged_version, end="")
+    else:
+        print(get_dev_version(), end="")
diff --git a/.github/workflows/rocm_build.yml b/.github/workflows/rocm_build.yml
index 75cfc2159e..8371d9f353 100644
--- a/.github/workflows/rocm_build.yml
+++ b/.github/workflows/rocm_build.yml
@@ -22,9 +22,9 @@ jobs:
       matrix: 
         os: ['ubuntu-alola']
         python: ['3.11']
-        torch_version: ['2.4.0']
+        torch_version: ['2.5.1']
         toolkit_type: ['rocm']
-        toolkit_short_version: ['6.0', '6.1']
+        toolkit_short_version: ['6.1', '6.2']
 
     uses: ./.github/workflows/wheels_build.yml
     if: github.repository == 'rocm/xformers'
diff --git a/.github/workflows/rocm_ci.yml b/.github/workflows/rocm_ci.yml
index 0dc8d1cefd..1897eab1d1 100644
--- a/.github/workflows/rocm_ci.yml
+++ b/.github/workflows/rocm_ci.yml
@@ -12,10 +12,10 @@ on:
 jobs:
   build:
     if: github.repository == 'rocm/xformers'
-    runs-on: self-hosted
+    runs-on: self-hosted-rocm-ci
     container:
       image: 'rocm/pytorch-nightly:latest'
-      options: ' --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G '
+      options: ' --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 8G --memory 32G '
     steps:
     - uses: actions/checkout@v4
       with:
@@ -57,7 +57,7 @@ jobs:
         export PATH=/opt/conda/envs/xformers/bin:$PATH
         python -VV
         
-        python -m pip install -U torch --index-url=https://download.pytorch.org/whl/nightly/rocm6.1 
+        python -m pip install -U torch --index-url=https://download.pytorch.org/whl/rocm6.2
         python -c "import torch; print(f'PyTorch version {torch.__version__}')"
         
         python -m pip install ninja scipy pytest pytest-html
@@ -71,7 +71,7 @@ jobs:
     - name: Build xformers
       run: |
         export PATH=/opt/conda/envs/xformers/bin:$PATH
-        export MAX_JOBS=144
+        export MAX_JOBS=20
         
         python -m pip install -e ./_xformers --verbose
         python -m xformers.info
@@ -97,7 +97,7 @@ jobs:
         cd ..
 
   clean:
-    runs-on: self-hosted
+    runs-on: self-hosted-rocm-ci
     if: ${{ needs.build.result != 'skipped' }}
     needs: [build]
     steps:
diff --git a/.github/workflows/wheels_build.yml b/.github/workflows/wheels_build.yml
index 47c81d5aaa..4e9e1ccd50 100644
--- a/.github/workflows/wheels_build.yml
+++ b/.github/workflows/wheels_build.yml
@@ -30,16 +30,13 @@ on:
 
 env:
   # you need at least cuda 5.0 for some of the stuff compiled here.
-  TORCH_CUDA_ARCH_LIST: ${{ contains(inputs.toolkit_type, 'cuda') && join('6.0+PTX 7.0 7.5 8.0+PTX', fromJSON(inputs.toolkit_short_version) >= 118 && ' 9.0a' || '') || '' }}
+  TORCH_CUDA_ARCH_LIST: ${{ contains(inputs.toolkit_type, 'cuda') && '6.0+PTX 7.0 7.5 8.0+PTX' || '' }}
   HIP_ARCHITECTURES: ${{ contains(inputs.toolkit_type, 'rocm') && 'gfx90a gfx942' || '' }}
   MAX_JOBS: 4
   DISTUTILS_USE_SDK: 1 # otherwise distutils will complain on windows about multiple versions of msvc
   XFORMERS_BUILD_TYPE: "Release"
   TWINE_USERNAME: __token__
   XFORMERS_PACKAGE_FROM: "wheel-${{ github.ref_name }}"
-  # https://github.blog/changelog/2024-03-07-github-actions-all-actions-will-run-on-node20-instead-of-node16-by-default/
-  ACTIONS_ALLOW_USE_UNSECURE_NODE_VERSION: "true"
-  PYTORCH_INDEX_URL: "https://download.pytorch.org/whl/${{ contains(inputs.toolkit_type, 'cuda') && 'cu' || 'rocm' }}${{ inputs.toolkit_short_version }}"
 
 jobs:
   build:
@@ -50,56 +47,44 @@ jobs:
       # windows does not have per version binary, it is just 'python3'
       PY: python${{ contains(inputs.os, 'ubuntu') && inputs.python || '3' }}
 
-    container: ${{ contains(inputs.os, 'ubuntu') && 'quay.io/pypa/manylinux2014_x86_64' || null }}
+    container: ${{ contains(inputs.os, 'ubuntu') && 'quay.io/pypa/manylinux_2_28_x86_64' || null }}
     timeout-minutes: 360
     defaults:
       run:
         shell: bash
     steps:
-      - if: runner.os == 'Windows'
-        name: Support longpaths
-        run: git config --system core.longpaths true
-      - id: cuda_info
-        shell: python
+      - if: contains(inputs.toolkit_type, 'cuda') && fromJSON(inputs.toolkit_short_version) >= 120
         run: |
-          import os
-          import sys
-          print(sys.version)
-          cushort = "${{ inputs.toolkit_short_version }}"
-          TORCH_CUDA_DEFAULT = "121"  # pytorch 2.4.0
-          # https://github.com/Jimver/cuda-toolkit/blob/master/src/links/linux-links.ts
-          full_version, install_script = {
-            "124": ("12.4.1", "https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run"),
-            "121": ("12.1.0", "https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run"),
-            "118": ("11.8.0", "https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run"),
-            "6.0": ("6.0.2", "https://repo.radeon.com/amdgpu-install/6.0.2/rhel/7.9/amdgpu-install-6.0.60002-1.el7.noarch.rpm"),
-            "6.1": ("6.1.2", "https://repo.radeon.com/amdgpu-install/6.1.2/el/7/amdgpu-install-6.1.60102-1.el7.noarch.rpm"),
-          }[cushort]
-          with open(os.environ['GITHUB_OUTPUT'], "r+") as fp:
-            fp.write("CUDA_VERSION=" + full_version + "\n")
-            if cushort == TORCH_CUDA_DEFAULT:
-              fp.write("CUDA_VERSION_SUFFIX=\n")
-            else:
-              fp.write("CUDA_VERSION_SUFFIX=+" + ("cu" if "cuda" == "${{ inputs.toolkit_type }}" else "rocm") + cushort + "\n")
-            fp.write("CUDA_INSTALL_SCRIPT=" + install_script + "\n")
-      - run: echo "CUDA_VERSION_SUFFIX=${{ steps.cuda_info.outputs.CUDA_VERSION_SUFFIX }}"
+          echo "TORCH_CUDA_ARCH_LIST=$TORCH_CUDA_ARCH_LIST 9.0a" >> ${GITHUB_ENV}
 
+      - if: runner.os == 'Windows'
+        run: git config --system core.longpaths true
       - name: Recursive checkout
-        uses: actions/checkout@v3
+        uses: actions/checkout@v4
         with:
           submodules: recursive
           path: "."
           fetch-depth: 0 # for tags
+      - name: Setup Runner
+        uses: ./.github/actions/setup-build-cuda
+        with:
+          toolkit_type: ${{ inputs.toolkit_type }}
+          toolkit_short_version: ${{ inputs.toolkit_short_version }}
+          python: ${{ inputs.python }}
+      - if: runner.os == 'Linux'
+        run: printenv
 
       - if: runner.os != 'Windows'
         name: (Linux) Setup venv for linux
+        shell: bash -l {0}
         run: |
           $PY -m venv venv
           . ./venv/bin/activate
           which pip
           echo "PY=$(which python)" >> ${GITHUB_ENV}
           echo "PATH=$PATH" >> ${GITHUB_ENV}
-          echo "MAX_JOBS=3" >> ${GITHUB_ENV}
+          git config --global --add safe.directory "*"
+          pip install packaging ninja wheel setuptools twine
 
       - name: Define version
         id: xformers_version
@@ -108,8 +93,7 @@ jobs:
         run: |
           set -Eeuo pipefail
           git config --global --add safe.directory "*"
-          pip install packaging ninja
-          version=`python packaging/compute_wheel_version.py --source $VERSION_SOURCE`
+          version=`python .github/compute_wheel_version.py --source $VERSION_SOURCE`
           echo $version > version.txt
           echo "BUILD_VERSION=$version${{ steps.cuda_info.outputs.CUDA_VERSION_SUFFIX }}" >> ${GITHUB_ENV}
           echo "BUILD_VERSION=$version${{ steps.cuda_info.outputs.CUDA_VERSION_SUFFIX }}" >> ${GITHUB_OUTPUT}
@@ -125,47 +109,20 @@ jobs:
           echo "torch == ${{ inputs.torch_version }}" >> ./requirements.txt
           cat ./requirements.txt
 
-      - if: runner.os == 'Windows'
-        name: (Windows) Setup Runner
-        uses: ./.github/actions/setup-windows-runner
-        with:
-          cuda: ${{ steps.cuda_info.outputs.CUDA_VERSION }}
-          python: ${{ inputs.python }}
-
-      - if: runner.os == 'Linux'
-        name: (Linux) list installed packages
+      - name: Install corresponding PyTorch
         run: |
-          yum list installed
-
-      - if: runner.os == 'Linux' && contains(inputs.toolkit_type, 'cuda')
-        name: (Linux) install cuda
-        run: >
-          yum install wget git prename -y &&
-          wget -q "${{ steps.cuda_info.outputs.CUDA_INSTALL_SCRIPT }}" -O cuda.run &&
-          sh ./cuda.run --silent --toolkit &&
-          rm ./cuda.run
-
-      - if: runner.os == 'Linux' && contains(inputs.toolkit_type, 'rocm')
-        name: (Linux) install rocm
-        run: |
-          yum install -y libzstd
-          yum install -y ${{ steps.cuda_info.outputs.CUDA_INSTALL_SCRIPT }}
-          amdgpu-install -y --usecase=rocm --no-dkms
-          echo "ROCM_PATH=/opt/rocm" >> ${GITHUB_ENV}
-          echo "PATH=$PATH:/opt/rocm/bin" >> ${GITHUB_ENV}
-          echo "MAX_JOBS=15" >> ${GITHUB_ENV}
-
-      - name: Install dependencies
-        run: $PY -m pip install wheel setuptools twine -r requirements.txt --extra-index-url $PYTORCH_INDEX_URL
+          PYTORCH_INDEX_URL="https://download.pytorch.org/whl/${{ contains(inputs.toolkit_type, 'cuda') && 'cu' || 'rocm' }}${{ inputs.toolkit_short_version }}"
+          $PY -m pip install wheel -r requirements.txt --extra-index-url $PYTORCH_INDEX_URL
 
       - name: Build wheel
+        shell: bash -l {0}
         run: |
           $PY setup.py bdist_wheel -d dist/ -k $PLAT_ARG
         env:
-          PLAT_ARG: ${{ contains(inputs.os, 'ubuntu') && '--plat-name manylinux2014_x86_64' || '' }}
+          PLAT_ARG: ${{ contains(inputs.os, 'ubuntu') && '--plat-name manylinux_2_28_x86_64' || '' }}
 
       - run: du -h dist/*
-      - uses: actions/upload-artifact@v3
+      - uses: actions/upload-artifact@v4
         with:
           name: ${{ inputs.os }}-py${{ inputs.python }}-torch${{ inputs.torch_version }}+${{ contains(inputs.toolkit_type, 'cuda') && 'cu' || 'rocm' }}${{ inputs.toolkit_short_version }}_${{ inputs.artifact_tag }}
           path: dist/*.whl
diff --git a/setup.py b/setup.py
index 3822947ba5..8321d537ab 100644
--- a/setup.py
+++ b/setup.py
@@ -463,12 +463,17 @@ def get_extensions():
 
         arch_list = os.getenv("HIP_ARCHITECTURES", "native").split()
 
+        offload_compress_flag = []
+        if hip_version >= "6.2.":
+            offload_compress_flag = ["--offload-compress"]
+
         extra_compile_args = {
             "cxx": ["-O3", "-std=c++17"] + generator_flag,
             "nvcc": [
                 "-O3",
                 "-std=c++17",
                 *[f"--offload-arch={arch}" for arch in arch_list],
+                *offload_compress_flag,
                 "-U__CUDA_NO_HALF_OPERATORS__",
                 "-U__CUDA_NO_HALF_CONVERSIONS__",
                 "-DCK_TILE_FMHA_FWD_FAST_EXP2=1",
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 05dc678cb4..dfec154692 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2469,6 +2469,7 @@ def test_paged_attention(
         B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy
     )
 
+
 @cuda_only
 @pytest.mark.parametrize("B", [1, 5, 128])
 @pytest.mark.parametrize("MAX_T", [64, 128, 2048, 4096, 8192])
@@ -2477,7 +2478,10 @@ def test_paged_attention(
 def test_paged_attention_ck(B, MAX_T: int, page_size: int, gappy: bool):
     op = fmha.ck.FwOp
     num_quant_groups = 0
-    paged_attention_run_inner(B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy)
+    paged_attention_run_inner(
+        B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy
+    )
+
 
 @sm80_or_better_only
 @disable_on_rocm
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index cf2d635ea2..58e7f37fc8 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit cf2d635ea27c074e7025896514c4b94034d370cc
+Subproject commit 58e7f37fc892c1e7aeca338f96ec694712e6e412
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h
new file mode 100644
index 0000000000..f8ad3801b1
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h
@@ -0,0 +1,25 @@
+/*
+ * Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include "ck_tile/core/numeric/integral_constant.hpp"
+
+template <bool v>
+struct has_mask_t : ck_tile::bool_constant<v> {};
+
+template <bool v>
+struct has_bias_t : ck_tile::bool_constant<v> {};
+
+template <bool v>
+struct has_dropout_t : ck_tile::bool_constant<v> {};
+
+template <ck_tile::index_t v>
+struct max_head_dimension_t : ck_tile::integral_constant<ck_tile::index_t, v> {
+};
+
+template <ck_tile::index_t v>
+struct max_query_seqlen_t : ck_tile::integral_constant<ck_tile::index_t, v> {};
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index b552c3c843..6b9584d790 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -28,9 +28,9 @@
     LowerTriangularFromBottomRightMask,
     LowerTriangularMask,
     LowerTriangularMaskWithTensorBias,
-    PagedBlockDiagonalPaddedKeysMask,
     PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
     PagedBlockDiagonalGappyKeysMask,
+    PagedBlockDiagonalPaddedKeysMask,
 )
 from .common import (
     AttentionBwOpBase,
@@ -53,7 +53,13 @@ def _get_seqlen_info(
     attn_bias = inp.attn_bias
     if isinstance(
         attn_bias,
-        (BlockDiagonalMask, BlockDiagonalPaddedKeysMask, BlockDiagonalGappyKeysMask, PagedBlockDiagonalPaddedKeysMask, PagedBlockDiagonalGappyKeysMask)
+        (
+            BlockDiagonalMask,
+            BlockDiagonalPaddedKeysMask,
+            BlockDiagonalGappyKeysMask,
+            PagedBlockDiagonalPaddedKeysMask,
+            PagedBlockDiagonalGappyKeysMask,
+        ),
     ):
         attn_bias.k_seqinfo.to(inp.query.device)
         attn_bias.q_seqinfo.to(inp.query.device)

From 2cc18ef5c228f48228cede6750caa12260dd8f2d Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Dec 2024 19:49:41 +0000
Subject: [PATCH 725/837] run black

---
 .../csrc/attention/hip_fmha/generate_instances.py    | 12 +++---------
 1 file changed, 3 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 8a62095ae1..d769b8b358 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -137,9 +137,7 @@ def create_infer_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_INFER_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[
-                                    has_mask
-                                ],
+                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
@@ -210,9 +208,7 @@ def create_forward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_FORWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[
-                                    has_mask
-                                ],
+                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
@@ -289,9 +285,7 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[
-                                    has_mask
-                                ],
+                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],

From da455ec71cf589eed235a9ac8848fe46fd860957 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Dec 2024 19:53:32 +0000
Subject: [PATCH 726/837] fix merge conflict (1)

---
 .../ck_tiled_fmha_batched_forward_splitkv_dispatch.h |  2 +-
 .../csrc/attention/hip_fmha/generate_instances.py    | 12 +++++++++---
 2 files changed, 10 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 75580afcba..b25616c36f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -219,7 +219,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
       BatchedForwardParams& param,
       hipStream_t stream) {
     const auto kargs = [&] {
-      if (param.num_kv_splits)
+      if (param.num_kv_splits > 1)
         return FmhaFwdSplitKVKernel::MakeKargs(
             param.q_ptr,
             param.k_ptr,
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index d769b8b358..8a62095ae1 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -137,7 +137,9 @@ def create_infer_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_INFER_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
+                                has_or_no_mask_str=BOOL_MAP_MASK[
+                                    has_mask
+                                ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
@@ -208,7 +210,9 @@ def create_forward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_FORWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
+                                has_or_no_mask_str=BOOL_MAP_MASK[
+                                    has_mask
+                                ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
@@ -285,7 +289,9 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
+                                has_or_no_mask_str=BOOL_MAP_MASK[
+                                    has_mask
+                                ],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],

From 21330edfc09c62f8d7570d4bc9077ac1db1fe654 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Dec 2024 20:01:55 +0000
Subject: [PATCH 727/837] reset submodule

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 58e7f37fc8..cf2d635ea2 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 58e7f37fc892c1e7aeca338f96ec694712e6e412
+Subproject commit cf2d635ea27c074e7025896514c4b94034d370cc

From e8946b22b098d4ff8b3923b51c3ac8ad969d0ade Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Dec 2024 20:04:24 +0000
Subject: [PATCH 728/837] cleanup

---
 .../hip_fmha/ck_tiled_fmha_dispatch_tags.h    | 25 -------------------
 1 file changed, 25 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h
deleted file mode 100644
index f8ad3801b1..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_dispatch_tags.h
+++ /dev/null
@@ -1,25 +0,0 @@
-/*
- * Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include "ck_tile/core/numeric/integral_constant.hpp"
-
-template <bool v>
-struct has_mask_t : ck_tile::bool_constant<v> {};
-
-template <bool v>
-struct has_bias_t : ck_tile::bool_constant<v> {};
-
-template <bool v>
-struct has_dropout_t : ck_tile::bool_constant<v> {};
-
-template <ck_tile::index_t v>
-struct max_head_dimension_t : ck_tile::integral_constant<ck_tile::index_t, v> {
-};
-
-template <ck_tile::index_t v>
-struct max_query_seqlen_t : ck_tile::integral_constant<ck_tile::index_t, v> {};

From 8b580f4f96ecfc4c35b4df3cec3ddc3e2b8756c8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 11 Dec 2024 20:12:13 +0000
Subject: [PATCH 729/837] run black

---
 .../csrc/attention/hip_fmha/generate_instances.py    | 12 +++---------
 1 file changed, 3 insertions(+), 9 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 8a62095ae1..d769b8b358 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -137,9 +137,7 @@ def create_infer_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_INFER_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[
-                                    has_mask
-                                ],
+                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
@@ -210,9 +208,7 @@ def create_forward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_FORWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[
-                                    has_mask
-                                ],
+                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],
                                 max_k_str=INT_MAP_MAX_K[max_k],
@@ -289,9 +285,7 @@ def create_backward_instances(instance_dir: Path, headdims: List) -> None:
                             fname = FMHA_BACKWARD_INSTANCE_FNAME.format(
                                 mode=mode,
                                 dtype_str=dtype,
-                                has_or_no_mask_str=BOOL_MAP_MASK[
-                                    has_mask
-                                ],
+                                has_or_no_mask_str=BOOL_MAP_MASK[has_mask],
                                 has_or_no_bias_str=BOOL_MAP_BIAS[has_bias],
                                 has_or_no_biasgrad_str=BOOL_MAP_BIASGRAD[has_bias_grad],
                                 has_or_no_dropout_str=BOOL_MAP_DROPOUT[has_dropout],

From afdfa469a2614dd7e52247fbde9109f7c5262cc5 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 13 Dec 2024 04:42:27 +0000
Subject: [PATCH 730/837] Synchronize to use the latest optimization for
 splitkv combine kernel

---
 third_party/composable_kernel_tiled           |  2 +-
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 20 ++++++++-----------
 ..._batched_forward_splitkv_smallq_dispatch.h | 20 ++++++++-----------
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 20 ++++++++-----------
 ...ha_batched_infer_splitkv_smallq_dispatch.h | 20 ++++++++-----------
 ...ed_fmha_grouped_forward_splitkv_dispatch.h | 17 ++++++++--------
 ..._grouped_forward_splitkv_smallq_dispatch.h | 17 ++++++++--------
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 17 ++++++++--------
 ...ha_grouped_infer_splitkv_smallq_dispatch.h | 17 ++++++++--------
 .../ck_tiled_fmha_num_kv_split_switch.h       |  5 +----
 10 files changed, 66 insertions(+), 89 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 48257c8e68..f9b14061a3 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 48257c8e682ad4d7e69e6614319ee39197fa802a
+Subproject commit f9b14061a36390ee19338fa1c42f50b2d5b15783
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index dc9a2f16b6..e0e215cee2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -45,19 +45,15 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           false, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -164,8 +160,11 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -187,10 +186,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
                       -1>;
 
                   using FmhaPipelineProblem =
-                      FmhaSplitKVCombinePipelineProblemTemp<
-                          kM0,
-                          kN1,
-                          FmhaTraits>;
+                      FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
                   using FmhaPipeline =
                       ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
index 393ab82451..ef0a227fc5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -44,19 +44,15 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           false, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -163,8 +159,11 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
     if (param.num_kv_splits > 1) {
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -186,10 +185,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                       -1>;
 
                   using FmhaPipelineProblem =
-                      FmhaSplitKVCombinePipelineProblemTemp<
-                          kM0,
-                          kN1,
-                          FmhaTraits>;
+                      FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
                   using FmhaPipeline =
                       ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 2468746e98..d990dd4a1b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -45,19 +45,15 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           false, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -177,8 +173,11 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -200,10 +199,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                       -1>;
 
                   using FmhaPipelineProblem =
-                      FmhaSplitKVCombinePipelineProblemTemp<
-                          kM0,
-                          kN1,
-                          FmhaTraits>;
+                      FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
                   using FmhaPipeline =
                       ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
index 27cf10553d..d6be81d8e9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -44,19 +44,15 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           false, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
@@ -176,8 +172,11 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
     if (param.num_kv_splits > 1) {
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -199,10 +198,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                       -1>;
 
                   using FmhaPipelineProblem =
-                      FmhaSplitKVCombinePipelineProblemTemp<
-                          kM0,
-                          kN1,
-                          FmhaTraits>;
+                      FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
                   using FmhaPipeline =
                       ck_tile::BlockFmhaFwdSplitKVCombinePipeline<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index c6a0a3def0..820a8f8ddb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -45,19 +45,15 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           true, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -154,8 +150,11 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -176,7 +175,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
               -1>;
 
           using FmhaPipelineProblem =
-              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+              FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
           using FmhaPipeline =
               ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
index 4fe72481f3..d6a9a48579 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
@@ -44,19 +44,15 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           true, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -151,8 +147,11 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
     if (param.num_kv_splits > 1) {
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -173,7 +172,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
               -1>;
 
           using FmhaPipelineProblem =
-              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+              FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
           using FmhaPipeline =
               ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 5d2ce98ace..59c0a9e7c1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -45,19 +45,15 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           true, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -173,8 +169,11 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0 / 2;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -195,7 +194,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
               -1>;
 
           using FmhaPipelineProblem =
-              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+              FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
           using FmhaPipeline =
               ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
index 9d0e432e4b..7a7dd95d7b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -44,19 +44,15 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
-  template <
-      ck_tile::index_t kM0,
-      ck_tile::index_t kN1,
-      typename FmhaSplitKVCombineTraits>
+  template <ck_tile::index_t kN1, typename FmhaSplitKVCombineTraits>
   using FmhaSplitKVCombinePipelineProblemTemp =
       ck_tile::BlockFmhaSplitKVCombinePipelineProblem<
           typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           typename FmhaFwdTypeConfig<ScalarType>::ODataType,
           MaxK, // headdim_v
-          kM0,
-          kN1,
           true, // kIsGroupMode
+          kN1,
           FmhaSplitKVCombineTraits>;
 
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
@@ -172,8 +168,11 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
     if (param.num_kv_splits > 1) {
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
 
-      constexpr ck_tile::index_t kM0 = FmhaTileShape::kM0;
-      constexpr ck_tile::index_t kN1 = FmhaTileShape::kN1 / 2;
+      constexpr ck_tile::index_t kN1 = 32;
+      constexpr ck_tile::index_t kM0 =
+          ck_tile::BlockFmhaSplitKVCombinePipelineTileSizes<
+              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+              kN1>::kM0;
 
       using FmhaTilePartitioner =
           ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
@@ -194,7 +193,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
               -1>;
 
           using FmhaPipelineProblem =
-              FmhaSplitKVCombinePipelineProblemTemp<kM0, kN1, FmhaTraits>;
+              FmhaSplitKVCombinePipelineProblemTemp<kN1, FmhaTraits>;
 
           using FmhaPipeline =
               ck_tile::BlockFmhaFwdSplitKVCombinePipeline<FmhaPipelineProblem>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
index 3bc087b392..db9a1afbc4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_num_kv_split_switch.h
@@ -11,10 +11,7 @@
 
 #define FMHA_FWD_NUM_KV_SPLITS_SWITCH(NUM_SPLITS, CONST_NAME, ...) \
   [&] {                                                            \
-    if (NUM_SPLITS <= 4) {                                         \
-      constexpr ck_tile::index_t CONST_NAME = 2;                   \
-      __VA_ARGS__();                                               \
-    } else if (NUM_SPLITS <= 8) {                                  \
+    if (NUM_SPLITS <= 8) {                                         \
       constexpr ck_tile::index_t CONST_NAME = 3;                   \
       __VA_ARGS__();                                               \
     } else if (NUM_SPLITS <= 16) {                                 \

From 1258328dde58c07248de6c5e24445272fc21116d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 15 Dec 2024 13:36:37 +0000
Subject: [PATCH 731/837] Update in ck FwOp apply() to welll utilize the group
 query support in ck_tile

---
 xformers/ops/fmha/ck.py | 82 ++++++++++++++---------------------------
 1 file changed, 28 insertions(+), 54 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index b552c3c843..be1400c2ab 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -53,7 +53,13 @@ def _get_seqlen_info(
     attn_bias = inp.attn_bias
     if isinstance(
         attn_bias,
-        (BlockDiagonalMask, BlockDiagonalPaddedKeysMask, BlockDiagonalGappyKeysMask, PagedBlockDiagonalPaddedKeysMask, PagedBlockDiagonalGappyKeysMask)
+        (
+            BlockDiagonalMask,
+            BlockDiagonalPaddedKeysMask,
+            BlockDiagonalGappyKeysMask,
+            PagedBlockDiagonalPaddedKeysMask,
+            PagedBlockDiagonalGappyKeysMask,
+        ),
     ):
         attn_bias.k_seqinfo.to(inp.query.device)
         attn_bias.q_seqinfo.to(inp.query.device)
@@ -205,62 +211,30 @@ def apply(
     ) -> Tuple[torch.Tensor, Optional[Context]]:
         if type(inp.attn_bias) not in FwOp.SUPPORTED_ATTN_BIAS_TYPES:
             raise NotImplementedError("Unsupported attn_bias type")
-        if inp.query.ndim in [3, 4]:
+        if inp.query.ndim in [1, 2, 3]:
+            raise NotImplementedError("Unsupported number of dimensions")
+        if inp.query.ndim in [4]:
             return cls.apply_bmhk(inp, needs_gradient=needs_gradient)
         assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
         ctx: Optional[Context] = None
-        # XXX: Hackfix for BMGHK with H=1
-        # In that case we don't want to run G different streams because it adds
-        # some overhead
-        if inp.query.ndim == 5 and inp.query.shape[3] == 1:
-            slice_op = partial(torch.squeeze, dim=3)
-            inp = replace(
-                inp,
-                query=slice_op(inp.query),
-                key=slice_op(inp.key),
-                value=slice_op(inp.value),
-                attn_bias=_attn_bias_apply(
-                    inp.attn_bias, partial(torch.squeeze, dim=2)
-                ),
-            )
-            out, ctx = cls.apply_bmhk(inp, needs_gradient=needs_gradient)
-            out = out.unsqueeze(3)
-            if ctx is not None:
-                ctx = replace(ctx, lse=ctx.lse.unsqueeze(1), out=out)
-            return out, ctx
-
-        # Workaround until this is properly implemented in C++
-        # run each head group in a different stream
-        n_groups = inp.key.shape[2]
-        main_stream = torch.cuda.current_stream()
-        streams = [main_stream] + [
-            torch.cuda.Stream(device=inp.query.device) for _ in range(n_groups - 1)
-        ]
-        outs = []
-        for group, stream in enumerate(streams):
-            stream.wait_stream(main_stream)
-            with torch.cuda.stream(stream):
-                query = inp.query[:, :, group]
-                key = inp.key[:, :, group]
-                value = inp.value[:, :, group]
-                bias = _attn_bias_apply(
-                    inp.attn_bias, partial(torch.select, dim=1, index=group)
-                )
-                outs.append(
-                    cls.apply_bmhk(
-                        replace(inp, query=query, key=key, value=value, attn_bias=bias),
-                        needs_gradient=needs_gradient,
-                    )
-                )
-        for s in streams[1:]:
-            main_stream.wait_stream(s)
-        out = torch.stack([o[0] for o in outs], dim=2)
-        if needs_gradient:
-            ctx = Context(
-                out=out,
-                lse=torch.stack([o[1].lse for o in outs], dim=1),  # type: ignore
-                op_bw=outs[0][1].op_bw,  # type: ignore
-            )
+
+        [B, q_len, G, Hq, K] = inp.query.shape
+        [_, kv_len, _, Hkv, Kv] = inp.key.shape
+        attn_bias_replace = inp.attn_bias
+        if isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim != 0:
+            attn_bias_replace = torch.reshape(inp.attn_bias, (B, G * Hq, M, N))
+        inp = replace(
+            inp,
+            query=torch.reshape(inp.query, (B, q_len, G * Hq, K)),
+            key=torch.reshape(inp.key, (B, kv_len, G * Hkv, K)),
+            value=torch.reshape(inp.value, (B, kv_len, G * Hkv, Kv)),
+            attn_bias=attn_bias_replace,
+        )
+        out, ctx = cls.apply_bmhk(inp, needs_gradient=needs_gradient)
+        out = torch.reshape(out, (B, q_len, G, Hq, Kv))
+        if ctx is not None:
+            lse = torch.reshape(ctx.lse, (B, G, Hq, q_len))
+            ctx = replace(ctx, lse=lse, out=out)
         return out, ctx
 
     @classmethod

From 08edbf9a86315ba14a47bc15321a9f4b73fa4ff9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 16 Dec 2024 15:39:28 +0000
Subject: [PATCH 732/837] Update to let fmha infer kernel can select either
 16x16 or 32x32 instances for better performance

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  |  31 ++-
 .../ck_tiled_fmha_batched_forward_dispatch.h  |   7 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  32 +++-
 .../ck_tiled_fmha_batched_infer_dispatch.h    |   7 +-
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 177 ++++++++++++------
 .../ck_tiled_fmha_fwd_splitkv_selector.h      |  39 +---
 ...k_tiled_fmha_fwd_splitkv_smallq_selector.h |  31 +++
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  |  32 +++-
 .../ck_tiled_fmha_grouped_forward_dispatch.h  |   7 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  32 +++-
 .../ck_tiled_fmha_grouped_infer_dispatch.h    |   7 +-
 11 files changed, 263 insertions(+), 139 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 33ea3b9e02..24a56ffbd8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -10,7 +10,8 @@
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
 #include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
 #include "ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h"
-#include "ck_tiled_fmha_fwd_splitkv_selector.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
@@ -44,18 +45,32 @@ void run_batched_forward_mask_bias_dropout_dispatch(
       }
     } else
 #endif
-      batched_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+    {
+      if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
+        batched_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            128>::Run(param, stream);
+      else
+        batched_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            64>::Run(param, stream);
+    }
   } else {
+    // at present, dropout of fwd kernel requires 32x32 WarpTile
     batched_forward_mask_bias_dropout_dispatch<
         ScalarType,
         kHasMask,
         kHasBias,
         kHasDropout,
-        MaxK>::Run(param, stream);
+        MaxK,
+        128>::Run(param, stream);
   }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index f2e7f10ba8..3504f6ae04 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -21,7 +21,8 @@ template <
     bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MTile>
 struct batched_forward_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -36,7 +37,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::PDataType,
       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
+      typename FmhaFwdShape<MaxK, MTile>::Type,
       false, // kIsGroupMode
       FmhaMask,
       FmhaTraits>;
@@ -44,7 +45,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+    using FmhaFwdShape_ = typename FmhaFwdShape<MaxK, MTile>::Type;
     using FmhaFwdTilePartitioner_ =
         ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
     constexpr ck_tile::index_t occupancy =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index fcdc89c518..f7cfb1aabf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -10,7 +10,8 @@
 #include "ck_tiled_fmha_batched_infer_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h"
-#include "ck_tiled_fmha_fwd_splitkv_selector.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
@@ -42,20 +43,33 @@ void run_batched_infer_mask_bias_dropout_dispatch(
               MaxSeqlenQ>::Run(param, stream);
         });
       }
-    } else
+    } else {
 #endif
-      batched_infer_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+      if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
+        batched_infer_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            128>::Run(param, stream);
+      else
+        batched_infer_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            64>::Run(param, stream);
+    }
   } else {
+    // at present, dropout of fwd kernel requires 32x32 WarpTile
     batched_infer_mask_bias_dropout_dispatch<
         ScalarType,
         kHasMask,
         kHasBias,
         kHasDropout,
-        MaxK>::Run(param, stream);
+        MaxK,
+        128>::Run(param, stream);
   }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index c5275a7d2d..c317e64f6a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -22,7 +22,8 @@ template <
     bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MTile>
 struct batched_infer_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -37,7 +38,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::PDataType,
       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
+      typename FmhaFwdShape<MaxK, MTile>::Type,
       false, // kIsGroupMode
       FmhaMask,
       FmhaTraits>;
@@ -45,7 +46,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    using FmhaShape = FmhaFwdShape<MaxK>;
+    using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
     using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
     constexpr ck_tile::index_t occupancy =
         (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index b75c7a9657..922bdd05d6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -8,101 +8,164 @@
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/ops/fmha.hpp>
+#include "ck_fmha_util.h"
 #include "ck_tiled_fmha_fwd_type_config.h"
 
-template <ck_tile::index_t MaxK>
+template <ck_tile::index_t MaxK, ck_tile::index_t MTile = 0>
 struct FmhaFwdBlockTile;
 
 // Tile-sizes: M N0 K0 N1 K1 MaxK (MaxK % K0 == 0, MaxK % N1 == 0, N0 % K1 == 0)
 //
-template <>
-struct FmhaFwdBlockTile<32> {
-  using type = ck_tile::sequence<128, 64, 16, 32, 32, 32>;
+template <ck_tile::index_t MTile>
+struct FmhaFwdBlockTile<32, MTile> {
+  using type = ck_tile::sequence<64, 64, 16, 32, 32, 32>;
   using gemm0_warps = ck_tile::sequence<2, 1, 1>;
   using gemm1_warps = ck_tile::sequence<2, 1, 1>;
 };
 
-template <>
-struct FmhaFwdBlockTile<64> {
+template struct FmhaFwdBlockTile<32>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdBlockTile<64, MTile> {
   using type = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
-template <>
-struct FmhaFwdBlockTile<96> {
+template struct FmhaFwdBlockTile<64>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdBlockTile<96, MTile> {
   using type = ck_tile::sequence<128, 128, 32, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
+template struct FmhaFwdBlockTile<96>;
+
 template <>
-struct FmhaFwdBlockTile<128> {
-  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
+struct FmhaFwdBlockTile<128, 64> {
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
 template <>
-struct FmhaFwdBlockTile<256> {
+struct FmhaFwdBlockTile<128, 128> {
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdBlockTile<256, MTile> {
   using type = ck_tile::sequence<128, 128, 32, 256, 32, 256>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
-using FmhaFwdWarpTile = ck_tile::sequence<32, 32, 16>;
+template struct FmhaFwdBlockTile<256>;
 
-template <ck_tile::index_t MaxK>
+using FmhaFwdWarpTile1 = ck_tile::sequence<32, 32, 16>;
+using FmhaFwdWarpTile2 = ck_tile::sequence<16, 16, 16>;
+
+template <ck_tile::index_t MaxK, ck_tile::index_t MTile>
 struct FmhaFwdShape;
 
-template <>
-struct FmhaFwdShape<32> : ck_tile::TileFmhaShape<
-                              typename FmhaFwdBlockTile<32>::type,
-                              typename FmhaFwdBlockTile<32>::gemm0_warps,
-                              FmhaFwdWarpTile,
-                              typename FmhaFwdBlockTile<32>::gemm1_warps,
-                              FmhaFwdWarpTile,
-                              IsVLayoutRowMajor> {};
+template <ck_tile::index_t MTile>
+struct FmhaFwdShape<32, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<32>::type,
+      typename FmhaFwdBlockTile<32>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdBlockTile<32>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
 
-template <>
-struct FmhaFwdShape<64> : ck_tile::TileFmhaShape<
-                              typename FmhaFwdBlockTile<64>::type,
-                              typename FmhaFwdBlockTile<64>::gemm0_warps,
-                              FmhaFwdWarpTile,
-                              typename FmhaFwdBlockTile<64>::gemm1_warps,
-                              FmhaFwdWarpTile,
-                              IsVLayoutRowMajor> {};
+template struct FmhaFwdShape<32, 64>;
+template struct FmhaFwdShape<32, 128>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdShape<64, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<64>::type,
+      typename FmhaFwdBlockTile<64>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdBlockTile<64>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
 
-template <>
-struct FmhaFwdShape<96> : ck_tile::TileFmhaShape<
-                              typename FmhaFwdBlockTile<96>::type,
-                              typename FmhaFwdBlockTile<96>::gemm0_warps,
-                              FmhaFwdWarpTile,
-                              typename FmhaFwdBlockTile<96>::gemm1_warps,
-                              FmhaFwdWarpTile,
-                              IsVLayoutRowMajor> {};
+template struct FmhaFwdShape<64, 64>;
+template struct FmhaFwdShape<64, 128>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdShape<96, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<96>::type,
+      typename FmhaFwdBlockTile<96>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdBlockTile<96>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdShape<96, 64>;
+template struct FmhaFwdShape<96, 128>;
 
 template <>
-struct FmhaFwdShape<128> : ck_tile::TileFmhaShape<
-                               typename FmhaFwdBlockTile<128>::type,
-                               typename FmhaFwdBlockTile<128>::gemm0_warps,
-                               FmhaFwdWarpTile,
-                               typename FmhaFwdBlockTile<128>::gemm1_warps,
-                               FmhaFwdWarpTile,
-                               IsVLayoutRowMajor> {};
+struct FmhaFwdShape<128, 64> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<128, 64>::type,
+      typename FmhaFwdBlockTile<128, 64>::gemm0_warps,
+      FmhaFwdWarpTile2,
+      typename FmhaFwdBlockTile<128, 64>::gemm1_warps,
+      FmhaFwdWarpTile2,
+      IsVLayoutRowMajor>;
+};
 
 template <>
-struct FmhaFwdShape<256> : ck_tile::TileFmhaShape<
-                               typename FmhaFwdBlockTile<256>::type,
-                               typename FmhaFwdBlockTile<256>::gemm0_warps,
-                               FmhaFwdWarpTile,
-                               typename FmhaFwdBlockTile<256>::gemm1_warps,
-                               FmhaFwdWarpTile,
-                               IsVLayoutRowMajor> {};
-
-template <ck_tile::index_t MaxK>
-int fwd_get_mtile_size() {
-  using FmhaTileShape = FmhaFwdShape<MaxK>;
-
-  return FmhaTileShape::kM0;
+struct FmhaFwdShape<128, 128> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<128, 128>::type,
+      typename FmhaFwdBlockTile<128, 128>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdBlockTile<128, 128>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdShape<256, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<256>::type,
+      typename FmhaFwdBlockTile<256>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdBlockTile<256>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdShape<256, 64>;
+template struct FmhaFwdShape<256, 128>;
+
+static int get_fmha_fwd_mtile(
+    int num_batches,
+    int num_heads,
+    int max_seqlen_q) {
+  int num_SMs = get_number_of_cu();
+  auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
+
+  int batch_nhead_mblocks =
+      num_batches * num_heads * ceildiv(max_seqlen_q, 128);
+
+  if (batch_nhead_mblocks >= 0.8 * num_SMs)
+    return 128;
+
+  return 64;
+};
+
+static int get_fmha_fwd_least_mtile() {
+  return 64;
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index af10c67e0d..10c97967c9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -15,7 +15,7 @@
 #include "ck_tiled_fmha_seqlen_q_switch.h"
 
 // generate a list of numbers as num_splits to consider, the list of numbers is
-// like 1, 2, 4, 8, 16, 32, 64, 96, 128, 160, 192, 224, 256, 288, 320
+// like 1, 2, 4, 8, 16, 32, 64, 96, 128, 160
 static int generate_splits_list(int i) {
   if (i <= 0)
     return 1;
@@ -35,23 +35,10 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   int num_SMs = get_number_of_cu();
   auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
 
-  int mtile_size_for_pipeline_default = 128;
+  int mtile_size_for_pipeline_default = get_fmha_fwd_least_mtile();
   int mtile_size_for_splitkv = 64;
   int mtile_size_for_splitkv_smallq = 16;
 
-  // get mtile_size_for_pipline_default
-  if (max_headdim <= 32) {
-    mtile_size_for_pipeline_default = fwd_get_mtile_size<32>();
-  } else if (max_headdim <= 64) {
-    mtile_size_for_pipeline_default = fwd_get_mtile_size<64>();
-  } else if (max_headdim <= 96) {
-    mtile_size_for_pipeline_default = fwd_get_mtile_size<96>();
-  } else if (max_headdim <= 128) {
-    mtile_size_for_pipeline_default = fwd_get_mtile_size<128>();
-  } else {
-    mtile_size_for_pipeline_default = fwd_get_mtile_size<256>();
-  };
-
   // get mtile_size_for_splitkv
   FMHA_FWD_SEQLEN_Q_SWITCH(max_seqlen_q, MaxSeqLenQ, [&] {
     if (max_headdim <= 32) {
@@ -147,25 +134,3 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
 
   return std::make_pair(use_splitkv, num_splits);
 }
-
-static bool use_splitkv_smallq(int max_seqlen_q, int max_headdim) {
-  int mtile_size_for_splitkv_smallq = 16;
-
-  // get mtile_size_for_splitkv_smallq
-  if (max_headdim <= 32) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
-  } else if (max_headdim <= 64) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
-  } else if (max_headdim <= 96) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
-  } else if (max_headdim <= 128) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
-  } else {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
-  };
-
-  if (max_seqlen_q <= mtile_size_for_splitkv_smallq)
-    return true;
-  else
-    return false;
-}
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h
new file mode 100644
index 0000000000..da177b7ded
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h
@@ -0,0 +1,31 @@
+/*
+ * Copyright (c) 2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
+
+static bool use_splitkv_smallq(int max_seqlen_q, int max_headdim) {
+  int mtile_size_for_splitkv_smallq = 16;
+
+  // get mtile_size_for_splitkv_smallq
+  if (max_headdim <= 32) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
+  } else if (max_headdim <= 64) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
+  } else if (max_headdim <= 96) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
+  } else if (max_headdim <= 128) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
+  } else {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
+  };
+
+  if (max_seqlen_q <= mtile_size_for_splitkv_smallq)
+    return true;
+  else
+    return false;
+}
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index a54bcbaf00..325cbf61a0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <algorithm>
-#include "ck_tiled_fmha_fwd_splitkv_selector.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
 #include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
 #include "ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h"
@@ -44,18 +45,33 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
       }
     } else
 #endif
-      grouped_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+    {
+      if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
+          128)
+        grouped_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            128>::Run(param, stream);
+      else
+        grouped_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            64>::Run(param, stream);
+    }
   } else {
+    // at present, dropout of fwd kernel requires 32x32 WarpTile
     grouped_forward_mask_bias_dropout_dispatch<
         ScalarType,
         kHasMask,
         kHasBias,
         kHasDropout,
-        MaxK>::Run(param, stream);
+        MaxK,
+        128>::Run(param, stream);
   }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index 179ae711c8..f46454414f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -21,7 +21,8 @@ template <
     bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MTile>
 struct grouped_forward_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -36,7 +37,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::PDataType,
       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
+      typename FmhaFwdShape<MaxK, MTile>::Type,
       true, // kIsGroupMode
       FmhaMask,
       FmhaTraits>;
@@ -44,7 +45,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    using FmhaFwdShape_ = FmhaFwdShape<MaxK>;
+    using FmhaFwdShape_ = typename FmhaFwdShape<MaxK, MTile>::Type;
 
     constexpr ck_tile::index_t occupancy = (MaxK == 64) ? 3
         : (MaxK == 256)                                 ? 1
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index eafd41caa9..e835741345 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -7,7 +7,8 @@
 #pragma once
 
 #include <algorithm>
-#include "ck_tiled_fmha_fwd_splitkv_selector.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
 #include "ck_tiled_fmha_grouped_infer_splitkv_dispatch.h"
 #include "ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h"
@@ -44,18 +45,33 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
       }
     } else
 #endif
-      grouped_infer_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+    {
+      if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
+          128)
+        grouped_infer_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            128>::Run(param, stream);
+      else
+        grouped_infer_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            64>::Run(param, stream);
+    }
   } else {
+    // at present, dropout of fwd kernel requires 32x32 WarpTile
     grouped_infer_mask_bias_dropout_dispatch<
         ScalarType,
         kHasMask,
         kHasBias,
         kHasDropout,
-        MaxK>::Run(param, stream);
+        MaxK,
+        128>::Run(param, stream);
   }
 };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index f22c2cb21b..f5c8914b13 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -22,7 +22,8 @@ template <
     bool kHasMask,
     bool kHasBias,
     bool kHasDropout,
-    ck_tile::index_t MaxK>
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MTile>
 struct grouped_infer_mask_bias_dropout_dispatch {
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -37,7 +38,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::PDataType,
       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      FmhaFwdShape<MaxK>,
+      typename FmhaFwdShape<MaxK, MTile>::Type,
       true, // kIsGroupMode
       FmhaMask,
       FmhaTraits>;
@@ -45,7 +46,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    using FmhaShape = FmhaFwdShape<MaxK>;
+    using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
     constexpr ck_tile::index_t occupancy =
         (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 

From 57e157e74fc2334ccf4ce8f563a0d150366ff428 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 16 Dec 2024 15:52:44 +0000
Subject: [PATCH 733/837] Remove the conditional compiling of using splitkv
 kernel

---
 setup.py                                                     | 4 ----
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h  | 5 +----
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h    | 2 --
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h  | 5 +----
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h    | 5 +----
 5 files changed, 3 insertions(+), 18 deletions(-)

diff --git a/setup.py b/setup.py
index 3822947ba5..d47d1060a4 100644
--- a/setup.py
+++ b/setup.py
@@ -457,10 +457,6 @@ def get_extensions():
         if use_rtn_bf16_convert == "1":
             cc_flag += ["-DCK_TILE_FLOAT_TO_BFLOAT16_DEFAULT=3"]
 
-        disable_fmha_fwd_splitkv = os.getenv("DISABLE_HIP_FMHA_FWD_SPLITKV", "0")
-        if disable_fmha_fwd_splitkv == "1":
-            cc_flag += ["-DFMHA_FWD_SPLITKV_NOT_USED"]
-
         arch_list = os.getenv("HIP_ARCHITECTURES", "native").split()
 
         extra_compile_args = {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 24a56ffbd8..a79887c55b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -25,7 +25,6 @@ void run_batched_forward_mask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-#ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
         batched_forward_splitkv_smallq_mask_bias_dropout_dispatch<
@@ -43,9 +42,7 @@ void run_batched_forward_mask_bias_dropout_dispatch(
               MaxSeqlenQ>::Run(param, stream);
         });
       }
-    } else
-#endif
-    {
+    } else {
       if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
         batched_forward_mask_bias_dropout_dispatch<
             ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index f7cfb1aabf..06b3b66232 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -25,7 +25,6 @@ void run_batched_infer_mask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-#ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
         batched_infer_splitkv_smallq_mask_bias_dropout_dispatch<
@@ -44,7 +43,6 @@ void run_batched_infer_mask_bias_dropout_dispatch(
         });
       }
     } else {
-#endif
       if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
         batched_infer_mask_bias_dropout_dispatch<
             ScalarType,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 325cbf61a0..5d19d6cc0e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -25,7 +25,6 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-#ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
         grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
@@ -43,9 +42,7 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
               MaxSeqlenQ>::Run(param, stream);
         });
       }
-    } else
-#endif
-    {
+    } else {
       if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
           128)
         grouped_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index e835741345..539e33215e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -25,7 +25,6 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
     hipStream_t stream) {
   // currently split-kv implementation does not support dropout
   if constexpr (!kHasDropout) {
-#ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
         grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch<
@@ -43,9 +42,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               MaxSeqlenQ>::Run(param, stream);
         });
       }
-    } else
-#endif
-    {
+    } else {
       if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
           128)
         grouped_infer_mask_bias_dropout_dispatch<

From 84d725371d37cb28a2ff1fca5e8948b80dce38cc Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 17 Dec 2024 08:17:21 +0000
Subject: [PATCH 734/837] Sync to the latest commit of the ck_tile branch

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index f9b14061a3..e519f5e91c 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit f9b14061a36390ee19338fa1c42f50b2d5b15783
+Subproject commit e519f5e91cd51610d87f65dfbef6529f459e1dd2

From 97523ddff711e4dff48d55636730abc3561bb18a Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 17 Dec 2024 14:33:09 +0000
Subject: [PATCH 735/837] Sync to the latest commit of the ck_tile branch for
 updated pipeline for betterh performance

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index e519f5e91c..9e1bb30103 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit e519f5e91cd51610d87f65dfbef6529f459e1dd2
+Subproject commit 9e1bb30103057173a15b5e899280db8f932d157e

From aa781c8a49167b343f102abba578892a84cdf6f8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 17 Dec 2024 14:34:59 +0000
Subject: [PATCH 736/837] Update in the method for determining num_kv_splits

---
 .../attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 10c97967c9..62db4db83d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -71,7 +71,7 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
     int batch_nhead_mblocks = num_batches * num_heads *
         ceildiv(max_seqlen_q, mtile_size_for_pipeline_default);
 
-    if (batch_nhead_mblocks >= 0.8f * num_SMs)
+    if (batch_nhead_mblocks >= 0.8 * num_SMs)
       return std::make_pair(false, 1);
   }
 
@@ -89,7 +89,7 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
       num_batches * num_heads * ceildiv(max_seqlen_q, mtile_size);
 
   // If we have enough to almost fill the SMs, then just use 1 split
-  if (batch_nhead_mblocks >= 0.8f * num_SMs) {
+  if (batch_nhead_mblocks >= num_SMs) {
     return std::make_pair(use_splitkv, 1);
   }
 
@@ -128,7 +128,7 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   for (int i = 1; i < max_check; i++) {
     num_splits = generate_splits_list(i);
 
-    if (batch_nhead_mblocks * num_splits >= 0.8 * num_SMs)
+    if (batch_nhead_mblocks * num_splits >= num_SMs)
       break;
   };
 

From e53d164754a81086912897643acf832acd8892ee Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 17 Dec 2024 15:51:23 +0000
Subject: [PATCH 737/837] Update to the tile setting for splitkv-smallq
 headdim128

---
 .../hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h       | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
index f40e0411a7..5600e80ed0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
@@ -38,14 +38,14 @@ struct FmhaFwdSplitKVSmallQBlockTile<96> {
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<128> {
-  using type = ck_tile::sequence<16, 64, 32, 128, 64, 128>;
+  using type = ck_tile::sequence<16, 64, 64, 128, 64, 128>;
   using gemm0_warps = ck_tile::sequence<1, 4, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };
 
 template <>
 struct FmhaFwdSplitKVSmallQBlockTile<256> {
-  using type = ck_tile::sequence<16, 64, 32, 256, 32, 256>;
+  using type = ck_tile::sequence<16, 64, 64, 256, 64, 256>;
   using gemm0_warps = ck_tile::sequence<1, 4, 1>;
   using gemm1_warps = ck_tile::sequence<1, 4, 1>;
 };

From 1ae3de93442ee0db6fed3726d2062428e79a11e7 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 00:48:21 +0000
Subject: [PATCH 738/837] call qsksvs pipeline on either async or sync codepath
 in dispatch

---
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 117 ++++++------------
 1 file changed, 37 insertions(+), 80 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 1c1cc922ad..e851f57729 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -69,85 +69,43 @@ struct batched_infer_mask_bias_dropout_dispatch {
          (MaxK <= 128));
 
     if (!use_async_pipeline) {
-      if constexpr (MaxK <= 256) {
-        BOOL_SWITCH_3(
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_seqlen_k,
-          kPadSeqLenK,
-          pad_headdim,
-          kPadHeadDim,
-          [&] {
-            using FmhaTraits = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDim, // kPadHeadDimQ,
-                kPadHeadDim, // kPadHeadDimV,
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                false, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-
-            using FmhaEpilogue =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDim>>;
-
-            using FmhaKernel = ck_tile::
-                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          });
-      } else {
-        BOOL_SWITCH_3(
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_seqlen_k,
-          kPadSeqLenK,
-          pad_headdim,
-          kPadHeadDim,
-          [&] {
-            using FmhaTraits = ck_tile::TileFmhaTraits<
+      BOOL_SWITCH_3(
+        pad_seqlen_q,
+        kPadSeqLenQ,
+        pad_seqlen_k,
+        kPadSeqLenK,
+        pad_headdim,
+        kPadHeadDim,
+        [&] {
+        using FmhaTraits = ck_tile::TileFmhaTraits<
+            kPadSeqLenQ,
+            kPadSeqLenK,
+            kPadHeadDim, // kPadHeadDimQ,
+            kPadHeadDim, // kPadHeadDimV,
+            kBiasEnum,
+            false, // kHasBiasGrad place-holder
+            false, // kStoreLSE
+            kHasDropout,
+            false, // kDoFp8StaticQuant place-holder
+            occupancy>;
+
+        using FmhaPipelineProblem =
+            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+        using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+
+        using FmhaEpilogue =
+            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                 kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDim, // kPadHeadDimQ,
-                kPadHeadDim, // kPadHeadDimV,
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                false, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-
-            using FmhaEpilogue =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDim>>;
-
-            using FmhaKernel = ck_tile::
-                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          });
-      }
+                kPadHeadDim>>;
+
+        using FmhaKernel = ck_tile::
+            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+        RunWithKernel<FmhaKernel>(param, stream);
+        });
     } else {
       BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
         using FmhaTraits = ck_tile::TileFmhaTraits<
@@ -165,8 +123,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
         using FmhaPipelineProblem =
             FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-        using FmhaPipeline =
-            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+        using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
 
         using FmhaEpilogue =
             ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<

From f10bc8055eda21812980fbb0f8c984228312ec18 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 01:59:13 +0000
Subject: [PATCH 739/837] more pipeline changes

---
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward.h    | 2 ++
 .../csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h | 2 ++
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward.h    | 2 ++
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h | 2 ++
 .../hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h       | 8 ++++----
 5 files changed, 12 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 9bb7785498..7d3d648f5c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -23,6 +23,7 @@ void run_batched_forward_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
+      if constexpr (MaxK <= 256) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
         batched_forward_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
@@ -31,6 +32,7 @@ void run_batched_forward_mask_bias_dropout_dispatch(
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
+      }
     } else
 #endif
       batched_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index ac9d5db2ca..7b1c75c024 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,6 +23,7 @@ void run_batched_infer_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
+    if constexpr (MaxK <= 256) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
         batched_infer_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
@@ -31,6 +32,7 @@ void run_batched_infer_mask_bias_dropout_dispatch(
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
+    }
     } else
 #endif
       batched_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index fc727bb101..09789a6dfa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -23,6 +23,7 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
+      if constexpr (MaxK <= 256) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
         grouped_forward_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
@@ -31,6 +32,7 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
+      }
     } else
 #endif
       grouped_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 70ce0ea0fe..9bf81f2a39 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -23,6 +23,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
+      if constexpr (MaxK <= 256) {
       FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
         grouped_infer_splitkv_mask_bias_dropout_dispatch<
             ScalarType,
@@ -31,6 +32,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
             MaxK,
             MaxSeqlenQ>::Run(param, stream);
       });
+      }
     } else
 #endif
       grouped_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 01f9e2d6f9..5db65eb342 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -80,8 +80,8 @@ struct grouped_infer_mask_bias_dropout_dispatch {
             using FmhaPipelineProblem =
                 FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+            using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+
 
             using FmhaEpilogue =
                 ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
@@ -126,8 +126,8 @@ struct grouped_infer_mask_bias_dropout_dispatch {
 
       using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-      using FmhaPipeline =
-          ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+      using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+
 
       using FmhaEpilogue =
           ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<

From 83cabd4deb5505521e1e9a3efdedcc707cda54c3 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 02:30:19 +0000
Subject: [PATCH 740/837] update submodule

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 58e7f37fc8..a7e63bfa62 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 58e7f37fc892c1e7aeca338f96ec694712e6e412
+Subproject commit a7e63bfa625163455327800f926eaf417b96b7d2

From 53d4e0edbfba81774d32afe0324e0496491e34e8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 02:31:22 +0000
Subject: [PATCH 741/837] update headdim switch

---
 xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 498e17f91d..1312fa397a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -72,6 +72,9 @@
     } else if (HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256) {                 \
       constexpr ck_tile::index_t CONST_NAME = 256;                     \
       __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 512 && HEAD_DIM2 <= 512) {                 \
+      constexpr ck_tile::index_t CONST_NAME = 512;                     \
+      __VA_ARGS__();                                                   \
     } else {                                                           \
       throw std::runtime_error("Head-dim sizes not supported!");       \
     }                                                                  \

From d0431e1ff7663fb7a85abba73a97097b8516cb29 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 18 Dec 2024 15:07:22 +0000
Subject: [PATCH 742/837] Update to the splitkv and splitkv-smallq selector

---
 .../ck_tiled_fmha_fwd_splitkv_selector.h      | 73 ++++---------------
 .../ck_tiled_fmha_fwd_splitkv_setting.h       | 21 ++++++
 ...k_tiled_fmha_fwd_splitkv_smallq_selector.h | 23 ++----
 ...ck_tiled_fmha_fwd_splitkv_smallq_setting.h | 18 +++++
 4 files changed, 62 insertions(+), 73 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 62db4db83d..daa281c28d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -40,83 +40,42 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   int mtile_size_for_splitkv_smallq = 16;
 
   // get mtile_size_for_splitkv
-  FMHA_FWD_SEQLEN_Q_SWITCH(max_seqlen_q, MaxSeqLenQ, [&] {
-    if (max_headdim <= 32) {
-      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<32, MaxSeqLenQ>();
-    } else if (max_headdim <= 64) {
-      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<64, MaxSeqLenQ>();
-    } else if (max_headdim <= 96) {
-      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<96, MaxSeqLenQ>();
-    } else if (max_headdim <= 128) {
-      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<128, MaxSeqLenQ>();
-    } else {
-      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<256, MaxSeqLenQ>();
-    };
-  });
+  mtile_size_for_splitkv =
+      get_mtile_size_for_splitkv(max_seqlen_q, max_headdim);
 
   // get mtile_size_for_splitkv_smallq
-  if (max_headdim <= 32) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
-  } else if (max_headdim <= 64) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
-  } else if (max_headdim <= 96) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
-  } else if (max_headdim <= 128) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
-  } else {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
-  };
+  mtile_size_for_splitkv_smallq =
+      get_mtile_size_for_splitkv_smallq(max_headdim);
 
   if (max_seqlen_q >= mtile_size_for_pipeline_default) {
     int batch_nhead_mblocks = num_batches * num_heads *
         ceildiv(max_seqlen_q, mtile_size_for_pipeline_default);
 
-    if (batch_nhead_mblocks >= 0.8 * num_SMs)
+    if (batch_nhead_mblocks >= 0.8f * num_SMs)
       return std::make_pair(false, 1);
   }
 
   bool use_splitkv = true;
 
   // m_tile size is the size for dividing the seqlen_q
-  int mtile_size;
+  // we first tries to use the normal splitkv kernel
+  int mtile_size = mtile_size_for_splitkv;
+  int batch_nhead_mblocks =
+      num_batches * num_heads * ceildiv(max_seqlen_q, mtile_size);
 
+  // resort to splitkv-smallq kernel for avoiding wasting of computation or for
+  // better CU occupancy
   if (max_seqlen_q <= mtile_size_for_splitkv_smallq)
     mtile_size = mtile_size_for_splitkv_smallq;
-  else
-    mtile_size = mtile_size_for_splitkv;
 
-  int batch_nhead_mblocks =
+  batch_nhead_mblocks =
       num_batches * num_heads * ceildiv(max_seqlen_q, mtile_size);
 
-  // If we have enough to almost fill the SMs, then just use 1 split
-  if (batch_nhead_mblocks >= num_SMs) {
+  // If we have enough workgroups to fill all the SMs, then just use 1 split
+  if (batch_nhead_mblocks >= 0.9f * num_SMs) {
     return std::make_pair(use_splitkv, 1);
   }
 
-  /*
-    max_splits = std::min({max_splits, num_SMs});
-
-    float max_efficiency = 0.f;
-    std::vector<float> efficiency;
-    efficiency.reserve(max_splits);
-
-    for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
-      float n_blocks = float(batch_nhead_mblocks * num_splits) / num_SMs;
-      float eff = n_blocks / std::ceil(n_blocks);
-
-      if (eff > max_efficiency) {
-        max_efficiency = eff;
-      }
-      efficiency.push_back(eff);
-    }
-    for (int num_splits = 1; num_splits <= max_splits; num_splits++) {
-      if (efficiency[num_splits - 1] >= 0.85 * max_efficiency) {
-        return std::make_pair(use_splitkv, num_splits);
-      }
-    }
-    return std::make_pair(use_splitkv, 1);
-  */
-
   max_splits = std::min({max_splits, num_SMs});
 
   int max_check = 1;
@@ -124,8 +83,8 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   while (generate_splits_list(max_check) <= max_splits)
     max_check++;
 
-  int num_splits = 1;
-  for (int i = 1; i < max_check; i++) {
+  int num_splits = 2;
+  for (int i = 2; i < max_check; i++) {
     num_splits = generate_splits_list(i);
 
     if (batch_nhead_mblocks * num_splits >= num_SMs)
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h
index d503b8154e..82e0c2c403 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_setting.h
@@ -9,6 +9,7 @@
 #include <ck_tile/core.hpp>
 #include <ck_tile/ops/fmha.hpp>
 #include "ck_tiled_fmha_fwd_type_config.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <ck_tile::index_t MaxK, ck_tile::index_t MaxSeqLenQ = 0>
 struct FmhaFwdSplitKVBlockTile;
@@ -154,3 +155,23 @@ int fwd_splitkv_get_mtile_size() {
 
   return FmhaTileShape::kM0;
 };
+
+static int get_mtile_size_for_splitkv(int max_seqlen_q, int max_headdim) {
+  int mtile_size_for_splitkv = 64;
+
+  FMHA_FWD_SEQLEN_Q_SWITCH(max_seqlen_q, MaxSeqLenQ, [&] {
+    if (max_headdim <= 32) {
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<32, MaxSeqLenQ>();
+    } else if (max_headdim <= 64) {
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<64, MaxSeqLenQ>();
+    } else if (max_headdim <= 96) {
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<96, MaxSeqLenQ>();
+    } else if (max_headdim <= 128) {
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<128, MaxSeqLenQ>();
+    } else {
+      mtile_size_for_splitkv = fwd_splitkv_get_mtile_size<256, MaxSeqLenQ>();
+    };
+  });
+
+  return mtile_size_for_splitkv;
+}
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h
index da177b7ded..fec619fed3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_selector.h
@@ -6,26 +6,17 @@
  */
 #pragma once
 
+#include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
 
+/// This method determines whether to use normal or smallq splitkv kernel
 static bool use_splitkv_smallq(int max_seqlen_q, int max_headdim) {
-  int mtile_size_for_splitkv_smallq = 16;
-
-  // get mtile_size_for_splitkv_smallq
-  if (max_headdim <= 32) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
-  } else if (max_headdim <= 64) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
-  } else if (max_headdim <= 96) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
-  } else if (max_headdim <= 128) {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
-  } else {
-    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
-  };
+  int mtile_size_for_splitkv_smallq =
+      get_mtile_size_for_splitkv_smallq(max_headdim);
 
+  // resort to splitkv-smallq kernel for avoiding wasting of computation
   if (max_seqlen_q <= mtile_size_for_splitkv_smallq)
     return true;
-  else
-    return false;
+
+  return false;
 }
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
index 5600e80ed0..0688fa0dbb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_smallq_setting.h
@@ -117,3 +117,21 @@ int fwd_splitkv_smallq_get_mtile_size() {
 
   return FmhaTileShape::kM0;
 };
+
+static int get_mtile_size_for_splitkv_smallq(int max_headdim) {
+  int mtile_size_for_splitkv_smallq = 16;
+
+  if (max_headdim <= 32) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<32>();
+  } else if (max_headdim <= 64) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<64>();
+  } else if (max_headdim <= 96) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<96>();
+  } else if (max_headdim <= 128) {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<128>();
+  } else {
+    mtile_size_for_splitkv_smallq = fwd_splitkv_smallq_get_mtile_size<256>();
+  };
+
+  return mtile_size_for_splitkv_smallq;
+};

From 5644f9fcb780ab3fd65013006eb4003c034afe83 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 20:19:31 +0000
Subject: [PATCH 743/837] fix kernel not being called

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 23 ++++++++++------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 27 ++++++++++++-------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 23 ++++++++++------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 23 ++++++++++------
 4 files changed, 62 insertions(+), 34 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 7d3d648f5c..a5466aa0ae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -24,14 +24,21 @@ void run_batched_forward_mask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if constexpr (MaxK <= 256) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-        batched_forward_splitkv_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+          batched_forward_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      } else {
+        batched_forward_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
       }
     } else
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 7b1c75c024..da2eabc31e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,16 +23,23 @@ void run_batched_infer_mask_bias_dropout_dispatch(
   if constexpr (!kHasDropout) {
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
-    if constexpr (MaxK <= 256) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-        batched_infer_splitkv_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
-    }
+      if constexpr (MaxK <= 256) {
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+          batched_infer_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      } else {
+        batched_infer_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
+      }
     } else
 #endif
       batched_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 09789a6dfa..cccc56385e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -24,14 +24,21 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if constexpr (MaxK <= 256) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-        grouped_forward_splitkv_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+          grouped_forward_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      } else {
+        grouped_forward_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
       }
     } else
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 9bf81f2a39..969337965a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -24,14 +24,21 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
 #ifndef FMHA_FWD_SPLITKV_NOT_USED
     if (param.use_split_kv) {
       if constexpr (MaxK <= 256) {
-      FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-        grouped_infer_splitkv_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK,
-            MaxSeqlenQ>::Run(param, stream);
-      });
+        FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+          grouped_infer_splitkv_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK,
+              MaxSeqlenQ>::Run(param, stream);
+        });
+      } else {
+        grouped_infer_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK>::Run(param, stream);
       }
     } else
 #endif

From bb703b5283a3f09cda28228e271dfce3d9dac896 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 20:28:33 +0000
Subject: [PATCH 744/837] test head dimension 512 for ckF

---
 xformers/ops/fmha/ck.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index dda6f6e78e..8c96b91d2a 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -203,6 +203,7 @@ class FwOp(AttentionFwOpBase):
         96,
         128,  # 64x128 kernel
         256,  # 64x128 with accumulation in gmem
+        512,
     ]
 
     @classmethod

From 2ea82a951399c1bdef407221a81854d3de2ce159 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 22:11:46 +0000
Subject: [PATCH 745/837] re-run generate_instances.py to please clang-format

---
 xformers/csrc/attention/hip_fmha/generate_instances.py         | 3 ++-
 ...f16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...f16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_batched_backward_bf16_instances_ref.h       | 3 ++-
 ...bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...d_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...d_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...p16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...p16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_batched_backward_fp16_instances_ref.h       | 3 ++-
 ...fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...d_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...d_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...hed_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...hed_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...hed_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...atched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...tched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...atched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...atched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_batched_forward_bf16_instances_ref.h        | 3 ++-
 ...ched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...tched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...atched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...hed_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...hed_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...hed_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...atched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...tched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...atched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...atched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_batched_forward_fp16_instances_ref.h        | 3 ++-
 ...ched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...tched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...atched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...tched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...tched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...tched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...atched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h | 3 ++-
 ...atched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...atched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...atched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...a_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ..._batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...a_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...a_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...tched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...tched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...tched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...atched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h | 3 ++-
 ...atched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...atched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...atched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...a_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ..._batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...a_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...a_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...f16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...f16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_grouped_backward_bf16_instances_ref.h       | 3 ++-
 ...bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...d_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...d_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...rd_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...ard_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...p16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...p16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_grouped_backward_fp16_instances_ref.h       | 3 ++-
 ...fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ..._fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...d_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...rd_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...d_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp | 3 ++-
 ...d_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp | 3 ++-
 ...rd_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp | 3 ++-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp | 3 ++-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp | 3 ++-
 ...ard_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp | 3 ++-
 ...ped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...uped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...rouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...ouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...rouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...rouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_grouped_forward_bf16_instances_ref.h        | 3 ++-
 ...uped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...uped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...uped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...rouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...uped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...rouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...ouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...rouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...rouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../instances/fmha_grouped_forward_fp16_instances_ref.h        | 3 ++-
 ...uped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...uped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...uped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...rouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...rouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h | 3 ++-
 ...rouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...rouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...rouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...a_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ..._grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...a_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...a_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...ouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...ouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...ouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...rouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 .../hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h | 3 ++-
 ...rouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...rouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...rouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp | 3 ++-
 ...grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp | 3 ++-
 ...a_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp | 3 ++-
 ..._grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp | 3 ++-
 ...a_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp | 3 ++-
 ...a_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp | 3 ++-
 637 files changed, 1274 insertions(+), 637 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index baa15f0803..372b866b7b 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -18,7 +18,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `{file}`
+ * See the generator script
+ * `{file}`
  */
 """.format(file=os.path.relpath(os.path.realpath(__file__), start=Path(__file__).parents[4]))
 
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 873b3bd459..deedccf7fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 87f0f0ef4c..ac5fca62ed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 22d858453e..c752780d71 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 241361404a..160404b382 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 8cfa88b2e9..70a3e8c894 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 05e600f65b..7cc63083d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 142d8a1884..b53beb84b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 5997e6eb65..99ce1a2c6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 57549afec4..c72335f2ca 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index e0f62f5351..3a03f2e516 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 2e77015e20..30b2ad6338 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 3f64fdbbc5..d7548a1378 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index b31af42348..84f3066d31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 3eed3b533c..8fbe5fe5be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 5310ba1d11..d42de53daf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 8113aa57f4..fb9c77f840 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index e681704b99..128d68ccc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index bc4dd24eaa..47b6329e24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 970544c470..968a692d90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 37a7389532..f11a9c0044 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index e340209c3e..6baa061c50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index c37a80a10d..94058fe2f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 837e954506..5f37585118 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 71ce3f8a94..f81e6bc878 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 424161cc0b..23e1361baa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 8fab225f38..98077a70ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a153dc627c..ff974bba43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1a542613fd..0c90b1ed05 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f482787fa6..2f6730e757 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 668ffcfc92..fb15d26a2c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
index 183ec385b8..c1f1f8c872 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index d80ddb4086..dc03dda716 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index a4816243b6..6c420ff7af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 0e025afee9..35a263a012 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index d394e95026..b1617dc879 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index ed3293e5c5..5a00ced069 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 3cf05ae1d3..65c2ff3617 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 68a4938cf9..404b4a5536 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 863553bacd..0bcb409de6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 1a5e533e4c..9d4f69235b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index e205118b79..70f33a6274 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 1f75ed64af..6549d52b4e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 95127ccb29..4d5237993c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 638218c18a..e37d5c2e5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 2c72096d4f..22caa72a11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index f4f360b154..9114a2c359 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 75b7ba3b69..36c7ce8f78 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 85c0c7aeab..1e2ef1125b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 4fbaa4db12..3679b8cb84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 0bf357fbca..5330820d47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 44f1a0b2b1..34edd21a43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index ff2fb9c0be..c0028a2307 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index e1150e43b3..b843bec00b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 7deb116b35..388e2158cd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index b0763a965a..d506351108 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index cf48d6aa73..f7b20b098a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 98ea879319..a8eba26ed2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index a4ed17fe01..99cc8622d8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index ab544ae6d1..b4c2c9f031 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f55bb67a62..5c689eee81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index c2332dbaea..184be2aa70 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index ae94cbfe81..b9ea123ace 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index b5b2d40d75..48a7a26bae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 1d926908c7..0973b02700 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 92a84023e1..d231a533e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index ead3e2d0d1..f248539133 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 3cd2eaee3a..625af0ff3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index a86bf7bbc4..8e9f67a09b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index c1281e4072..8a4d19bd91 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 57d625ee3d..863fd62ae4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 0d31b949b7..09e60aa441 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index f0a8f0664a..6338140176 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 2c45582c2b..5e08fc0b6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 452c0bfb6c..dd91cd7ad2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 10ee6184db..8c26c66ea6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index bef8573c89..f6a7bc9ec2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a9ae68d3a2..3d2a07bf07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 6824f8e7a8..f918c4f3e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index e026750e89..a8304bd504 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 965b085e80..ed346c346c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 3d0dabbdeb..90b36d8661 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d1f07388dd..3381e5e06e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 0a6ed85fb0..c6ddacb818 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 3f448e7f4e..0cd13c3b43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 6119b15455..4a08919efc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index d0636c0867..0a051ea374 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index c2dc935021..98f7492633 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index e9d9532b08..93479691e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1f2e8027eb..e30446aa70 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 497928da88..3e4dab172c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 67651a9af5..b1d6b0e716 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
index 8681f90663..b7395d5b2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index d203fda67b..7a99081396 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 788e48ce16..f059e6e532 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 12e04d03a5..9eec13fe6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index 4dd341b9c9..a32fb482a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index ac626c3c20..8bc6fa542f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index ea797a436f..575e48d0ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 73959c90ff..013c62a92d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index cee24ddff7..e539aa9fd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 6f7f62fea3..ae79c2c1da 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 4f03662848..3546c27451 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 29efa7e3cf..27cc051cde 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 9968e54d7e..773cc3f879 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index bd7e65c172..010a08c8c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index b2083c4df9..79eeda92ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 9aefb8b4d8..5605658204 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 088ff604db..d5177b1b6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index f6d968b002..4549561f19 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 34c3e569d5..8ffd8e0799 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 3ff030e63e..fd391f1cd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 6cde3305c0..f2cd0e5bc1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index b10b100acc..f86da48991 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index e4620d4f22..776c854d38 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index f0ca1f0798..76a4d73089 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index a4d4898eb1..79fb4d3703 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index be7139761f..0d2b5cb5ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 8de0a17a71..30fa8733a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 00620cb949..b041793ca4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 9ef7481d27..65ac20faf5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 81445f255d..895adc6d34 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index ca477f50bd..0f28d75a29 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index aa2dd08929..d36c57904b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 955b6d5246..d7d4220810 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index ecae936932..803d5bb55c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 6f30f6640d..e31e2705fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 4acdc005e9..bec8dbc157 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 1d06879d31..e3b77d2193 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 2b6646d14c..696465c315 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 858b5dd1f6..186055abd9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 47b8d7914d..1dd92aa01a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index cda0809a3c..dd827217a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 5c825eadae..6bc1c864f5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 8fe16b3745..bc5d468bbe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index f2b86b1f37..bbc7b1bfcd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 9695c8d68a..e5ba1fe1c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index af521575ce..200a04b29f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 89166e4ce9..cb87478f39 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index e80ee1db7a..64f42ef1ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 06178e68f2..630572b7d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index eb13ece12b..0177223369 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index e62de2cefb..ea75fddc5f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 8e308ebe0a..e5d56077ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 7d4411b4d7..7101d19874 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 5762394222..5d4d629c08 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 33cbc7f73f..89af8cf6d9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
index cedc9845da..93883a3645 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index cff2bf6c8c..e67f241229 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index be03a1e054..062d8071db 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 0085a9ed31..918539dfd2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 12b67727a4..4a216ec666 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index c177389759..7bb04afaed 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 3db175d8ea..59a5ac46ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index e0566e6496..91192edda6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 56241be25c..feb34557d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 7526ae0ac2..269c8fe30b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 98d3940da9..dd22cd4a31 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index cf08eaabea..cbd7cc0f6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 428a0331e5..3aa2725e7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 83576e161e..7a06bc2768 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index fefca349fa..ac4bb9b800 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 46beeee8dd..6cc6dc5553 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index aeba646258..d99f24ab2d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 5b5b75ef3b..bdb278b191 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 8c6bdddb33..ed5057e5b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 56b634e580..1c5ffe761d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 900f6015ba..4b1c355d4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 685f8b81a5..04910aec94 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index c29447a7d9..7ee48e7340 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 16f0649c98..3baf32c407 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index befff2b3ad..639a7532d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 7f0c4416c0..cdd463cbbd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 25573a2719..49ada07bb2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 62f6dc966b..26c877b926 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 19df831ed9..817012a844 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 83bea31ec4..585e647ee2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 482e8082ed..6d1ca56400 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 788d1bd59e..a420333adb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index e968d98938..086ed371f6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 32c9de6b92..404c16a9d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index b7da351f0b..a483e13d25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index db9439c7ba..89921f9714 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 80f370578f..ab84bb40d0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index e597d76342..24d6519b5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 2b2e643b82..534ea475f2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 8a3731fce1..a80a833606 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 3541de856d..ce9d9d6b0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 723cb474a5..16984afd64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 71f5aabd59..52e3d8d158 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index b70c486a19..1958d334e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 8063a843d1..597f78ec65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 08b0ae0292..e4b09d8ea2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 2e41d6a4af..84adfadc80 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 9aa804ab68..622f3944e6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index b5c1ecee7c..1a16b67db1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
index b03cfa8337..0e5c6d7736 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index ab1536fc85..3673aa644c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index d62053cf38..2988bdc9d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index b2ecdd58ea..7de593d4ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 457e171aa5..260efb2ca7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 8b2c4ea574..a5400cf5d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 4d0428c388..4c93dff9e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 9629569894..ec6d0d009a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 3b4e7c75db..c036a338e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 131cb20a24..c0344fad67 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 9d828ee7dd..eb71d020fa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 74ea4ca2cb..966b6acf83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index aa505dcd03..ea19e327a1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index c4515502c0..ef72522307 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 17ec5b9089..92efd034e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 852ece6adb..2e8b290184 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 095542f967..daa4184524 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index da43b677be..d56676df6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 174399c4e4..8bc1cdce75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 2bb6c1455c..905eb9ca5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 42514522ae..59c7f92776 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 18feb4b39a..85d40a2c25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 2e3f6352c5..7ddbcad6d1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index c74d20b050..189c6e1c55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index d4a9a2d3e6..85c28e18f4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index bb51cda2e7..869ca5cf2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 3371f964e2..6955d189d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index c8631ad518..4cb13e88b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index b1a7d6ccf1..3d2a48f3f8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 205f2ef00f..1639eff023 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 999ee25185..24122b2c10 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index b3b9343020..97f133da18 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 533442720d..8ba2b51f62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index a4785bc128..f7289a2f6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 359a86a574..61b303a668 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 2286be5b0d..0333a592b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index b7a694ff0f..1346c8f611 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 4a4ab01eff..88781ead96 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 478d07550b..9cf29b566a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 0985451144..489f72e614 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index d96084f19a..fe0cee2c7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 5c40799bc1..5260a0eb46 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index c0715bf4ed..bc2edad6ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 6ac9c62a8f..596447317f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 26946aac77..3c676a5af8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 5cdb71e79f..1765ce00a3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 50b3942470..c37303ad16 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index ea82e44be0..dcdc20df76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 48c0c14580..7558821e06 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
index 34a71aac07..bee199f470 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 634d702970..db6d18ab9c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 62c399d71a..2c197f0b0c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 378eb9658d..ed0cae5fb4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 637888e1f5..a5837d2a98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 6fb53dc347..9124fa99d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 7b4407bb4a..df0b8ea20e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index ba46dbb73b..ee1277e7c3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 912e4d4959..7339b662ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 64321f86fa..7c356ea638 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 284ee43bc3..c1efa3617f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index efcebe72e5..34e7ddce7a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index a171aaf17b..07f6aaadbc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 72c5c70bd3..11ca22c8a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index ca8d1cff32..6d20fb5d5c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 34677f5b86..bbfb06dbb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 6f55e3f4f5..7c67a7010d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index d3d2826370..3554cf6543 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 8ca8f3264d..6b618c8541 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index b4bda816ac..5dd0105bc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 5b7881afb9..cbd96d97ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index f944f215b6..5125eb7cf8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 47ded0cbd9..b8db9a264f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index eed12b7205..034d75e663 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 852439b5b4..3552f6547b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index a6c486ca7c..c682a64e4e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 8679b99fa6..940cb764d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 3d8a649926..07d6dae14d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index a2949339b9..c1bd53c4d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 6b9a063ad7..53fc9026c1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 2a5f3a7a8e..2487a2c3fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 624f85234b..7f501bc70f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index fcb2e94da7..5ee8ded1d2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 0b37c17a77..61342d8ec3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index e6d4420982..0f7cb86bb1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 395ac53f92..1a8e1eff41 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index c6a9d62122..8041cd4fc3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 77b52101f3..eaa25797bc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 3331ad3cc4..c31ed24a1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index f4df69337f..f5356e83c1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 9a9ee31637..e1ae25703d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 0da067d9de..6a6d5640ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index cff70dab3e..488888e08a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 17f09da53a..0bf9fd1c17 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 2b89ca66fb..543a86611c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index cf68aa3197..c0021eccc6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 23a37c5c5c..90e02550a4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 10599c00a6..9fbaed81c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 3ae7c03280..0456cb5fd5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
index d2b41f23e9..6dee01829b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index f514619b7d..b611c3f8df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 57df677343..7e80d24a97 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index d7b69df6fa..dbd5885646 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index b9fccf19be..52fd6090b1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 6989bf58b2..3a945108ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 68a8a6c6d8..0e96cddec4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index d0d412be65..8bb37690f7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 1446763b59..12b6e1b046 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index b9ea2ec169..46fe0af3e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 6adf2a3690..24d7a9fe1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 78cd7e2691..54ad9ef4e8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 7c727ff3db..9905f219c6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 6ebc07c1fa..7fa7f35e88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 3cdb577ab1..c7755e8938 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index d7eb64604f..e7813a3912 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index f01cd84e98..78187d962b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index e652b0458b..4d4b716e83 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index fabef3c7b4..8eb76218e0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 614e4128af..8b33546d49 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 2437bc1fae..eeec380b37 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 37e10938b2..422ed9f8ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 07df87fdbf..cf08ef4f6d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index f429713b9b..3f8b3e1c40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 07e32a08d8..c36b3ead50 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_batched_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 49bc7b0f9f..f0858d6834 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 06e85331e8..b76cca7c95 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 34942eb2eb..ca389eea0b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index d88c3c9e91..ee9a2be337 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 1153d3cb06..81073d727c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index 3c6cb92eb5..60ff8fb6ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 80ff331904..e4fb906623 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index ad9bdc1cc3..71f2ce2c81 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 10717fa771..49d680d3ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index a8a675d6ff..7dba5c2441 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 931c0580d0..b03f3e338c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 0b837a4108..39948d5156 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 786becbff8..40a58aee22 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 28cbcc8f07..b846b688ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 81ac736f63..3cb774e517 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 74f9941122..04661c0b0c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index f3e4faf631..3937433027 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index a319a107b3..4993e17ff6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 79cb5392a5..df319f8381 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 033cea5bbd..8415d88583 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 6cdd814c1a..5522f7b861 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 6515a00732..15471e801c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index b6dba654e3..f280b137b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index d4f3a55133..0b9f321d66 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 93c61210e6..4f1c6e934f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index a66913264c..04ab490179 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 8d01baf0f9..8a4f00d52b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index eda177fbe5..ab5fabb07d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index f30883c993..a5b5eff92e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 5fa5a5f544..1aa78190fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
index 6ea0236acc..3e336087fc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index e5f5d4ace5..ba826a4b9a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 36c10c251b..bd11debaab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 07dafd714c..9ddb424d02 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index a167fe84c2..c1a7db4b9e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index 9351b58f12..d858b691d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index e4da6690e2..b2bfdef979 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 479e86d2c4..b53485b285 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 9ae5d6e950..6481044da2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 95c5a7aed4..2c8419f57b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index dc746c2cf7..c25f0981f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index d400b00815..f61a2b16d5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 841ce79c62..2f3a6019bf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 7b86f6df55..196f90be11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 61e6ec7529..fcc64bd3b5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index d7f584d9cd..b7290994c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 16b30618d6..bc00f54c84 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 43061ae749..9855baf5c0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 7502898025..7422d69252 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 340efca2db..a6db954636 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index e56eb6cc27..d08d076637 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index e911dec7b1..a4bc3e8c87 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 65f3103a03..d2c2a4d11d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 2c2ca900de..77c8981856 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 7510e2d8c9..3b4d1346e5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index a5a2e16576..b80c077ec9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 4e7b7c5aed..f3d57bf68a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index da66e4287f..7ed2852eb3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 666d2e2357..73fbe3b5d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index feaf6c9415..f824550b7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index e6c02525fc..bb34d3add9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_bf16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 5aef8d566b..20b7d16d32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 0315aa2f58..960a73e503 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 4ad142afc1..b1e63b0b6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index fe9134c8e4..b6d6f8881f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index c47f66381f..0abc11a1df 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index e8b04ff9ee..9522e37a6f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 89158313b0..8f7ad5789e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 7a1453ed49..0ee5896212 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 75952c1803..6b99fa89dd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index 0b08b3e0ab..967ab8b27f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index b5a62c7ee9..e8859d4b28 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 9938ce181d..4963659a65 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index c1012ee160..73eb2c1e3f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 24b6dc74cd..bf14541ac5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 644a8cacb3..945e717314 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index bbcd192445..184fbcdb3c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index bad6fbfee2..9b4b4cd36e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 5a3503e055..6a932dff32 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 93055cdf53..1cf08095b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 87d23ce83b..6661f6323a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 348cd98d01..1d3a8793ce 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 862bee85c9..f43e9e2f88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index e096d37bf7..e5c2576e12 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 211f3199c8..4926711f59 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 05b3dabb33..2f23cd8f5e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index e25b85299c..f7f1e95177 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index d1822ed1c6..425dace404 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 1a50e7a0c3..995ff3c048 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index da672ad8d5..0daacd7e0a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 0fbc89c2fd..6c600d0b8b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_has_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
index c1d77d6e83..d3ec26812a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
index 5f17a53e71..417f3e06f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
index 83840d2128..40f3f97c24 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
index 5a79d596b3..64418045ae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
index de20e247d6..0459074656 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
index cb9002dcb9..c1b33f7cdf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
index eed941acce..a66e90fc55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
index 2bd5843010..edc4f875af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
index 8d8f84d307..0739f859c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
index 2f1e469b03..3f59a2c3a0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
index fe2b58285c..245ce567c2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_has_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
index ab15fcd0a4..d7e0383232 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 7173231fc3..a330c69ff9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
index aafedddfbd..153cac73b8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
index 1711647450..d358169c7e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 4f25f529f2..3a9982511b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 748e89ed4c..75fba8fe0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 906110d403..a0435f7d0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
index f2a08882d3..2a680f091b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 12b34da949..26768fc1ab 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
index 55c6c39bdb..1551b2b71b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_has_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
index 80eee80879..82c4d31a43 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
index 255c9900ac..b538e40663 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
index 5eaaa7970f..ad925135c4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
index fd8bd84f51..900c8841e4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
index 339b0f07fb..971c6d6f40 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
index 905b966186..cafbf71198 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
index 01ffff53d6..277e798a01 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
index 9d59541d16..549b64c28c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
index 57b475750c..3f900efed8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
index c701a8d35e..dff6a8b8bb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_backward_fp16_no_mask_no_bias_no_biasgrad_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index b566753661..fa34129e88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index dbb229db5c..0d7ada33ba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 802086203f..29c89bbacd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 46f8023102..bb6e4df67e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 35de20af1e..77a3d0b1aa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index cfd3e72bf5..87f8a6a92a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index ec2533f9bf..be2fcf8972 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 5761fca587..bc5f99bce7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index b93bca6afa..00fcfedc67 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 154406ae5a..c54dadf223 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 218584a5a1..825d31e3e2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index a311ecbc0b..a9f4416a55 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 373533c010..54768e673e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index a113de58f1..91eacaad3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index a74423a7c6..2a6cd0f5c7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 87cb969668..db6e0cc93c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index b7fd0215f9..d882d2c1ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index e073d67d63..7029f0e39f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 795a231236..627a6bba11 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index d72512b12e..2338f7c70c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index c863204fe8..dfdf5ed326 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 1d16e88368..5ec50eaf88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 96906bfee2..d37827666e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index d4c160aec7..ef9293d352 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
index 48e77bcb58..eeced2b284 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index de01431fcc..fc5a832055 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 535b3eb100..3ecb974cf1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index f862748668..3d4c373d0c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 7384b98d51..b78db8c558 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 712075792d..57de1acbae 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 769adb5359..fcfca04262 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index cd7a4d8d0f..7bce3adb1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 031f23949e..be593023d4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index a92756b280..6c56ccb31e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 09c04f1f33..6622bdaec4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 727d33da3d..b43a7a0465 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index b04df448f6..db14720016 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index cccf7236e1..0dd97ddb8d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index f71e3cd59e..1c3532ca6e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index bc7d91699f..a0287fbb9f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 01e884a5b6..5b8a117bdb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 386fffcc9f..a956f98236 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index cd7863dc2b..53ed01fae6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 63c800ba79..b445e84fd1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 323d91d862..4895d01d0f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index ea0c49a455..1200f8fdb9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 84445c06ce..e4ac09e718 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 410dec8b11..c52d5aa6ea 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 058019532d..dec369fdde 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index 860709d923..da8fb43ece 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index b5f6d5d90c..9a1136081a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 71268f2d84..d0496f8e6b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index e2e56fc9d6..62e7d3ea2f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index bdf47a9e1b..8a8c5f07b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 28f6a92948..2216dbc921 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index cf204b7720..829f982744 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 77149e0e09..4de96e1cff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 3389aa0fbc..2acae5143f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index dfe20e5c52..d3e92fc835 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 6da657b158..73518c2ad0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index f952ea37ae..d26a148db3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 1b6cec5afa..ce8be64e98 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index fc7926e921..1f27466398 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index f736d84552..30cd42e3e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index b051da8998..ddef229388 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 8c0564d9b8..4d7dfc6aaa 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 04f7d13671..35159d0bb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index fb6d35ea32..bec1d5415c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 38e509499d..6071d6b43f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 46182901e8..e9c87a19e7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 8889264163..23443d0871 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index d90a6fe368..c0322eaac6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index dff25908bc..5d102fcda6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
index 31f54101b7..561b385ca6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 43af5ff2c6..4e429edc3d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 0c3a7988f9..fa5cdd8fd7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 47f1796d8e..ca3ce199a8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index 5114af7084..dd4161c783 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index 2e7661f188..4a460ff479 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index c7975cda7e..1d8707f9b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index a409a575f9..a5a825ba0e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 8c130c6858..92c202962b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 913daf1a3a..f062b35d88 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index bdc97a4f3c..a441b7dda0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 3a93841a3a..07bd49f225 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 3f191a6ae9..da99265cc2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index db666ca0be..1e526137b0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 8fc9edf432..058717a41c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index ce10f5036d..2ae97dbeaf 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index ee4fbb62ae..7b185aacf2 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index e8a72c46c4..01b4d9d6de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index b509b4818b..af851eb90d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 5a92606d40..911bb57f23 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index efe9a54feb..9458012051 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 032ebe90cb..0a630cfd54 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 343595a09c..7cd0e9d6f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index 4143c7a3c5..b252bddcba 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 3e97fae2ba..0ca10974fb 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_forward_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
index d48028de57..f22a52e5ff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
index dacc1b445f..b5714d2e75 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
index 35b8b72a50..5892be2944 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 212dc494b0..000a5a0981 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 36cc5ca3a5..b8a53e83de 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
index 1e5636eef1..69b7db7106 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 4c24895929..c00bb8bf13 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
index fcb13fa2f7..52d87e03be 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 63d1f52a31..ee516d1e7d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
index 6e186d5f2b..7db13a38c8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 770d85d750..e479845422 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
index cf3592842b..945d259a6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
index 74eb5732e6..2c9fda9bb0 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 1a484de07f..0c6ec53e6a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 87c59db1c8..6e8bbf96e9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
index e7d642fd14..b61f5a6f89 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 25bc91ca31..a56da016c9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 3e3a243914..80d4f80be9 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 3ca29a95a4..ddb0f10b1c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
index 215d161bf5..6377fd5347 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
index 1c59689d2c..7083541875 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
index bc13ed3ddd..9d5ad0d4f1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
index 5208e85237..92976d2e7f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
index 9e8337e618..cebccc9ca5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
index e63b1debb6..0a4eec170d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
index fb5483cada..d7e99ee8e1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 1ec6a87237..38856c8573 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
index f899cfd9b3..0adce36610 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
index d42041c475..e653081050 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
index da9ff0f532..67d0e364f3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 1dfe9e158d..6c5c178c1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 658f8e25a8..e46a9b9c62 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
index e654f789e7..3f634b4698 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 6851a568f5..44d02d78b6 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 052190fa7f..23499fa191 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
index b4ad49c80e..1ffb92523c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 529c207178..453b550fec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
index c61eb2addd..42d7ec40b7 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 814c4f7e09..788f5ca688 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 020f017f17..6cdcb6660c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
index 1f7e661dd9..9bc461de90 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 0bfd012292..9ad85ea237 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
index 39345f3526..bdb7be54c5 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 3880d39523..ca2a94b4ad 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 4141933cc5..f632fa38ef 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
index c8f4e44948..61ef4515cc 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 20d6858fc7..d118cc6e9d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
index bc6626abea..e69e981428 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
index ff560eab71..97e95e2f4f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_bf16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/bfloat16.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
index ae087a287c..84df8eec07 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
index 83d0a62825..64a3a61152 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
index cc64a078af..69a97345ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
index 42b3c599e1..1c00d0c092 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
index 8a4b259af8..99fa9115b3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
index f6a3db297a..56c6733a30 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
index 2743dac2f5..62a2d9d46d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
index 4af84bf3e8..c1344d525e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
index 5f0ba6c091..b352cfcc1d 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
index ccabd0b441..70684674fe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
index 9af0435c36..d1e56628ec 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
index 20f09a3a3a..4c46a4d274 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
index f122c216a5..740f359784 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
index 4935042b9d..9ed553b85f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
index 661db14370..5fce53c665 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
index 5442bfa631..61bef88c4a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
index 231d6142a3..081cede055 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
index 22d32de607..f1f99083fd 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
index 3415a6c97d..97e34494ee 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
index b541fd31a5..efd0e8a7af 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
index e9755e7d76..2527da3e2e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
index 69450161f8..6db0bc6663 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
index dc7eae17f9..c01b8f3733 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
index ce5cdd447c..1b581efa76 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_has_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
index 74b670ab31..8e19ba6aa1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_instances_ref.h
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
index 2d66300c06..d64e64affe 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
index 6b4ad69c14..41173ee32f 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
index 77f6ceb087..669822ed25 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
index ac0c23f85f..95639331b4 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
index a369f36eab..6ea26c5136 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
index 734a62cb6d..03c78c3547 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
index 997730efc7..29a25c2590 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
index 99d939333c..b01e1b8b21 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
index 26a46588d2..87d2b6480c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
index 8861cfd02c..7237f2b476 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
index 6220dd75fc..5886d5ef64 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
index 54426ceb84..8899702665 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_has_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
index 9a3d9eb619..fcd01f9a47 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
index 6c5658ae13..fc1f2c479c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
index 86300b24d8..608acb2e2b 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
index f18f85313a..ed59b858e1 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
index 7e35d0a755..4521d8efff 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
index c3e9f465c1..ca2423cb69 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_has_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
index 5ef048961a..825f8b4f7c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_128.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
index 05d8693237..24dfdb4c1a 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_256.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
index 5772d9eaa2..c6d974745e 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_32.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
index 070ee17ae6..87ece0b3d3 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_512.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
index f5830ec525..ec4ce83cd8 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_64.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>
diff --git a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
index 4407bf1798..f390e8974c 100644
--- a/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
+++ b/xformers/csrc/attention/hip_fmha/instances/fmha_grouped_infer_fp16_no_mask_no_bias_no_dropout_maxk_96.cpp
@@ -6,7 +6,8 @@
  * LICENSE file in the root directory of this source tree.
  *
  * The file is automatically generated, don't modify!
- * See the generator script `xformers/csrc/attention/hip_fmha/generate_instances.py`
+ * See the generator script
+ * `xformers/csrc/attention/hip_fmha/generate_instances.py`
  */
 
 #include <ck_tile/core/numeric/half.hpp>

From 82ba7469995b2a6c7d7ccdb9c6541a82c916500f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 22:14:18 +0000
Subject: [PATCH 746/837] run clang-format

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 10 +--
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 10 +--
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 78 ++++++++++---------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 10 +--
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 10 +--
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 12 ++-
 6 files changed, 70 insertions(+), 60 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index a5466aa0ae..3d59b1f97e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -34,11 +34,11 @@ void run_batched_forward_mask_bias_dropout_dispatch(
         });
       } else {
         batched_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK>::Run(param, stream);
       }
     } else
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index da2eabc31e..6187ce3cd5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -34,11 +34,11 @@ void run_batched_infer_mask_bias_dropout_dispatch(
         });
       } else {
         batched_infer_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK>::Run(param, stream);
       }
     } else
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index e851f57729..facfbd51b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -70,42 +70,45 @@ struct batched_infer_mask_bias_dropout_dispatch {
 
     if (!use_async_pipeline) {
       BOOL_SWITCH_3(
-        pad_seqlen_q,
-        kPadSeqLenQ,
-        pad_seqlen_k,
-        kPadSeqLenK,
-        pad_headdim,
-        kPadHeadDim,
-        [&] {
-        using FmhaTraits = ck_tile::TileFmhaTraits<
-            kPadSeqLenQ,
-            kPadSeqLenK,
-            kPadHeadDim, // kPadHeadDimQ,
-            kPadHeadDim, // kPadHeadDimV,
-            kBiasEnum,
-            false, // kHasBiasGrad place-holder
-            false, // kStoreLSE
-            kHasDropout,
-            false, // kDoFp8StaticQuant place-holder
-            occupancy>;
-
-        using FmhaPipelineProblem =
-            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-        using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
-        using FmhaEpilogue =
-            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+          pad_seqlen_q,
+          kPadSeqLenQ,
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim,
+          kPadHeadDim,
+          [&] {
+            using FmhaTraits = ck_tile::TileFmhaTraits<
                 kPadSeqLenQ,
-                kPadHeadDim>>;
-
-        using FmhaKernel = ck_tile::
-            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-        RunWithKernel<FmhaKernel>(param, stream);
-        });
+                kPadSeqLenK,
+                kPadHeadDim, // kPadHeadDimQ,
+                kPadHeadDim, // kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaPipeline = std::conditional_t<
+                MaxK <= 256,
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>,
+                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDim>>;
+
+            using FmhaKernel = ck_tile::
+                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          });
     } else {
       BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
         using FmhaTraits = ck_tile::TileFmhaTraits<
@@ -123,7 +126,10 @@ struct batched_infer_mask_bias_dropout_dispatch {
         using FmhaPipelineProblem =
             FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-        using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+        using FmhaPipeline = std::conditional_t<
+            MaxK <= 256,
+            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
+            ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
 
         using FmhaEpilogue =
             ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index cccc56385e..0e0c090ca1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -34,11 +34,11 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
         });
       } else {
         grouped_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK>::Run(param, stream);
       }
     } else
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 969337965a..ce11121e9b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -34,11 +34,11 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
         });
       } else {
         grouped_infer_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK>::Run(param, stream);
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK>::Run(param, stream);
       }
     } else
 #endif
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 5db65eb342..350f3b1e8b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -80,8 +80,10 @@ struct grouped_infer_mask_bias_dropout_dispatch {
             using FmhaPipelineProblem =
                 FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-            using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
+            using FmhaPipeline = std::conditional_t<
+                MaxK <= 256,
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>,
+                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
 
             using FmhaEpilogue =
                 ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
@@ -126,8 +128,10 @@ struct grouped_infer_mask_bias_dropout_dispatch {
 
       using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-      using FmhaPipeline = std::conditional_t<MaxK <= 256, ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>, ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
+      using FmhaPipeline = std::conditional_t<
+          MaxK <= 256,
+          ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
+          ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
 
       using FmhaEpilogue =
           ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<

From 70d767df55a6e9fb04a39e1e65c2ee61bc3f3e20 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 18 Dec 2024 22:16:34 +0000
Subject: [PATCH 747/837] run black

---
 xformers/csrc/attention/hip_fmha/generate_instances.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 372b866b7b..da94b0550e 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -21,7 +21,9 @@
  * See the generator script
  * `{file}`
  */
-""".format(file=os.path.relpath(os.path.realpath(__file__), start=Path(__file__).parents[4]))
+""".format(
+    file=os.path.relpath(os.path.realpath(__file__), start=Path(__file__).parents[4])
+)
 
 FMHA_INFER_INSTANCE_TEMPLATE_INC = """
 #include <ck_tile/core/numeric/{dtype_file}.hpp>
@@ -105,9 +107,7 @@
     False: "no_dropout",
 }
 
-INT_MAP_MAX_K = {
-    hd: f"maxk_{hd}" for hd in [32, 64, 96, 128, 256, 512]
-}
+INT_MAP_MAX_K = {hd: f"maxk_{hd}" for hd in [32, 64, 96, 128, 256, 512]}
 
 TYPE_CTYPE_MAP = {
     "fp16": "ck_tile::fp16_t",

From 6605ddbb403d51917a901f93542d60528c5b363c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 18 Dec 2024 16:12:03 +0000
Subject: [PATCH 748/837] Add ck in
 tests/test_mem_eff_attention.py::test_backward_gqa

---
 tests/test_mem_eff_attention.py | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 05dc678cb4..26b446d969 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -2000,7 +2000,7 @@ def test_forward_gqa(opFW_biasT, Mq: int):
     "opBW",
     [
         fmha.flash.BwOp,
-        fmha.cutlass.BwOp,
+        fmha.ck.BwOp if torch.version.hip else fmha.cutlass.BwOp,
     ],
 )
 def test_backward_gqa(opBW):
@@ -2012,7 +2012,7 @@ def test_backward_gqa(opBW):
         attn_bias_requires_grad=False,
         fmt="BMHK",
     )
-    op = (fmha.cutlass.FwOp, opBW)
+    op = (fmha.ck.FwOp if torch.version.hip else fmha.cutlass.FwOp, opBW)
     key = key[:, :, :1].expand(-1, -1, H, -1)
     value = value[:, :, :1].expand(-1, -1, H, -1)
     key.requires_grad_(True)
@@ -2469,6 +2469,7 @@ def test_paged_attention(
         B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy
     )
 
+
 @cuda_only
 @pytest.mark.parametrize("B", [1, 5, 128])
 @pytest.mark.parametrize("MAX_T", [64, 128, 2048, 4096, 8192])
@@ -2477,7 +2478,10 @@ def test_paged_attention(
 def test_paged_attention_ck(B, MAX_T: int, page_size: int, gappy: bool):
     op = fmha.ck.FwOp
     num_quant_groups = 0
-    paged_attention_run_inner(B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy)
+    paged_attention_run_inner(
+        B, MAX_T, num_quant_groups, page_size, op, bench=False, gappy=gappy
+    )
+
 
 @sm80_or_better_only
 @disable_on_rocm

From c1ab8e5487efae2b73f968b8308efbf023f75441 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Dec 2024 06:50:23 +0000
Subject: [PATCH 749/837] Re-position to latest develop branch and rename the
 SplitkvSmallq pipeline

---
 .gitmodules                                                   | 2 +-
 third_party/composable_kernel_tiled                           | 2 +-
 .../ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h   | 4 ++--
 .../ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h     | 4 ++--
 .../ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h   | 4 ++--
 .../ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h     | 4 ++--
 6 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 8e92313d31..176104791f 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = feature/add-small-warp-gemm
+	branch = develop
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 9e1bb30103..37cdbf4f0e 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 9e1bb30103057173a15b5e899280db8f932d157e
+Subproject commit 37cdbf4f0ec88ba5064f46c3370633b5950bc7ae
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
index ef0a227fc5..2fe35081da 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -111,7 +111,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaEpilogue =
@@ -136,7 +136,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaEpilogue =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
index d6be81d8e9..f4144271b5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -111,7 +111,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaEpilogue =
@@ -149,7 +149,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaEpilogue =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
index d6a9a48579..a3c9e40ed2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
@@ -99,7 +99,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaFwdPipeline_ =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaFwdEpilogue_ =
@@ -124,7 +124,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaFwdPipeline_ =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaFwdEpilogue_ =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
index 7a7dd95d7b..a4ac680132 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -107,7 +107,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaEpilogue =
@@ -145,7 +145,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                   ODataType>;
 
               using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVSmallQPipelineQRKSVS<
+                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
                       FmhaPipelineProblem>;
 
               using FmhaEpilogue =

From 73d06c1139f3412841cf39c2a0cc6191b7f84862 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Dec 2024 13:47:14 +0000
Subject: [PATCH 750/837] Replace the reshape() by flatten/unflatten in ck.py

---
 xformers/ops/fmha/ck.py | 15 +++++++--------
 1 file changed, 7 insertions(+), 8 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 4eab6aef46..d67556b160 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -218,22 +218,21 @@ def apply(
         assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
         ctx: Optional[Context] = None
 
-        [B, q_len, G, Hq, K] = inp.query.shape
-        [_, kv_len, _, Hkv, Kv] = inp.key.shape
+        [_, _, G, Hq, _] = inp.query.shape
         attn_bias_replace = inp.attn_bias
         if isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim != 0:
-            attn_bias_replace = torch.reshape(inp.attn_bias, (B, G * Hq, M, N))
+            attn_bias_replace = inp.attn_bias.flatten(1, 2)
         inp = replace(
             inp,
-            query=torch.reshape(inp.query, (B, q_len, G * Hq, K)),
-            key=torch.reshape(inp.key, (B, kv_len, G * Hkv, K)),
-            value=torch.reshape(inp.value, (B, kv_len, G * Hkv, Kv)),
+            query=inp.query.flatten(2, 3),
+            key=inp.key.flatten(2, 3),
+            value=inp.value.flatten(2, 3),
             attn_bias=attn_bias_replace,
         )
         out, ctx = cls.apply_bmhk(inp, needs_gradient=needs_gradient)
-        out = torch.reshape(out, (B, q_len, G, Hq, Kv))
+        out = out.unflatten(2, (G, Hq))
         if ctx is not None:
-            lse = torch.reshape(ctx.lse, (B, G, Hq, q_len))
+            lse = ctx.lse.unflatten(1, (G, Hq))
             ctx = replace(ctx, lse=lse, out=out)
         return out, ctx
 

From 2980a55fbbcfda7f8a6448a686cd840842b56a08 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 20 Dec 2024 14:56:31 +0000
Subject: [PATCH 751/837] Update ck.py to support expanded 5-D input for
 ck.FwOp

---
 xformers/ops/fmha/ck.py | 24 ++++++++++++++++++++++--
 1 file changed, 22 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index d67556b160..34156ba697 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -218,6 +218,26 @@ def apply(
         assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
         ctx: Optional[Context] = None
 
+        if inp.key.stride()[3] == 0:
+            assert (
+                inp.value.stride()[3] == 0
+            ), "key and value should be expanded in the same way"
+            k_shape = inp.key.size()
+            k_stride = inp.key.stride()
+            key = inp.key.as_strided(
+                (k_shape[0], k_shape[1], k_shape[2], k_shape[4]),
+                (k_stride[0], k_stride[1], k_stride[2], k_stride[4]),
+            )
+            v_shape = inp.value.size()
+            v_stride = inp.value.stride()
+            value = inp.value.as_strided(
+                (v_shape[0], v_shape[1], v_shape[2], k_shape[4]),
+                (k_stride[0], k_stride[1], k_stride[2], k_stride[4]),
+            )
+        else:
+            key = inp.key.flatten(2, 3)
+            value = inp.value.flatten(2, 3)
+
         [_, _, G, Hq, _] = inp.query.shape
         attn_bias_replace = inp.attn_bias
         if isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim != 0:
@@ -225,8 +245,8 @@ def apply(
         inp = replace(
             inp,
             query=inp.query.flatten(2, 3),
-            key=inp.key.flatten(2, 3),
-            value=inp.value.flatten(2, 3),
+            key=key,
+            value=value,
             attn_bias=attn_bias_replace,
         )
         out, ctx = cls.apply_bmhk(inp, needs_gradient=needs_gradient)

From 84414b1ace091ab170938acd3f45951e0f18ead1 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 21 Dec 2024 08:40:14 +0000
Subject: [PATCH 752/837] Fix in ck.py

---
 xformers/ops/fmha/ck.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 34156ba697..06787b80f1 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -218,6 +218,7 @@ def apply(
         assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
         ctx: Optional[Context] = None
 
+        ## consider for expanded 5-D inputted
         if inp.key.stride()[3] == 0:
             assert (
                 inp.value.stride()[3] == 0
@@ -231,8 +232,8 @@ def apply(
             v_shape = inp.value.size()
             v_stride = inp.value.stride()
             value = inp.value.as_strided(
-                (v_shape[0], v_shape[1], v_shape[2], k_shape[4]),
-                (k_stride[0], k_stride[1], k_stride[2], k_stride[4]),
+                (v_shape[0], v_shape[1], v_shape[2], v_shape[4]),
+                (v_stride[0], v_stride[1], v_stride[2], v_stride[4]),
             )
         else:
             key = inp.key.flatten(2, 3)

From bf33926dd650dcf9caba0afffc6c4c831bab1f12 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 26 Dec 2024 16:18:44 +0000
Subject: [PATCH 753/837] Remove using partitioner for fmha kernels

---
 third_party/composable_kernel_tiled           |  2 +-
 .../ck_tiled_fmha_batched_forward_dispatch.h  | 10 ++--
 ...ed_fmha_batched_forward_splitkv_dispatch.h | 22 +++------
 ..._batched_forward_splitkv_smallq_dispatch.h | 22 +++------
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 11 ++---
 ...iled_fmha_batched_infer_splitkv_dispatch.h | 22 +++------
 ...ha_batched_infer_splitkv_smallq_dispatch.h | 22 +++------
 .../ck_tiled_fmha_grouped_forward_dispatch.h  | 30 ++++--------
 ...ed_fmha_grouped_forward_splitkv_dispatch.h | 22 +++------
 ..._grouped_forward_splitkv_smallq_dispatch.h | 22 +++------
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 48 +++++--------------
 ...iled_fmha_grouped_infer_splitkv_dispatch.h | 22 +++------
 ...ha_grouped_infer_splitkv_smallq_dispatch.h | 22 +++------
 13 files changed, 78 insertions(+), 199 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 37cdbf4f0e..4e076909b6 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 37cdbf4f0ec88ba5064f46c3370633b5950bc7ae
+Subproject commit 4e076909b6c1e1404d9ff5dc0e71e3be1c06569e
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index 3504f6ae04..6fdd1c6bb5 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -46,8 +46,6 @@ struct batched_forward_mask_bias_dropout_dispatch {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
     using FmhaFwdShape_ = typename FmhaFwdShape<MaxK, MTile>::Type;
-    using FmhaFwdTilePartitioner_ =
-        ck_tile::FmhaFwdTilePartitioner<FmhaFwdShape_>;
     constexpr ck_tile::index_t occupancy =
         (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
@@ -101,10 +99,8 @@ struct batched_forward_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDim>>;
 
-          using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-              FmhaFwdTilePartitioner_,
-              FmhaFwdPipeline_,
-              FmhaFwdEpilogue_>;
+          using FmhaFwdKernel_ =
+              ck_tile::FmhaFwdKernel<FmhaFwdPipeline_, FmhaFwdEpilogue_>;
 
           RunWithKernel<FmhaFwdKernel_>(param, stream);
         });
@@ -163,7 +159,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize =
-        FmhaFwdKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+        FmhaFwdKernel::GridSize(param.B, param.Hq, param.M, param.Kv, false);
     constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index e0e215cee2..df1ece8930 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -62,8 +62,6 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
 
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr auto kBiasEnum = kHasBias
@@ -122,10 +120,8 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             } else {
@@ -146,10 +142,8 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             }
@@ -166,8 +160,6 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       const bool pad_seqlen_q = !(param.M % kM0 == 0);
@@ -199,10 +191,8 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
                           kPadSeqLenQ,
                           kPadHeadDimV>>;
 
-                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-                      FmhaTilePartitioner,
-                      FmhaPipeline,
-                      FmhaEpilogue>;
+                  using FmhaKernel = ck_tile::
+                      FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
                   RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
                 });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
index 2fe35081da..806a507fd2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -60,8 +60,6 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr auto kBiasEnum = kHasBias
@@ -121,10 +119,8 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             } else {
@@ -146,10 +142,8 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             }
@@ -165,8 +159,6 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       const bool pad_seqlen_q = !(param.M % kM0 == 0);
@@ -198,10 +190,8 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                           kPadSeqLenQ,
                           kPadHeadDimV>>;
 
-                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-                      FmhaTilePartitioner,
-                      FmhaPipeline,
-                      FmhaEpilogue>;
+                  using FmhaKernel = ck_tile::
+                      FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
                   RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
                 });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index c317e64f6a..ed49eac35e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -47,7 +47,6 @@ struct batched_infer_mask_bias_dropout_dispatch {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
     using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
-    using FmhaTilePartitioner = ck_tile::FmhaFwdTilePartitioner<FmhaShape>;
     constexpr ck_tile::index_t occupancy =
         (MaxK == 64) ? 3 : ((MaxK == 256) ? 1 : 2);
 
@@ -103,8 +102,8 @@ struct batched_infer_mask_bias_dropout_dispatch {
                     kPadSeqLenQ,
                     kPadHeadDim>>;
 
-            using FmhaKernel = ck_tile::
-                FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
 
             RunWithKernel<FmhaKernel>(param, stream);
           });
@@ -135,8 +134,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
                 true,
                 true>>;
 
-        using FmhaKernel = ck_tile::
-            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
+        using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
 
         RunWithKernel<FmhaKernel>(param, stream);
       });
@@ -195,7 +193,8 @@ struct batched_infer_mask_bias_dropout_dispatch {
           std::make_pair(param.philox_seed, param.philox_offset));
     }();
 
-    dim3 kGridSize = FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv);
+    dim3 kGridSize =
+        FmhaKernel::GridSize(param.B, param.Hq, param.M, param.Kv, false);
     constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index d990dd4a1b..1e8e70e398 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -62,8 +62,6 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
 
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr auto kBiasEnum = kHasBias
@@ -122,10 +120,8 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             } else {
@@ -159,10 +155,8 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             }
@@ -179,8 +173,6 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       const bool pad_seqlen_q = !(param.M % kM0 == 0);
@@ -212,10 +204,8 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                           kPadSeqLenQ,
                           kPadHeadDimV>>;
 
-                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-                      FmhaTilePartitioner,
-                      FmhaPipeline,
-                      FmhaEpilogue>;
+                  using FmhaKernel = ck_tile::
+                      FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
                   RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
                 });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
index f4144271b5..9ef7c24424 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -60,8 +60,6 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr auto kBiasEnum = kHasBias
@@ -121,10 +119,8 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             } else {
@@ -159,10 +155,8 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             }
@@ -178,8 +172,6 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       const bool pad_seqlen_q = !(param.M % kM0 == 0);
@@ -211,10 +203,8 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                           kPadSeqLenQ,
                           kPadHeadDimV>>;
 
-                  using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-                      FmhaTilePartitioner,
-                      FmhaPipeline,
-                      FmhaEpilogue>;
+                  using FmhaKernel = ck_tile::
+                      FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
                   RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
                 });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index f46454414f..920c093e33 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -88,26 +88,10 @@ struct grouped_forward_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          if (param.seqlen_k_dev_ptr !=
-              nullptr) { // seqlen_k of batches are padded
-            using FmhaTilePartitioner =
-                ck_tile::FmhaFwdTilePartitioner_HBS<FmhaFwdShape_>;
-            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                FmhaTilePartitioner,
-                FmhaFwdPipeline_,
-                FmhaFwdEpilogue_>;
-
-            RunWithKernel<FmhaFwdKernel_>(param, stream);
-          } else {
-            using FmhaTilePartitioner =
-                ck_tile::FmhaFwdTilePartitioner_SHB<FmhaFwdShape_>;
-            using FmhaFwdKernel_ = ck_tile::FmhaFwdKernel<
-                FmhaTilePartitioner,
-                FmhaFwdPipeline_,
-                FmhaFwdEpilogue_>;
-
-            RunWithKernel<FmhaFwdKernel_>(param, stream);
-          }
+          using FmhaFwdKernel_ =
+              ck_tile::FmhaFwdKernel<FmhaFwdPipeline_, FmhaFwdEpilogue_>;
+
+          RunWithKernel<FmhaFwdKernel_>(param, stream);
         });
   };
 
@@ -157,7 +141,11 @@ struct grouped_forward_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize = FmhaFwdKernel::GridSize(
-        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        param.seqlen_k_dev_ptr != nullptr);
     constexpr dim3 kBlockSize = FmhaFwdKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaFwdKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index 820a8f8ddb..eacfd6bc1a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -62,8 +62,6 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
 
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
       constexpr ck_tile::index_t occupancy = -1;
 
@@ -111,10 +109,8 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
+              using FmhaFwdKernel_ = ck_tile::
+                  FmhaFwdSplitKVKernel<FmhaFwdPipeline_, FmhaFwdEpilogue_>;
 
               RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
             } else {
@@ -136,10 +132,8 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
+              using FmhaFwdKernel_ = ck_tile::
+                  FmhaFwdSplitKVKernel<FmhaFwdPipeline_, FmhaFwdEpilogue_>;
 
               RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
             }
@@ -156,8 +150,6 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr bool kPadSeqLenQ = true;
@@ -187,10 +179,8 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-              FmhaTilePartitioner,
-              FmhaPipeline,
-              FmhaEpilogue>;
+          using FmhaKernel =
+              ck_tile::FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
           RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
         });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
index a3c9e40ed2..4f92d2bdf4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
@@ -60,8 +60,6 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
       constexpr ck_tile::index_t occupancy = -1;
 
@@ -109,10 +107,8 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
+              using FmhaFwdKernel_ = ck_tile::
+                  FmhaFwdSplitKVKernel<FmhaFwdPipeline_, FmhaFwdEpilogue_>;
 
               RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
             } else {
@@ -134,10 +130,8 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaFwdKernel_ = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaFwdPipeline_,
-                  FmhaFwdEpilogue_>;
+              using FmhaFwdKernel_ = ck_tile::
+                  FmhaFwdSplitKVKernel<FmhaFwdPipeline_, FmhaFwdEpilogue_>;
 
               RunWithFwdSplitKVKernel<FmhaFwdKernel_>(param, stream);
             }
@@ -153,8 +147,6 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr bool kPadSeqLenQ = true;
@@ -184,10 +176,8 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-              FmhaTilePartitioner,
-              FmhaPipeline,
-              FmhaEpilogue>;
+          using FmhaKernel =
+              ck_tile::FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
           RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
         });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index f5c8914b13..6cda6e8233 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -91,26 +91,10 @@ struct grouped_infer_mask_bias_dropout_dispatch {
                     kPadSeqLenQ,
                     kPadHeadDimV>>;
 
-            if (param.seqlen_k_dev_ptr !=
-                nullptr) { // seqlen_k of batches are padded
-              using FmhaTilePartitioner =
-                  ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
-              using FmhaKernel = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            } else {
-              using FmhaTilePartitioner =
-                  ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
-              using FmhaKernel = ck_tile::FmhaFwdKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
-
-              RunWithKernel<FmhaKernel>(param, stream);
-            }
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
           });
     } else {
       using FmhaTraits = ck_tile::TileFmhaTraits<
@@ -137,21 +121,9 @@ struct grouped_infer_mask_bias_dropout_dispatch {
               true,
               true>>;
 
-      if (param.seqlen_k_dev_ptr != nullptr) { // seqlen_k of batches are padded
-        using FmhaTilePartitioner =
-            ck_tile::FmhaFwdTilePartitioner_HBS<FmhaShape>;
-        using FmhaKernel = ck_tile::
-            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-        RunWithKernel<FmhaKernel>(param, stream);
-      } else {
-        using FmhaTilePartitioner =
-            ck_tile::FmhaFwdTilePartitioner_SHB<FmhaShape>;
-        using FmhaKernel = ck_tile::
-            FmhaFwdKernel<FmhaTilePartitioner, FmhaPipeline, FmhaEpilogue>;
-
-        RunWithKernel<FmhaKernel>(param, stream);
-      }
+      using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+      RunWithKernel<FmhaKernel>(param, stream);
     }
   };
 
@@ -201,7 +173,11 @@ struct grouped_infer_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize = FmhaKernel::GridSize(
-        param.num_batches, param.Hq, param.max_seqlen_q, param.Kv);
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        param.seqlen_k_dev_ptr != nullptr);
     constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 59c0a9e7c1..2c0160f3ae 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -62,8 +62,6 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
 
       using FmhaTileShape =
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
       constexpr ck_tile::index_t occupancy = -1;
 
@@ -118,10 +116,8 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             } else {
@@ -155,10 +151,8 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             }
@@ -175,8 +169,6 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr bool kPadSeqLenQ = true;
@@ -206,10 +198,8 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-              FmhaTilePartitioner,
-              FmhaPipeline,
-              FmhaEpilogue>;
+          using FmhaKernel =
+              ck_tile::FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
           RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
         });
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
index a4ac680132..916c2ab11e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -60,8 +60,6 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
       using FmhaTileShape = typename FmhaFwdSplitKVSmallQShape<MaxK>::Type;
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVTilePartitioner<FmhaTileShape>;
 
       constexpr ck_tile::index_t occupancy = -1;
 
@@ -117,10 +115,8 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             } else {
@@ -155,10 +151,8 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                       false,
                       false>>;
 
-              using FmhaKernel = ck_tile::FmhaFwdSplitKVKernel<
-                  FmhaTilePartitioner,
-                  FmhaPipeline,
-                  FmhaEpilogue>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
 
               RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
             }
@@ -174,8 +168,6 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
               typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
               kN1>::kM0;
 
-      using FmhaTilePartitioner =
-          ck_tile::FmhaFwdSplitKVCombineTilePartitioner<kM0, kN1>;
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr bool kPadSeqLenQ = true;
@@ -205,10 +197,8 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdSplitKVCombineKernel<
-              FmhaTilePartitioner,
-              FmhaPipeline,
-              FmhaEpilogue>;
+          using FmhaKernel =
+              ck_tile::FmhaFwdSplitKVCombineKernel<FmhaPipeline, FmhaEpilogue>;
 
           RunWithSplitKVCombineKernel<FmhaKernel>(param, stream);
         });

From 256d6a48769988e6b2f5c1fcfdac394482fd7bb0 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 7 Jan 2025 09:09:59 +0000
Subject: [PATCH 754/837] Add support for mqa_decoder optimization which merge
 Hq/Hkv with seqlen_q

---
 ...ed_fmha_batched_forward_splitkv_dispatch.h |   3 +-
 ..._batched_forward_splitkv_smallq_dispatch.h |   3 +-
 ...iled_fmha_batched_infer_splitkv_dispatch.h |   4 +-
 ...ha_batched_infer_splitkv_smallq_dispatch.h | 261 ++++++++++++------
 ...ed_fmha_grouped_forward_splitkv_dispatch.h |   2 +
 ..._grouped_forward_splitkv_smallq_dispatch.h |   2 +
 ...iled_fmha_grouped_infer_splitkv_dispatch.h |   3 +
 ...ha_grouped_infer_splitkv_smallq_dispatch.h | 260 +++++++++++------
 8 files changed, 368 insertions(+), 170 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index df1ece8930..2778613efd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -100,6 +100,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
                 false, // kDoFp8StaticQuant place-holder
                 false, // kIsPagedKV
                 kHasUnevenSplits,
+                false, // kMergeNumHeadGroupsSeqLenQ
                 occupancy>;
 
             if (param.num_kv_splits > 1) {
@@ -305,7 +306,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
-        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+        param.B, param.Hq, param.Hkv, param.M, param.Kv, param.num_kv_splits);
     constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
index 806a507fd2..c615838cc2 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -98,6 +98,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                 false, // kDoFp8StaticQuant place-holder
                 false, // kIsPagedKV
                 kHasUnevenSplits,
+                false, // kMergeNumHeadGroupsSeqLenQ
                 occupancy>;
 
             if (param.num_kv_splits > 1) {
@@ -304,7 +305,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
-        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+        param.B, param.Hq, param.Hkv, param.M, param.Kv, param.num_kv_splits);
     constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index 1e8e70e398..d70165c1f6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -101,6 +101,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                   false, // kDoFp8StaticQuant place-holder
                   false, // kIsPagedKV
                   kHasUnevenSplits,
+                  false, // kMergeNumHeadGroupsSeqLenQ
                   occupancy>;
 
               using ODataType =
@@ -136,6 +137,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                   false, // kDoFp8StaticQuant place-holder
                   false, // kIsPagedKV
                   kHasUnevenSplits,
+                  false, // kMergeNumHeadGroupsSeqLenQ
                   occupancy>;
 
               using ODataType =
@@ -318,7 +320,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
-        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+        param.B, param.Hq, param.Hkv, param.M, param.Kv, param.num_kv_splits);
     constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
index 9ef7c24424..df9ce0016e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -77,90 +77,181 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
       const bool has_uneven_splits =
           !(param.N % (param.num_kv_splits * FmhaTileShape::kN0) == 0);
 
-      BOOL_SWITCH_3(
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_headdim,
-          kPadHeadDim,
-          has_uneven_splits,
-          kHasUnevenSplits,
-          [&] {
-            constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
-
-            if (param.num_kv_splits > 1) {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  true, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  kHasUnevenSplits,
-                  occupancy>;
-
-              using ODataType =
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
-              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                  FmhaTraits,
-                  FmhaMask,
-                  ODataType>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      ODataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel =
-                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-            } else {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDim, // kPadHeadDimQ,
-                  kPadHeadDim, // kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  false, // kIsPagedKV
-                  kHasUnevenSplits,
-                  occupancy>;
-
-              using ODataType =
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
-              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                  FmhaTraits,
-                  FmhaMask,
-                  ODataType>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      ODataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel =
-                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-            }
-          });
+      // indicates to the splitkv kernel whether should it merge Hq/Hkv with
+      // seqlen_q
+      const bool merge_nhead_groups_seqlen_q =
+          ((param.M == 1) && (param.Hq > param.Hkv) && !kHasBias);
+
+      if (merge_nhead_groups_seqlen_q) {
+        using FmhaMaskNone = ck_tile::SimplifiedGenericAttentionMask<false>;
+        BOOL_SWITCH_2(
+            pad_headdim, kPadHeadDim, has_uneven_splits, kHasUnevenSplits, [&] {
+              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
+              if (param.num_kv_splits > 1) {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    true, // kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDim, // kPadHeadDimQ,
+                    kPadHeadDim, // kPadHeadDimV,
+                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
+                    false, // kHasBiasGrad place-holder
+                    true, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    kHasUnevenSplits,
+                    true, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMaskNone,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    true, // kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDim, // kPadHeadDimQ,
+                    kPadHeadDim, // kPadHeadDimV,
+                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
+                    false, // kHasBiasGrad place-holder
+                    false, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    kHasUnevenSplits,
+                    true, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMaskNone,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
+            });
+      } else {
+        BOOL_SWITCH_3(
+            pad_seqlen_q,
+            kPadSeqLenQ,
+            pad_headdim,
+            kPadHeadDim,
+            has_uneven_splits,
+            kHasUnevenSplits,
+            [&] {
+              constexpr bool kPadSeqLenK = kHasUnevenSplits ? true : false;
+
+              if (param.num_kv_splits > 1) {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDim, // kPadHeadDimQ,
+                    kPadHeadDim, // kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    true, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    kHasUnevenSplits,
+                    false, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDim, // kPadHeadDimQ,
+                    kPadHeadDim, // kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    false, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    false, // kIsPagedKV
+                    kHasUnevenSplits,
+                    false, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
+            });
+      };
     };
 
     if (param.num_kv_splits > 1) {
@@ -317,7 +408,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
     }();
 
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
-        param.B, param.Hq, param.M, param.Kv, param.num_kv_splits);
+        param.B, param.Hq, param.Hkv, param.M, param.Kv, param.num_kv_splits);
     constexpr dim3 kBlockSize = FmhaFwdSplitKVKernel::BlockSize();
     constexpr ck_tile::index_t kBlockPerCu = FmhaFwdSplitKVKernel::kBlockPerCu;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index eacfd6bc1a..e4bb25f8a9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -88,6 +88,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
                 false, // kDoFp8StaticQuant place-holder
                 false, // kIsPagedKV
                 true, // kHasUnevenSplits
+                false, // kMergeNumHeadGroupsSeqLenQ
                 occupancy>;
 
             if (param.num_kv_splits > 1) {
@@ -285,6 +286,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
         param.num_batches,
         param.Hq,
+        param.Hkv,
         param.max_seqlen_q,
         param.Kv,
         param.num_kv_splits);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
index 4f92d2bdf4..f8d4452c54 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
@@ -86,6 +86,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                 false, // kDoFp8StaticQuant place-holder
                 false, // kIsPagedKV
                 true, // kHasUnevenSplits
+                false, // kMergeNumHeadGroupsSeqLenQ
                 occupancy>;
 
             if (param.num_kv_splits > 1) {
@@ -282,6 +283,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
         param.num_batches,
         param.Hq,
+        param.Hkv,
         param.max_seqlen_q,
         param.Kv,
         param.num_kv_splits);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 2c0160f3ae..37141cb5de 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -97,6 +97,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                   false, // kDoFp8StaticQuant place-holder
                   kIsPagedKV,
                   true, // kHasUnevenSplits
+                  false, // kMergeNumHeadGroupsSeqLenQ
                   occupancy>;
 
               using ODataType =
@@ -132,6 +133,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                   false, // kDoFp8StaticQuant place-holder
                   kIsPagedKV,
                   true, // kHasUnevenSplits
+                  false, // kMergeNumHeadGroupsSeqLenQ
                   occupancy>;
 
               using ODataType =
@@ -309,6 +311,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
         param.num_batches,
         param.Hq,
+        param.Hkv,
         param.max_seqlen_q,
         param.Kv,
         param.num_kv_splits);
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
index 916c2ab11e..22077833fa 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -75,88 +75,183 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
 
       bool is_paged_kv = param.use_paged_kvcache;
 
-      BOOL_SWITCH_3(
-          pad_headdim_q,
-          kPadHeadDimQ,
-          pad_headdim_v,
-          kPadHeadDimV,
-          is_paged_kv,
-          kIsPagedKV,
-          [&] {
-            if (param.num_kv_splits > 1) {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  true, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  kIsPagedKV,
-                  true, // kHasUnevenSplits
-                  occupancy>;
-
-              using ODataType =
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
-              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                  FmhaTraits,
-                  FmhaMask,
-                  ODataType>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      ODataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel =
-                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-            } else {
-              using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
-                  kPadSeqLenQ,
-                  kPadSeqLenK,
-                  kPadHeadDimQ,
-                  kPadHeadDimV,
-                  kBiasEnum,
-                  false, // kHasBiasGrad place-holder
-                  false, // kStoreLSE
-                  false, // kDoFp8StaticQuant place-holder
-                  kIsPagedKV,
-                  true, // kHasUnevenSplits
-                  occupancy>;
-
-              using ODataType =
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType;
-              using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
-                  FmhaTraits,
-                  FmhaMask,
-                  ODataType>;
-
-              using FmhaPipeline =
-                  ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
-                      FmhaPipelineProblem>;
-
-              using FmhaEpilogue =
-                  ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                      typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                      ODataType,
-                      false,
-                      false>>;
-
-              using FmhaKernel =
-                  ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
-
-              RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
-            }
-          });
+      // indicates to the splitkv kernel whether should it merge Hq/Hkv with
+      // seqlen_q
+      const bool merge_nhead_groups_seqlen_q =
+          ((param.max_seqlen_q == 1) && (param.Hq > param.Hkv) && !kHasBias);
+
+      if (merge_nhead_groups_seqlen_q) {
+        using FmhaMaskNone = ck_tile::SimplifiedGenericAttentionMask<false>;
+        BOOL_SWITCH_3(
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            is_paged_kv,
+            kIsPagedKV,
+            [&] {
+              if (param.num_kv_splits > 1) {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDimQ,
+                    kPadHeadDimV,
+                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
+                    false, // kHasBiasGrad place-holder
+                    true, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    kIsPagedKV,
+                    true, // kHasUnevenSplits
+                    true, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMaskNone,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDimQ,
+                    kPadHeadDimV,
+                    ck_tile::BlockAttentionBiasEnum::NO_BIAS,
+                    false, // kHasBiasGrad place-holder
+                    false, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    kIsPagedKV,
+                    true, // kHasUnevenSplits
+                    true, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMaskNone,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
+            });
+      } else {
+        BOOL_SWITCH_3(
+            pad_headdim_q,
+            kPadHeadDimQ,
+            pad_headdim_v,
+            kPadHeadDimV,
+            is_paged_kv,
+            kIsPagedKV,
+            [&] {
+              if (param.num_kv_splits > 1) {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDimQ,
+                    kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    true, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    kIsPagedKV,
+                    true, // kHasUnevenSplits
+                    false, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              } else {
+                using FmhaTraits = ck_tile::TileFmhaFwdSplitKVTraits<
+                    kPadSeqLenQ,
+                    kPadSeqLenK,
+                    kPadHeadDimQ,
+                    kPadHeadDimV,
+                    kBiasEnum,
+                    false, // kHasBiasGrad place-holder
+                    false, // kStoreLSE
+                    false, // kDoFp8StaticQuant place-holder
+                    kIsPagedKV,
+                    true, // kHasUnevenSplits
+                    false, // kMergeNumHeadGroupsSeqLenQ
+                    occupancy>;
+
+                using ODataType =
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+                using FmhaPipelineProblem = FmhaFwdSplitKVPipelineProblemTemp<
+                    FmhaTraits,
+                    FmhaMask,
+                    ODataType>;
+
+                using FmhaPipeline =
+                    ck_tile::BlockFmhaFwdSplitKVPipelineNWarpSShuffleQRKSVS<
+                        FmhaPipelineProblem>;
+
+                using FmhaEpilogue = ck_tile::Default2DEpilogue<
+                    ck_tile::Default2DEpilogueProblem<
+                        typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                        ODataType,
+                        false,
+                        false>>;
+
+                using FmhaKernel =
+                    ck_tile::FmhaFwdSplitKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+                RunWithFwdSplitKVKernel<FmhaKernel>(param, stream);
+              }
+            });
+      };
     };
 
     if (param.num_kv_splits > 1) {
@@ -308,6 +403,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
     dim3 kGridSize = FmhaFwdSplitKVKernel::GridSize(
         param.num_batches,
         param.Hq,
+        param.Hkv,
         param.max_seqlen_q,
         param.Kv,
         param.num_kv_splits);

From 23d7b1c4fd99bb3aca6eb5a25cef68b0dd80b93e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 7 Jan 2025 13:09:55 +0000
Subject: [PATCH 755/837] Synchronize to latest ck_tile commit which has
 changed GridSize() of fmha-fwd splitkv kernel

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 4e076909b6..24b12d04af 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 4e076909b6c1e1404d9ff5dc0e71e3be1c06569e
+Subproject commit 24b12d04afa75538bec878d272bca4e5cdecb8c8

From e07d13cc2724dff37f41dc19307620caa32fea27 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 7 Jan 2025 14:02:01 -0500
Subject: [PATCH 756/837] bump submodule

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index a7e63bfa62..0d59f47435 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit a7e63bfa625163455327800f926eaf417b96b7d2
+Subproject commit 0d59f474356a77500b65f05f6ea1441818c538ba

From bf78988b0d38a49d9a3b659f7e2d0d58643c5d59 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 7 Jan 2025 14:04:07 -0500
Subject: [PATCH 757/837] bump submodule to today's merge commit in ck

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 0d59f47435..8b49f2072d 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 0d59f474356a77500b65f05f6ea1441818c538ba
+Subproject commit 8b49f2072df8eb1baa9f5ce41a186311c5dd1e42

From 40cbefb86dba859b02aa11b1722138a1b8bb3a60 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 7 Jan 2025 19:40:16 -0500
Subject: [PATCH 758/837] refactor dispatch

---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 43 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 43 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 43 +++++++++----------
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 43 +++++++++----------
 4 files changed, 80 insertions(+), 92 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 0be1e47c59..2d681de4e7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -23,33 +23,30 @@ template <
 void run_batched_forward_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  if constexpr (MaxK > 256) {
-    batched_forward_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            kHasDropout,
-            MaxK,
-            128>::Run(param, stream);
-  } else
-  // currently split-kv implementation does not support dropout
+  // currently split-kv implementation does not support: 
+  // (*) dropout
+  // (*) head dimension > 256 
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv) {
-      if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
-        batched_forward_splitkv_smallq_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK>::Run(param, stream);
-      } else {
-        FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-          batched_forward_splitkv_mask_bias_dropout_dispatch<
+    if (param.use_split_kv && MaxK <= 256) {
+      if constexpr (MaxK <= 256) {
+        if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
+          batched_forward_splitkv_smallq_mask_bias_dropout_dispatch<
               ScalarType,
               kHasMask,
               kHasBias,
-              MaxK,
-              MaxSeqlenQ>::Run(param, stream);
-        });
+              MaxK>::Run(param, stream);
+        } else {
+          FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+            batched_forward_splitkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                MaxSeqlenQ>::Run(param, stream);
+          });
+        }
+      } else {
+        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 5384a2415c..85e35cdbed 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,33 +23,30 @@ template <
 void run_batched_infer_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  if constexpr (MaxK > 256) {
-    batched_infer_mask_bias_dropout_dispatch<
-        ScalarType,
-        kHasMask,
-        kHasBias,
-        kHasDropout,
-        MaxK,
-        128>::Run(param, stream);
-  } else
-  // currently split-kv implementation does not support dropout
+  // currently split-kv implementation does not support: 
+  // (*) dropout
+  // (*) head dimension > 256  
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv) {
-      if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
-        batched_infer_splitkv_smallq_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK>::Run(param, stream);
-      } else {
-        FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-          batched_infer_splitkv_mask_bias_dropout_dispatch<
+    if (param.use_split_kv && MaxK <= 256) {
+      if constexpr (MaxK <= 256) {
+        if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
+          batched_infer_splitkv_smallq_mask_bias_dropout_dispatch<
               ScalarType,
               kHasMask,
               kHasBias,
-              MaxK,
-              MaxSeqlenQ>::Run(param, stream);
-        });
+              MaxK>::Run(param, stream);
+        } else {
+          FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+            batched_infer_splitkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                MaxSeqlenQ>::Run(param, stream);
+          });
+        }
+      } else {
+        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 5d2a7ad3d3..bd7b5621da 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -23,33 +23,30 @@ template <
 void run_grouped_forward_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  if constexpr (MaxK > 256) {
-    grouped_forward_mask_bias_dropout_dispatch<
-        ScalarType,
-        kHasMask,
-        kHasBias,
-        kHasDropout,
-        MaxK,
-        128>::Run(param, stream);
-  } else
-  // currently split-kv implementation does not support dropout
+  // currently split-kv implementation does not support: 
+  // (*) dropout
+  // (*) head dimension > 256  
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv) {
-      if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
-        grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK>::Run(param, stream);
-      } else {
-        FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-          grouped_forward_splitkv_mask_bias_dropout_dispatch<
+    if (param.use_split_kv && MaxK <= 256) {
+      if constexpr (MaxK <= 256) {
+        if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
+          grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
               ScalarType,
               kHasMask,
               kHasBias,
-              MaxK,
-              MaxSeqlenQ>::Run(param, stream);
-        });
+              MaxK>::Run(param, stream);
+        } else {
+          FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+            grouped_forward_splitkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                MaxSeqlenQ>::Run(param, stream);
+          });
+        }
+      } else {
+        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index a6b6c0d50f..02efb9a274 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -23,33 +23,30 @@ template <
 void run_grouped_infer_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  if constexpr (MaxK > 256) {
-    grouped_infer_mask_bias_dropout_dispatch<
-        ScalarType,
-        kHasMask,
-        kHasBias,
-        kHasDropout,
-        MaxK,
-        128>::Run(param, stream);
-  } else
-  // currently split-kv implementation does not support dropout
+  // currently split-kv implementation does not support: 
+  // (*) dropout
+  // (*) head dimension > 256  
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv) {
-      if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
-        grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            MaxK>::Run(param, stream);
-      } else {
-        FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-          grouped_infer_splitkv_mask_bias_dropout_dispatch<
+    if (param.use_split_kv && MaxK <= 256) {
+      if constexpr (MaxK <= 256) {
+        if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
+          grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch<
               ScalarType,
               kHasMask,
               kHasBias,
-              MaxK,
-              MaxSeqlenQ>::Run(param, stream);
-        });
+              MaxK>::Run(param, stream);
+        } else {
+          FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+            grouped_infer_splitkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                MaxSeqlenQ>::Run(param, stream);
+          });
+        }
+      } else {
+        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==

From 40f92e72dd5959323e45f8f1db9bdb40a11215fa Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Jan 2025 13:15:57 -0500
Subject: [PATCH 759/837] bump ck submodule to the current develop branch

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 8b49f2072d..ad697c78ac 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 8b49f2072df8eb1baa9f5ce41a186311c5dd1e42
+Subproject commit ad697c78ac1c7e9554d609bc6032960fcdba401a

From e4a7f3b373fb90b7deb51e919f9fcaacf636c510 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Jan 2025 17:31:35 -0500
Subject: [PATCH 760/837] fix flake8 lint

---
 xformers/ops/fmha/ck.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 06787b80f1..3db154cb84 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -6,7 +6,6 @@
 
 from dataclasses import replace
 from enum import Enum
-from functools import partial
 from typing import Any, Iterable, List, Mapping, Optional, Set, Tuple, Union
 
 import torch
@@ -38,7 +37,6 @@
     Context,
     Gradients,
     Inputs,
-    _attn_bias_apply,
     check_lastdim_alignment_stride1,
 )
 
@@ -218,7 +216,7 @@ def apply(
         assert inp.query.ndim == 5, f"query has shape {inp.query.shape}"
         ctx: Optional[Context] = None
 
-        ## consider for expanded 5-D inputted
+        # when the input is expanded 5-D, the group dimension has zero stride
         if inp.key.stride()[3] == 0:
             assert (
                 inp.value.stride()[3] == 0

From cbe8e20eb66ac0074bbe501d8ad7c71075f47085 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 8 Jan 2025 17:43:47 -0500
Subject: [PATCH 761/837] clang-format

---
 .../attention/hip_fmha/ck_tiled_fmha_batched_forward.h |  7 ++++---
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer.h   |  7 ++++---
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward.h | 10 ++++++----
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer.h   | 10 ++++++----
 4 files changed, 20 insertions(+), 14 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 2d681de4e7..434e80a084 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -23,9 +23,9 @@ template <
 void run_batched_forward_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support: 
+  // currently split-kv implementation does not support:
   // (*) dropout
-  // (*) head dimension > 256 
+  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
     if (param.use_split_kv && MaxK <= 256) {
       if constexpr (MaxK <= 256) {
@@ -46,7 +46,8 @@ void run_batched_forward_mask_bias_dropout_dispatch(
           });
         }
       } else {
-        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
+        // Unreachable. Do not instantiate split-kv pipelines with head
+        // dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 85e35cdbed..77ec5f9663 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -23,9 +23,9 @@ template <
 void run_batched_infer_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support: 
+  // currently split-kv implementation does not support:
   // (*) dropout
-  // (*) head dimension > 256  
+  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
     if (param.use_split_kv && MaxK <= 256) {
       if constexpr (MaxK <= 256) {
@@ -46,7 +46,8 @@ void run_batched_infer_mask_bias_dropout_dispatch(
           });
         }
       } else {
-        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
+        // Unreachable. Do not instantiate split-kv pipelines with head
+        // dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index bd7b5621da..39c3a10fbf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -23,13 +23,14 @@ template <
 void run_grouped_forward_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support: 
+  // currently split-kv implementation does not support:
   // (*) dropout
-  // (*) head dimension > 256  
+  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
     if (param.use_split_kv && MaxK <= 256) {
       if constexpr (MaxK <= 256) {
-        if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
+        if (use_splitkv_smallq(
+                param.max_seqlen_q, std::max(param.K, param.Kv))) {
           grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
               ScalarType,
               kHasMask,
@@ -46,7 +47,8 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
           });
         }
       } else {
-        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
+        // Unreachable. Do not instantiate split-kv pipelines with head
+        // dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 02efb9a274..f990b7218a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -23,13 +23,14 @@ template <
 void run_grouped_infer_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support: 
+  // currently split-kv implementation does not support:
   // (*) dropout
-  // (*) head dimension > 256  
+  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
     if (param.use_split_kv && MaxK <= 256) {
       if constexpr (MaxK <= 256) {
-        if (use_splitkv_smallq(param.max_seqlen_q, std::max(param.K, param.Kv))) {
+        if (use_splitkv_smallq(
+                param.max_seqlen_q, std::max(param.K, param.Kv))) {
           grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch<
               ScalarType,
               kHasMask,
@@ -46,7 +47,8 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
           });
         }
       } else {
-        // Unreachable. Do not instantiate split-kv pipelines with head dimension > 256
+        // Unreachable. Do not instantiate split-kv pipelines with head
+        // dimension > 256
       }
     } else {
       if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==

From c2d9939797914d378afd30c750c933a4ec1216fd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 9 Jan 2025 02:38:49 +0000
Subject: [PATCH 762/837] Removing the compressing of expanded 5D to 4D for
 xops.fmha.ck.FwOp

---
 .../benchmarks/benchmark_attn_decoding.py     | 67 +++++++++++++++++++
 1 file changed, 67 insertions(+)

diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index f78fa9806c..f5dfd61e96 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -168,6 +168,73 @@ class AttentionDecodingCUTLASS(AttentionDecodingBase):
 class AttentionDecodingCK(AttentionDecodingBase):
     OP = xops.fmha.ck.FwOp
 
+    def __init__(
+        self,
+        B: int,
+        Mq: int,
+        Mkv: int,
+        Hq: int,
+        Hkv: int,
+        K: int,
+        bw: bool,
+        attn_bias_type,
+    ) -> None:
+        dtype = torch.float16
+        torch.manual_seed(10)
+        self.sub_label = (
+            f"B={B} Mq={Mq} Mkv={Mkv} Hq={Hq} Hkv={Hkv} K={K} TotalBytes="
+            f"{((B * Mkv * Hkv * K * 2) + (B * Mq * Hq * K) + (B * Mq * Hq * K)) * 2}"
+        )
+        self.label = "attn_decoding"
+        self.shapes = (B, Mq, Mkv, Hq, Hkv, K)
+
+        assert Hkv <= Hq
+        assert Hq % Hkv == 0
+        self.q = torch.randn(
+            [B, Mq, Hkv, Hq // Hkv, K], device="cuda", dtype=dtype, requires_grad=bw
+        )
+        self.k = torch.randn(
+            [B, Mkv, Hkv, 1, K], device="cuda", dtype=dtype, requires_grad=bw
+        ).expand(-1, -1, -1, Hq // Hkv, -1)
+        self.v = torch.randn(
+            [B, Mkv, Hkv, 1, K], device="cuda", dtype=dtype, requires_grad=bw
+        ).expand(-1, -1, -1, Hq // Hkv, -1)
+
+        if Hq == Hkv:
+            self.q = self.q[:, :, :, 0]
+            self.k = self.k[:, :, :, 0]
+            self.v = self.v[:, :, :, 0]
+
+        self.attn_bias = create_attn_bias(
+            attn_bias_type,
+            batch_size=B,
+            num_heads=Hq,
+            num_heads_groups=Hq // Hkv,
+            q_len=Mq,
+            kv_len=Mkv,
+            dtype=dtype,
+            device=device,
+            requires_grad=False,
+            fmt="BMHK",
+            op=self.OP,
+        )
+
+        if isinstance(
+            self.attn_bias,
+            xops.fmha.attn_bias.BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        ):
+            self.q = self.q.view(1, -1, *self.q.shape[2:])
+            self.k = self.k.view(1, -1, *self.k.shape[2:])
+            self.v = self.v.view(1, -1, *self.v.shape[2:])
+
+        if hasattr(self.OP, "not_supported_reasons"):
+            inp = xops.fmha.Inputs(
+                query=self.q, key=self.k, value=self.v, attn_bias=self.attn_bias
+            )
+            not_supported_reasons = self.OP.not_supported_reasons(inp)
+            if not_supported_reasons:
+                raise NotSupportedInputError(not_supported_reasons)
+
 
 class AttentionDecodingCKDecoder(AttentionDecodingBase):
     OP = xops.fmha.ck_decoder.FwOp

From cb60bada0f8f3bd2ac7ccff9b7968045d8b0f83c Mon Sep 17 00:00:00 2001
From: johnnynunez <johnnynuca14@gmail.com>
Date: Thu, 9 Jan 2025 12:16:00 +0100
Subject: [PATCH 763/837] wheels

---
 .github/actions/setup-build-cuda/action.yml |  6 +-
 .github/workflows/rocm_build.yml            |  2 +-
 .github/workflows/wheels.yml                | 64 ++++++++-------------
 3 files changed, 28 insertions(+), 44 deletions(-)

diff --git a/.github/actions/setup-build-cuda/action.yml b/.github/actions/setup-build-cuda/action.yml
index 824be1bd6b..968ef962f9 100644
--- a/.github/actions/setup-build-cuda/action.yml
+++ b/.github/actions/setup-build-cuda/action.yml
@@ -26,12 +26,14 @@ runs:
         TORCH_CUDA_DEFAULT = "121"  # pytorch 2.4.1
         # https://github.com/Jimver/cuda-toolkit/blob/master/src/links/linux-links.ts
         full_version, install_script = {
+          "126": ("12.6.3", "https://developer.download.nvidia.com/compute/cuda/12.6.3/local_installers/cuda_12.6.3_560.35.05_linux.run"),
           "124": ("12.4.1", "https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run"),
           "121": ("12.1.0", "https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run"),
           "118": ("11.8.0", "https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run"),
           "6.0": ("6.0.2", "https://repo.radeon.com/amdgpu-install/6.0.2/rhel/8.9/amdgpu-install-6.0.60002-1.el8.noarch.rpm"),
           "6.1": ("6.1.2", "https://repo.radeon.com/amdgpu-install/6.1.3/rhel/8.9/amdgpu-install-6.1.60103-1.el8.noarch.rpm"),
-          "6.2": ("6.2.3", "https://repo.radeon.com/amdgpu-install/6.2.3/rhel/8.9/amdgpu-install-6.2.60203-1.el8.noarch.rpm"),
+          "6.2": ("6.2.4", "https://repo.radeon.com/amdgpu-install/6.2.4/rhel/8.9/amdgpu-install-6.2.60204-1.el8.noarch.rpm"),
+          "6.3": ("6.3.1", "https://repo.radeon.com/amdgpu-install/6.3.1/rhel/8.9/amdgpu-install-6.3.60301-1.el8.noarch.rpm"),
         }[cushort]
         with open(os.environ['GITHUB_OUTPUT'], "r+") as fp:
           fp.write("CUDA_VERSION=" + full_version + "\n")
@@ -96,4 +98,4 @@ runs:
 
     # host compiler is too new for cuda 12.1 :(
     - run: echo "NVCC_FLAGS=-allow-unsupported-compiler" >> $GITHUB_ENV
-      shell: bash
+      shell: bash
\ No newline at end of file
diff --git a/.github/workflows/rocm_build.yml b/.github/workflows/rocm_build.yml
index 8371d9f353..d531d77dbf 100644
--- a/.github/workflows/rocm_build.yml
+++ b/.github/workflows/rocm_build.yml
@@ -24,7 +24,7 @@ jobs:
         python: ['3.11']
         torch_version: ['2.5.1']
         toolkit_type: ['rocm']
-        toolkit_short_version: ['6.1', '6.2']
+        toolkit_short_version: ['6.1', '6.2', '6.3']
 
     uses: ./.github/workflows/wheels_build.yml
     if: github.repository == 'rocm/xformers'
diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
index bbd888dd33..f104e1e55a 100644
--- a/.github/workflows/wheels.yml
+++ b/.github/workflows/wheels.yml
@@ -3,9 +3,9 @@ name: wheels
 on:
   pull_request:
     paths:
-      - "packaging/compute_wheel_version.sh"
+      - ".github/compute_wheel_version.py"
       - ".github/workflows/wheel*"
-      - ".github/actions/setup-windows-runner/action.yml"
+      - ".github/actions/setup-build-cuda/action.yml"
       - "setup.py"
       - "requirements*.txt"
   push:
@@ -28,9 +28,11 @@ jobs:
         import itertools
         environ = os.environ
 
-        PY_VERSIONS = ['3.8', '3.9', '3.10', '3.11', '3.12']
-        CU_VERSIONS = ['118', '121', '124']
-        ROCM_VERSIONS = ["6.0", "6.1"]
+        PY_VERSIONS = ['3.9', '3.10', '3.11', '3.12']
+        # NOTE: Don't forget to update `upload_pt`'s matrix
+        # when changing the CUDA/ROCM versions below!
+        CU_VERSIONS = ['118', '121', '124', '126']
+        ROCM_VERSIONS = ['6.1', '6.2', '6.3'] # <- 6.0 broken in `manylinux_2_28`
         PY_CU = list(itertools.product(PY_VERSIONS, CU_VERSIONS))
         PY_ROCM = list(itertools.product(PY_VERSIONS, ROCM_VERSIONS))
         print("Full matrix PY_CU", PY_CU)
@@ -44,9 +46,12 @@ jobs:
 
         include = []
         for os in ['8-core-ubuntu', 'windows-8-core']:
-          for torch_version in ['2.4.0']:
+          for torch_version in ['2.5.1']:
             # CUDA builds
             for python, cuda_short_version in PY_CU:
+              if cuda_short_version != "124" and "windows" in os:
+                print("Windows builder no longer compatible with cu<124")
+                continue
               include.append(dict(
                 os=os,
                 python=python,
@@ -91,48 +96,25 @@ jobs:
     uses: ./.github/workflows/wheels_upload_pip.yml
     with:
       twine_username: __token__
-      filter: "*torch2.4.0+cu121*"
+      filter: "*torch2.5.1+cu121*"
       execute: ${{ github.repository == 'facebookresearch/xformers' && github.event_name != 'pull_request' }}
     secrets:
       twine_password: ${{ secrets.PYPI_TOKEN }}
 
-  upload_pt_cu118:
-    needs: build
-    uses: ./.github/workflows/wheels_upload_s3.yml
-    with:
-      aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"
-      s3_path: s3://pytorch/whl/cu118/
-      aws_s3_cp_extra_args: --acl public-read
-      filter: "*torch2.4.0+cu118*"
-      execute: ${{ github.repository == 'facebookresearch/xformers' && github.ref_type == 'tag' }}
-
-  upload_pt_cu121:
-    needs: build
-    uses: ./.github/workflows/wheels_upload_s3.yml
-    with:
-      aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"
-      s3_path: s3://pytorch/whl/cu121/
-      aws_s3_cp_extra_args: --acl public-read
-      filter: "*torch2.4.0+cu121*"
-      execute: ${{ github.repository == 'facebookresearch/xformers' && github.ref_type == 'tag' }}
-
-  upload_pt_rocm6_0:
-    needs: build
-    uses: ./.github/workflows/wheels_upload_s3.yml
-    with:
-      aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"
-      s3_path: s3://pytorch/whl/rocm6.0/
-      aws_s3_cp_extra_args: --acl public-read
-      filter: "*torch2.4.0+rocm6.0*"
-      execute: ${{ github.repository == 'facebookresearch/xformers' && github.ref_type == 'tag' }}
-
-  upload_pt_rocm6_1:
+  upload_pt:
     needs: build
+    strategy:
+      fail-fast: false
+      matrix:
+        suffix:
+          - cu118
+          - cu121
+          - cu124
+          - rocm6.1
     uses: ./.github/workflows/wheels_upload_s3.yml
     with:
       aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"
-      s3_path: s3://pytorch/whl/rocm6.1/
+      s3_path: s3://pytorch/whl/${{ matrix.suffix }}/
       aws_s3_cp_extra_args: --acl public-read
-      filter: "*torch2.4.0+rocm6.1*"
+      filter: "*torch2.5.1+${{ matrix.suffix }}*"
       execute: ${{ github.repository == 'facebookresearch/xformers' && github.ref_type == 'tag' }}
-

From b301741bc309f8d5fd02ec4b6525e7968ac180bd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 10 Jan 2025 06:44:34 +0000
Subject: [PATCH 764/837] Synchronize to latest ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index ad697c78ac..73a076eee1 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit ad697c78ac1c7e9554d609bc6032960fcdba401a
+Subproject commit 73a076eee1cdc035de176f6061f4f1f5bfc1bd02

From 2f75f5a761b0856032ba5ff2fa25623336322cac Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 10 Jan 2025 07:24:17 +0000
Subject: [PATCH 765/837] Skip PagedBlockDiagonal attn_bias types for hdim-512

---
 tests/test_mem_eff_attention.py | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 26b446d969..d65282dea1 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -462,6 +462,16 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
     if fmt == "BMK" and not fmha.common._is_bias_type_supported_in_BMK(bias_type):
         pytest.skip("BMK incompatible with this bias")
 
+    if op is fmha.ck.FwOp:
+        if (k > 256 or kv > 256) and issubclass(
+            bias_type,
+            (
+                fmha.attn_bias.PagedBlockDiagonalPaddedKeysMask,
+                fmha.attn_bias.PagedBlockDiagonalGappyKeysMask,
+            ),
+        ):
+            pytest.skip("ck.FwOp hdim-512 is not supported when Paged-KVCache is used!")
+
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
         fmt="BMHK" if packed else fmt,

From acb58a5bafc9304556affb9b9585e826ef5d3a34 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 10 Jan 2025 10:31:15 +0000
Subject: [PATCH 766/837] Remove using DISABLE_HD256_HIP_FMHA env-variable and
 FMHA_SUPPORT_MAX_HEADDIM_128 defined constant

---
 setup.py                                      | 10 ----
 .../hip_fmha/ck_tiled_headdim_switch.h        | 48 -------------------
 2 files changed, 58 deletions(-)

diff --git a/setup.py b/setup.py
index 4af625a52d..02d303298e 100644
--- a/setup.py
+++ b/setup.py
@@ -422,14 +422,6 @@ def get_extensions():
     elif torch.version.hip and (
         torch.cuda.is_available() or os.getenv("HIP_ARCHITECTURES", "") != ""
     ):
-        disable_hd256_hip_fmha = os.getenv("DISABLE_HD256_HIP_FMHA", "0")
-        if disable_hd256_hip_fmha == "1":
-            source_hip_maxk_256 = []
-            for ff in source_hip:
-                if ff.endswith("maxk_256.cpp"):
-                    source_hip_maxk_256 += [ff]
-            source_hip = list(set(source_hip) - set(source_hip_maxk_256))
-
         rename_cpp_cu(source_hip)
         hip_version = get_hip_version(ROCM_HOME)
 
@@ -449,8 +441,6 @@ def get_extensions():
         ]
 
         generator_flag = []
-        if disable_hd256_hip_fmha == "1":
-            generator_flag += ["-DFMHA_SUPPORT_MAX_HEADDIM_128=1"]
 
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         use_rtn_bf16_convert = os.getenv("ENABLE_HIP_FMHA_RTN_BF16_CONVERT", "0")
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 1312fa397a..6fa0891f1e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -9,52 +9,6 @@
 #include <ck_tile/core.hpp>
 #include <stdexcept>
 
-#ifndef FMHA_SUPPORT_MAX_HEADDIM_128
-#define FMHA_SUPPORT_MAX_HEADDIM_128 0
-#endif
-
-#if FMHA_SUPPORT_MAX_HEADDIM_128
-
-#define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
-  [&] {                                                                \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
-      constexpr ck_tile::index_t CONST_NAME = 32;                      \
-      __VA_ARGS__();                                                   \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
-      constexpr ck_tile::index_t CONST_NAME = 64;                      \
-      __VA_ARGS__();                                                   \
-    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
-      constexpr ck_tile::index_t CONST_NAME = 96;                      \
-      __VA_ARGS__();                                                   \
-    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
-      constexpr ck_tile::index_t CONST_NAME = 128;                     \
-      __VA_ARGS__();                                                   \
-    } else {                                                           \
-      throw std::runtime_error("Head-dim sizes not supported!");       \
-    }                                                                  \
-  }()
-
-#define FMHA_BWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
-  [&] {                                                                \
-    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
-      constexpr ck_tile::index_t CONST_NAME = 32;                      \
-      __VA_ARGS__();                                                   \
-    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
-      constexpr ck_tile::index_t CONST_NAME = 64;                      \
-      __VA_ARGS__();                                                   \
-    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
-      constexpr ck_tile::index_t CONST_NAME = 96;                      \
-      __VA_ARGS__();                                                   \
-    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
-      constexpr ck_tile::index_t CONST_NAME = 128;                     \
-      __VA_ARGS__();                                                   \
-    } else {                                                           \
-      throw std::runtime_error("Head-dim sizes not supported!");       \
-    }                                                                  \
-  }()
-
-#else
-
 #define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
   [&] {                                                                \
     if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
@@ -101,5 +55,3 @@
       throw std::runtime_error("Head-dim sizes not supported!");       \
     }                                                                  \
   }()
-
-#endif

From 1887a33048a13ec42b7090d31028b39c6b82ffea Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 10 Jan 2025 15:58:02 +0000
Subject: [PATCH 767/837] Add using ENABLE_HD512_HIP_FMHA env-variable and
 FMHA_LIMIT_MAX_HEADDIM_TO_256 defined constant

---
 setup.py                                      | 10 ++++++
 tests/test_mem_eff_attention.py               |  5 +++
 .../hip_fmha/ck_tiled_headdim_switch.h        | 32 +++++++++++++++++++
 .../attention/hip_fmha/generate_instances.py  | 12 +++----
 4 files changed, 53 insertions(+), 6 deletions(-)

diff --git a/setup.py b/setup.py
index 02d303298e..41aa3afdd6 100644
--- a/setup.py
+++ b/setup.py
@@ -422,6 +422,14 @@ def get_extensions():
     elif torch.version.hip and (
         torch.cuda.is_available() or os.getenv("HIP_ARCHITECTURES", "") != ""
     ):
+        enable_hd512_hip_fmha = os.getenv("ENABLE_HD512_HIP_FMHA", "0")
+        if enable_hd512_hip_fmha != "1":
+            source_hip_maxk_512 = []
+            for ff in source_hip:
+                if ff.endswith("maxk_512.cpp"):
+                    source_hip_maxk_512 += [ff]
+            source_hip = list(set(source_hip) - set(source_hip_maxk_512))
+
         rename_cpp_cu(source_hip)
         hip_version = get_hip_version(ROCM_HOME)
 
@@ -441,6 +449,8 @@ def get_extensions():
         ]
 
         generator_flag = []
+        if enable_hd512_hip_fmha == "1":
+            generator_flag += ["-DFMHA_LIMIT_MAX_HEADDIM_TO_256=0"]
 
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         use_rtn_bf16_convert = os.getenv("ENABLE_HIP_FMHA_RTN_BF16_CONVERT", "0")
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index d65282dea1..0ca06238d6 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -472,6 +472,11 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         ):
             pytest.skip("ck.FwOp hdim-512 is not supported when Paged-KVCache is used!")
 
+    # comment this for testing hdim-512 cases if hdim-512 support is built into hip_fmha
+    if op is fmha.ck.FwOp:
+        if k > 256 or kv > 256:
+            pytest.skip("ck.FwOp hdim-512 support is not built by default!")
+
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
         fmt="BMHK" if packed else fmt,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index 6fa0891f1e..ed6ff86c3c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -9,6 +9,36 @@
 #include <ck_tile/core.hpp>
 #include <stdexcept>
 
+#ifndef FMHA_LIMIT_MAX_HEADDIM_TO_256
+#define FMHA_LIMIT_MAX_HEADDIM_TO_256 1
+#endif
+
+#if FMHA_LIMIT_MAX_HEADDIM_TO_256
+
+#define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
+  [&] {                                                                \
+    if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
+      constexpr ck_tile::index_t CONST_NAME = 32;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 64 && HEAD_DIM2 <= 64) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 64;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 96 && HEAD_DIM2 <= 96) {                   \
+      constexpr ck_tile::index_t CONST_NAME = 96;                      \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 128 && HEAD_DIM2 <= 128) {                 \
+      constexpr ck_tile::index_t CONST_NAME = 128;                     \
+      __VA_ARGS__();                                                   \
+    } else if (HEAD_DIM1 <= 256 && HEAD_DIM2 <= 256) {                 \
+      constexpr ck_tile::index_t CONST_NAME = 256;                     \
+      __VA_ARGS__();                                                   \
+    } else {                                                           \
+      throw std::runtime_error("Head-dim sizes not supported!");       \
+    }                                                                  \
+  }()
+
+#else
+
 #define FMHA_FWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
   [&] {                                                                \
     if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
@@ -34,6 +64,8 @@
     }                                                                  \
   }()
 
+#endif
+
 #define FMHA_BWD_HEADDIM_SWITCH(HEAD_DIM1, HEAD_DIM2, CONST_NAME, ...) \
   [&] {                                                                \
     if (HEAD_DIM1 <= 32 && HEAD_DIM2 <= 32) {                          \
diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index da94b0550e..396ceeacc0 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -354,15 +354,15 @@ def create_backward_instances_ref(instance_dir: Path, headdims: List) -> None:
 
 
 if __name__ == "__main__":
-    disable_hd256 = False
+    disable_hd512 = False
 
     for arg in sys.argv:
-        if arg == "--ignore-hd256":
-            disable_hd256 = True
+        if arg == "--ignore-hd512":
+            disable_hd512 = True
 
-    if disable_hd256:
-        headdims_fwd = [32, 64, 96, 128]
-        headdims_bwd = [32, 64, 96, 128]
+    if disable_hd512:
+        headdims_fwd = [32, 64, 96, 128, 256]
+        headdims_bwd = [32, 64, 96, 128, 256]
     else:
         headdims_fwd = [32, 64, 96, 128, 256, 512]
         headdims_bwd = [32, 64, 96, 128, 256]

From a5c68d2092dba27e06c9712aa10a8d06a2613189 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 10 Jan 2025 16:10:50 +0000
Subject: [PATCH 768/837] Update to the selector to explicitly use non-splitkv
 kernel for hdim-512

---
 .../attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h   | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index daa281c28d..5ba0e97d67 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -47,6 +47,10 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   mtile_size_for_splitkv_smallq =
       get_mtile_size_for_splitkv_smallq(max_headdim);
 
+  // hdim-512 is not supported by splitkv-kernel at present
+  if (max_headdim > 256)
+    return std::make_pair(false, 1);
+
   if (max_seqlen_q >= mtile_size_for_pipeline_default) {
     int batch_nhead_mblocks = num_batches * num_heads *
         ceildiv(max_seqlen_q, mtile_size_for_pipeline_default);

From 6da69d3d938264765de4a89a2319876e52767592 Mon Sep 17 00:00:00 2001
From: Johnny <johnnync13@gmail.com>
Date: Fri, 10 Jan 2025 19:06:45 +0100
Subject: [PATCH 769/837] Update wheels.yml

---
 .github/workflows/wheels.yml | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
index f104e1e55a..f740c52853 100644
--- a/.github/workflows/wheels.yml
+++ b/.github/workflows/wheels.yml
@@ -111,6 +111,8 @@ jobs:
           - cu121
           - cu124
           - rocm6.1
+          - rocm6.2
+          - rocm6.3
     uses: ./.github/workflows/wheels_upload_s3.yml
     with:
       aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"

From eeb581fe31a6dde011adcb6453d53a4eb5f9ed4c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 13 Jan 2025 04:52:03 +0000
Subject: [PATCH 770/837] Synchronize to latest ck commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 73a076eee1..3d50f57f43 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 73a076eee1cdc035de176f6061f4f1f5bfc1bd02
+Subproject commit 3d50f57f4362afc9a69e39858ea3bda9b0fb5159

From 701685cc68dfd4061a06b9f746343b4dde51058f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 13 Jan 2025 04:53:58 +0000
Subject: [PATCH 771/837] Use 64x128 Gemm0 Tile and WarpGemm-16x16x16 for
 hdim-512

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h     | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 05a9d0a069..0045b8b49f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -68,7 +68,7 @@ template struct FmhaFwdBlockTile<256>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdBlockTile<512, MTile> {
-  using type = ck_tile::sequence<128, 128, 32, 512, 32, 512>;
+  using type = ck_tile::sequence<64, 128, 32, 512, 32, 512>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -164,9 +164,9 @@ struct FmhaFwdShape<512, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdBlockTile<512>::type,
       typename FmhaFwdBlockTile<512>::gemm0_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdWarpTile2,
       typename FmhaFwdBlockTile<512>::gemm1_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdWarpTile2,
       IsVLayoutRowMajor>;
 };
 

From 84883b5db2fd0bb5256e451b5bd61836730445f8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 13 Jan 2025 09:01:44 +0000
Subject: [PATCH 772/837] Remove using splitkv kernel from fmha fwd training
 path

---
 .../attention_forward_generic_ck_tiled.cpp    | 11 +++-
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 63 +++++-------------
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 66 +++++--------------
 3 files changed, 41 insertions(+), 99 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index fbc43d21dd..54ac6f0173 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -247,7 +247,9 @@ efficient_attention_forward_ck(
         get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
-    p.use_split_kv = (!use_dropout && use_split_kv) ? true : false;
+    // 2) Don't use split-kv for fmha-fwd training path
+    p.use_split_kv =
+        (!use_dropout && !p.compute_logsumexp && use_split_kv) ? true : false;
 
     p.num_kv_splits = num_kv_splits;
 
@@ -397,8 +399,11 @@ efficient_attention_forward_ck(
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
-    p.use_split_kv =
-        (p.use_paged_kvcache || (!use_dropout && use_split_kv)) ? true : false;
+    // 3) Don't use split-kv for fmha-fwd training path
+    p.use_split_kv = (p.use_paged_kvcache ||
+                      (!use_dropout && !p.compute_logsumexp && use_split_kv))
+        ? true
+        : false;
 
     p.num_kv_splits = num_kv_splits;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index 434e80a084..f3763ed50c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -8,11 +8,7 @@
 
 #include <algorithm>
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
-#include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
-#include "ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
-#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
-#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -23,50 +19,23 @@ template <
 void run_batched_forward_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support:
-  // (*) dropout
-  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv && MaxK <= 256) {
-      if constexpr (MaxK <= 256) {
-        if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
-          batched_forward_splitkv_smallq_mask_bias_dropout_dispatch<
-              ScalarType,
-              kHasMask,
-              kHasBias,
-              MaxK>::Run(param, stream);
-        } else {
-          FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
-            batched_forward_splitkv_mask_bias_dropout_dispatch<
-                ScalarType,
-                kHasMask,
-                kHasBias,
-                MaxK,
-                MaxSeqlenQ>::Run(param, stream);
-          });
-        }
-      } else {
-        // Unreachable. Do not instantiate split-kv pipelines with head
-        // dimension > 256
-      }
-    } else {
-      if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
-        batched_forward_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            kHasDropout,
-            MaxK,
-            128>::Run(param, stream);
-      else
-        batched_forward_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            kHasDropout,
-            MaxK,
-            64>::Run(param, stream);
-    }
+    if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
+      batched_forward_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK,
+          128>::Run(param, stream);
+    else
+      batched_forward_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK,
+          64>::Run(param, stream);
   } else {
     // at present, dropout of fwd kernel requires 32x32 WarpTile
     batched_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 39c3a10fbf..591fbd1f7d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -8,11 +8,7 @@
 
 #include <algorithm>
 #include "ck_tiled_fmha_fwd_setting.h"
-#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
-#include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
-#include "ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h"
-#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -23,52 +19,24 @@ template <
 void run_grouped_forward_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
-  // currently split-kv implementation does not support:
-  // (*) dropout
-  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv && MaxK <= 256) {
-      if constexpr (MaxK <= 256) {
-        if (use_splitkv_smallq(
-                param.max_seqlen_q, std::max(param.K, param.Kv))) {
-          grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
-              ScalarType,
-              kHasMask,
-              kHasBias,
-              MaxK>::Run(param, stream);
-        } else {
-          FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-            grouped_forward_splitkv_mask_bias_dropout_dispatch<
-                ScalarType,
-                kHasMask,
-                kHasBias,
-                MaxK,
-                MaxSeqlenQ>::Run(param, stream);
-          });
-        }
-      } else {
-        // Unreachable. Do not instantiate split-kv pipelines with head
-        // dimension > 256
-      }
-    } else {
-      if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
-          128)
-        grouped_forward_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            kHasDropout,
-            MaxK,
-            128>::Run(param, stream);
-      else
-        grouped_forward_mask_bias_dropout_dispatch<
-            ScalarType,
-            kHasMask,
-            kHasBias,
-            kHasDropout,
-            MaxK,
-            64>::Run(param, stream);
-    }
+    if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
+        128)
+      grouped_forward_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK,
+          128>::Run(param, stream);
+    else
+      grouped_forward_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK,
+          64>::Run(param, stream);
   } else {
     // at present, dropout of fwd kernel requires 32x32 WarpTile
     grouped_forward_mask_bias_dropout_dispatch<

From be6f8c2d73dc63b93ee5c3e137354c9bb848f569 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 14 Jan 2025 07:20:59 +0000
Subject: [PATCH 773/837] Add -Wc++11-narrowing to hip_fmha compiling options
 to avoid any errors been suppressed

---
 setup.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/setup.py b/setup.py
index 41aa3afdd6..f4371947f2 100644
--- a/setup.py
+++ b/setup.py
@@ -475,6 +475,7 @@ def get_extensions():
                 "-DCK_TILE_FMHA_FWD_FAST_EXP2=1",
                 "-fgpu-flush-denormals-to-zero",
                 "-Werror",
+                "-Wc++11-narrowing",
                 "-Woverloaded-virtual",
                 "-mllvm",
                 "-enable-post-misched=0",

From e14bf36b52d15ed377d4003b4ecb9b3818b7f487 Mon Sep 17 00:00:00 2001
From: Johnny <johnnync13@gmail.com>
Date: Wed, 15 Jan 2025 10:06:27 +0100
Subject: [PATCH 774/837] Update wheels.yml

---
 .github/workflows/wheels.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
index f740c52853..18c695ec86 100644
--- a/.github/workflows/wheels.yml
+++ b/.github/workflows/wheels.yml
@@ -118,5 +118,5 @@ jobs:
       aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"
       s3_path: s3://pytorch/whl/${{ matrix.suffix }}/
       aws_s3_cp_extra_args: --acl public-read
-      filter: "*torch2.5.1+${{ matrix.suffix }}*"
+      filter: "*torch2.6.0+${{ matrix.suffix }}*"
       execute: ${{ github.repository == 'facebookresearch/xformers' && github.ref_type == 'tag' }}

From 6213bf6ccdc8bad7d329b3f0906acb2197acb5f2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 15 Jan 2025 10:07:34 +0000
Subject: [PATCH 775/837] Disable PagedAttn bias types and hdim-512 for
 test_logsumexp

---
 tests/test_mem_eff_attention.py | 19 +++++++++++++++++--
 1 file changed, 17 insertions(+), 2 deletions(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 0ca06238d6..254fab98dd 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -432,7 +432,7 @@ def nanify_oob_seqlen(x: torch.Tensor) -> torch.Tensor:
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
+def est_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
     (
         op,
         device,
@@ -564,7 +564,22 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
     ) = opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
 
     if op is fmha.ck.FwOp:
-        pytest.skip("logsumexp is not yet supported by ck-tiled fmha!")
+        if issubclass(
+            bias_type,
+            (
+                fmha.attn_bias.PagedBlockDiagonalPaddedKeysMask,
+                fmha.attn_bias.PagedBlockDiagonalGappyKeysMask,
+            ),
+        ):
+            pytest.skip(
+                "With ck.FwOp Paged-KVCache has some problem with forward training!"
+            )
+
+    # comment this for testing hdim-512 cases if hdim-512 support is built into hip_fmha
+    if op is fmha.ck.FwOp:
+        if k > 256 or kv > 256:
+            pytest.skip("ck.FwOp hdim-512 support is not built by default!")
+
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
         fmt="BMHK",

From 58c037b273682e35d41994cd3180ec6a8e6047b4 Mon Sep 17 00:00:00 2001
From: Johnny <johnnync13@gmail.com>
Date: Wed, 15 Jan 2025 20:35:15 +0100
Subject: [PATCH 776/837] Update wheels.yml

---
 .github/workflows/wheels.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
index 18c695ec86..f740c52853 100644
--- a/.github/workflows/wheels.yml
+++ b/.github/workflows/wheels.yml
@@ -118,5 +118,5 @@ jobs:
       aws_role: "arn:aws:iam::749337293305:role/pytorch_bot_uploader_role"
       s3_path: s3://pytorch/whl/${{ matrix.suffix }}/
       aws_s3_cp_extra_args: --acl public-read
-      filter: "*torch2.6.0+${{ matrix.suffix }}*"
+      filter: "*torch2.5.1+${{ matrix.suffix }}*"
       execute: ${{ github.repository == 'facebookresearch/xformers' && github.ref_type == 'tag' }}

From 1dcb9d895b1c553b360fd48ded95f77076571c32 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Wed, 15 Jan 2025 21:33:55 +0000
Subject: [PATCH 777/837] hotfix typo

---
 tests/test_mem_eff_attention.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 254fab98dd..8fa42c4195 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -432,7 +432,7 @@ def nanify_oob_seqlen(x: torch.Tensor) -> torch.Tensor:
 @pytest.mark.parametrize("fmt", ["BMK", "BMHK"])
 @pytest.mark.parametrize("packed", [False, True])
 @parametrize_opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv
-def est_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
+def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs):
     (
         op,
         device,

From fdc222dd7f412e64be402c5421033cfcb7bc2459 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 16 Jan 2025 10:30:33 +0000
Subject: [PATCH 778/837] Use new pipeline assignment strategy and separate
 tile shape settings for qr_ks_vs and qr_ks_vs_async

---
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |  35 ++--
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 127 +++++-------
 .../ck_tiled_fmha_fwd_async_setting.h         | 194 ++++++++++++++++++
 .../ck_tiled_fmha_fwd_splitkv_selector.h      |   5 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  36 ++--
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 115 ++++-------
 6 files changed, 333 insertions(+), 179 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 77ec5f9663..adddeb81ad 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -10,6 +10,7 @@
 #include "ck_tiled_fmha_batched_infer_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h"
+#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
@@ -50,7 +51,16 @@ void run_batched_infer_mask_bias_dropout_dispatch(
         // dimension > 256
       }
     } else {
-      if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
+      auto mtile = [&](auto) {
+        if constexpr (MaxK <= 256)
+          return get_fmha_fwd_async_mtile(
+              param.num_batches, param.Hq, param.max_seqlen_q);
+        else
+          return get_fmha_fwd_mtile(
+              param.num_batches, param.Hq, param.max_seqlen_q);
+      )();
+
+      if (mtile == 128)
         batched_infer_mask_bias_dropout_dispatch<
             ScalarType,
             kHasMask,
@@ -66,15 +76,16 @@ void run_batched_infer_mask_bias_dropout_dispatch(
             kHasDropout,
             MaxK,
             64>::Run(param, stream);
+      }
+    }
+    else {
+      // at present, dropout of fwd kernel requires 32x32 WarpTile
+      batched_infer_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK,
+          128>::Run(param, stream);
     }
-  } else {
-    // at present, dropout of fwd kernel requires 32x32 WarpTile
-    batched_infer_mask_bias_dropout_dispatch<
-        ScalarType,
-        kHasMask,
-        kHasBias,
-        kHasDropout,
-        MaxK,
-        128>::Run(param, stream);
-  }
-};
+  };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 02fc125b7e..2f3acab1a3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -13,6 +13,7 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
@@ -25,6 +26,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct batched_infer_mask_bias_dropout_dispatch {
+  using FmhaShape = std::conditional_t<
+      MaxK <= 256,
+      typename FmhaFwdAsyncShape<MaxK, MTile>::Type,
+      typename FmhaFwdShape<MaxK, MTile>::Type>;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -38,7 +44,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::PDataType,
       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      typename FmhaFwdShape<MaxK, MTile>::Type,
+      FmhaShape,
       false, // kIsGroupMode
       FmhaMask,
       FmhaTraits>;
@@ -46,7 +52,6 @@ struct batched_infer_mask_bias_dropout_dispatch {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
     constexpr ck_tile::index_t occupancy =
         (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
 
@@ -64,85 +69,45 @@ struct batched_infer_mask_bias_dropout_dispatch {
     // determine whether to do padding saving some compiling time
     const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
 
-    const bool use_async_pipeline =
-        (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-         (MaxK <= 128));
-
-    if (!use_async_pipeline) {
-      BOOL_SWITCH_3(
-          pad_seqlen_q,
-          kPadSeqLenQ,
-          pad_seqlen_k,
-          kPadSeqLenK,
-          pad_headdim,
-          kPadHeadDim,
-          [&] {
-            using FmhaTraits = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDim, // kPadHeadDimQ,
-                kPadHeadDim, // kPadHeadDimV,
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                false, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-            using FmhaPipeline = std::conditional_t<
-                MaxK <= 256,
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>,
-                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
-            using FmhaEpilogue =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDim>>;
-
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          });
-    } else {
-      BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-        using FmhaTraits = ck_tile::TileFmhaTraits<
-            true, // kPadSeqLenQ,
-            kPadSeqLenK,
-            true, // kPadHeadDimQ,
-            true, // kPadHeadDimV,
-            kBiasEnum,
-            false, // kHasBiasGrad place-holder
-            false, // kStoreLSE
-            kHasDropout,
-            false, // kDoFp8StaticQuant place-holder
-            occupancy>;
-
-        using FmhaPipelineProblem =
-            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-        using FmhaPipeline = std::conditional_t<
-            MaxK <= 256,
-            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
-            ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
-        using FmhaEpilogue =
-            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                true,
-                true>>;
-
-        using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-        RunWithKernel<FmhaKernel>(param, stream);
-      });
-    };
+    BOOL_SWITCH_3(
+        pad_seqlen_q,
+        kPadSeqLenQ,
+        pad_seqlen_k,
+        kPadSeqLenK,
+        pad_headdim,
+        kPadHeadDim,
+        [&] {
+          using FmhaTraits = ck_tile::TileFmhaTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDim, // kPadHeadDimQ,
+              kPadHeadDim, // kPadHeadDimV,
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              false, // kStoreLSE
+              kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline = std::conditional_t<
+              MaxK <= 256,
+              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
+              ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDim>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        });
   };
 
   template <typename FmhaKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
new file mode 100644
index 0000000000..c4a4cac456
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -0,0 +1,194 @@
+/*
+ * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+#include <ck_tile/ops/fmha.hpp>
+#include "ck_fmha_util.h"
+#include "ck_tiled_fmha_fwd_type_config.h"
+
+template <ck_tile::index_t MaxK, ck_tile::index_t MTile = 0>
+struct FmhaFwdAsyncBlockTile;
+
+// Tile-sizes: M N0 K0 N1 K1 MaxK (MaxK % K0 == 0, MaxK % N1 == 0, N0 % K1 == 0)
+//
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncBlockTile<32, MTile> {
+  using type = ck_tile::sequence<64, 64, 16, 32, 32, 32>;
+  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
+};
+
+template struct FmhaFwdAsyncBlockTile<32>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncBlockTile<64, MTile> {
+  using type = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdAsyncBlockTile<64>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncBlockTile<96, MTile> {
+  using type = ck_tile::sequence<128, 64, 32, 128, 32, 96>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdAsyncBlockTile<96>;
+
+template <>
+struct FmhaFwdAsyncBlockTile<128, 64> {
+  using type = ck_tile::sequence<64, 64, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template <>
+struct FmhaFwdAsyncBlockTile<128, 128> {
+  using type = ck_tile::sequence<128, 64, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncBlockTile<256, MTile> {
+  using type = ck_tile::sequence<128, 32, 32, 256, 32, 256>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdAsyncBlockTile<256>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncBlockTile<512, MTile> {
+  using type = ck_tile::sequence<64, 128, 32, 512, 32, 512>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
+
+template struct FmhaFwdAsyncBlockTile<512>;
+
+using FmhaFwdWarpTile1 = ck_tile::sequence<32, 32, 16>;
+using FmhaFwdWarpTile2 = ck_tile::sequence<16, 16, 16>;
+
+template <ck_tile::index_t MaxK, ck_tile::index_t MTile>
+struct FmhaFwdAsyncShape;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncShape<32, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<32>::type,
+      typename FmhaFwdAsyncBlockTile<32>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdAsyncBlockTile<32>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdAsyncShape<32, 64>;
+template struct FmhaFwdAsyncShape<32, 128>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncShape<64, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<64>::type,
+      typename FmhaFwdAsyncBlockTile<64>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdAsyncBlockTile<64>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdAsyncShape<64, 64>;
+template struct FmhaFwdAsyncShape<64, 128>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncShape<96, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<96>::type,
+      typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdAsyncShape<96, 64>;
+template struct FmhaFwdAsyncShape<96, 128>;
+
+template <>
+struct FmhaFwdAsyncShape<128, 64> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<128, 64>::type,
+      typename FmhaFwdAsyncBlockTile<128, 64>::gemm0_warps,
+      FmhaFwdWarpTile2,
+      typename FmhaFwdAsyncBlockTile<128, 64>::gemm1_warps,
+      FmhaFwdWarpTile2,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdAsyncShape<128, 128> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<128, 128>::type,
+      typename FmhaFwdAsyncBlockTile<128, 128>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdAsyncBlockTile<128, 128>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncShape<256, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<256>::type,
+      typename FmhaFwdAsyncBlockTile<256>::gemm0_warps,
+      FmhaFwdWarpTile1,
+      typename FmhaFwdAsyncBlockTile<256>::gemm1_warps,
+      FmhaFwdWarpTile1,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdAsyncShape<256, 64>;
+template struct FmhaFwdAsyncShape<256, 128>;
+
+template <ck_tile::index_t MTile>
+struct FmhaFwdAsyncShape<512, MTile> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdAsyncBlockTile<512>::type,
+      typename FmhaFwdAsyncBlockTile<512>::gemm0_warps,
+      FmhaFwdWarpTile2,
+      typename FmhaFwdAsyncBlockTile<512>::gemm1_warps,
+      FmhaFwdWarpTile2,
+      IsVLayoutRowMajor>;
+};
+
+template struct FmhaFwdAsyncShape<512, 64>;
+template struct FmhaFwdAsyncShape<512, 128>;
+
+static int get_fmha_fwd_async_mtile(
+    int num_batches,
+    int num_heads,
+    int max_seqlen_q) {
+  int num_SMs = get_number_of_cu();
+  auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
+
+  int batch_nhead_mblocks =
+      num_batches * num_heads * ceildiv(max_seqlen_q, 128);
+
+  if (batch_nhead_mblocks >= 0.8 * num_SMs)
+    return 128;
+
+  return 64;
+};
+
+static int get_fmha_fwd_async_least_mtile() {
+  return 64;
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 5ba0e97d67..6b1478c28a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -27,6 +27,7 @@ static int generate_splits_list(int i) {
 };
 
 static std::pair<bool, int> get_num_kv_splits_heuristic(
+    bool compute_lse,
     int num_batches,
     int num_heads,
     int max_seqlen_q,
@@ -35,7 +36,9 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   int num_SMs = get_number_of_cu();
   auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
 
-  int mtile_size_for_pipeline_default = get_fmha_fwd_least_mtile();
+  int mtile_size_for_pipeline_default = compute_lse
+      ? get_fmha_fwd_least_mtile()
+      : get_fmha_fwd_async_least_mtile();
   int mtile_size_for_splitkv = 64;
   int mtile_size_for_splitkv_smallq = 16;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index f990b7218a..5fc7b8e20e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -7,6 +7,7 @@
 #pragma once
 
 #include <algorithm>
+#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
@@ -51,8 +52,16 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
         // dimension > 256
       }
     } else {
-      if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
-          128)
+      auto mtile = [&](auto) {
+        if constexpr (MaxK <= 256)
+          return get_fmha_fwd_async_mtile(
+              param.num_batches, param.Hq, param.max_seqlen_q);
+        else
+          return get_fmha_fwd_mtile(
+              param.num_batches, param.Hq, param.max_seqlen_q);
+      )();
+
+      if (mtile == 128)
         grouped_infer_mask_bias_dropout_dispatch<
             ScalarType,
             kHasMask,
@@ -68,15 +77,16 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
             kHasDropout,
             MaxK,
             64>::Run(param, stream);
+      }
+    }
+    else {
+      // at present, dropout of fwd kernel requires 32x32 WarpTile
+      grouped_infer_mask_bias_dropout_dispatch<
+          ScalarType,
+          kHasMask,
+          kHasBias,
+          kHasDropout,
+          MaxK,
+          128>::Run(param, stream);
     }
-  } else {
-    // at present, dropout of fwd kernel requires 32x32 WarpTile
-    grouped_infer_mask_bias_dropout_dispatch<
-        ScalarType,
-        kHasMask,
-        kHasBias,
-        kHasDropout,
-        MaxK,
-        128>::Run(param, stream);
-  }
-};
+  };
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 70973b880d..ea435a018b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -13,6 +13,7 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
@@ -25,6 +26,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct grouped_infer_mask_bias_dropout_dispatch {
+  using FmhaShape = std::conditional_t<
+      MaxK <= 256,
+      typename FmhaFwdAsyncShape<MaxK, MTile>::Type,
+      typename FmhaFwdShape<MaxK, MTile>::Type>;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -38,15 +44,16 @@ struct grouped_infer_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::PDataType,
       typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-      typename FmhaFwdShape<MaxK, MTile>::Type,
+      FmhaShape,
       true, // kIsGroupMode
       FmhaMask,
       FmhaTraits>;
 
+  static_assert(MaxK <= 256, "Maxk > 256 could not execute this path!");
+
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
     constexpr ck_tile::index_t occupancy =
         (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
 
@@ -59,76 +66,40 @@ struct grouped_infer_mask_bias_dropout_dispatch {
 
     bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
     bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-    const bool use_async_pipeline =
-        (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-         (MaxK <= 128));
-
-    if (!use_async_pipeline) {
-      BOOL_SWITCH_2(
-          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-            using FmhaTraits = ck_tile::TileFmhaTraits<
-                kPadSeqLenQ,
-                kPadSeqLenK,
-                kPadHeadDimQ,
-                kPadHeadDimV,
-                kBiasEnum,
-                false, // kHasBiasGrad place-holder
-                false, // kStoreLSE
-                kHasDropout,
-                false, // kDoFp8StaticQuant place-holder
-                occupancy>;
-
-            using FmhaPipelineProblem =
-                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-            using FmhaPipeline = std::conditional_t<
-                MaxK <= 256,
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>,
-                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
-            using FmhaEpilogue =
-                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                    kPadSeqLenQ,
-                    kPadHeadDimV>>;
-
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          });
-    } else {
-      using FmhaTraits = ck_tile::TileFmhaTraits<
-          true, // kPadSeqLenQ,
-          kPadSeqLenK,
-          true, // kPadHeadDimQ,
-          true, // kPadHeadDimV,
-          kBiasEnum,
-          false, // kHasBiasGrad place-holder
-          false, // kStoreLSE
-          kHasDropout,
-          false, // kDoFp8StaticQuant place-holder
-          occupancy>;
-
-      using FmhaPipelineProblem = FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-      using FmhaPipeline = std::conditional_t<
-          MaxK <= 256,
-          ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
-          ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
-      using FmhaEpilogue =
-          ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-              typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-              typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-              true,
-              true>>;
-
-      using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-      RunWithKernel<FmhaKernel>(param, stream);
-    }
+
+    BOOL_SWITCH_2(
+        pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+          using FmhaTraits = ck_tile::TileFmhaTraits<
+              kPadSeqLenQ,
+              kPadSeqLenK,
+              kPadHeadDimQ,
+              kPadHeadDimV,
+              kBiasEnum,
+              false, // kHasBiasGrad place-holder
+              false, // kStoreLSE
+              kHasDropout,
+              false, // kDoFp8StaticQuant place-holder
+              occupancy>;
+
+          using FmhaPipelineProblem =
+              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+          using FmhaPipeline = std::conditional_t<
+              MaxK <= 256,
+              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
+              ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
+
+          using FmhaEpilogue =
+              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                  kPadSeqLenQ,
+                  kPadHeadDimV>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        });
   };
 
   template <typename FmhaKernel>

From 6c78398404eeaef6882ce978852d1e3f00fbda8f Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 16 Jan 2025 18:34:30 +0000
Subject: [PATCH 779/837] enable hdim=512 by default

---
 setup.py                        | 12 ++----------
 tests/test_mem_eff_attention.py |  5 -----
 2 files changed, 2 insertions(+), 15 deletions(-)

diff --git a/setup.py b/setup.py
index f4371947f2..1972c1bf49 100644
--- a/setup.py
+++ b/setup.py
@@ -422,14 +422,6 @@ def get_extensions():
     elif torch.version.hip and (
         torch.cuda.is_available() or os.getenv("HIP_ARCHITECTURES", "") != ""
     ):
-        enable_hd512_hip_fmha = os.getenv("ENABLE_HD512_HIP_FMHA", "0")
-        if enable_hd512_hip_fmha != "1":
-            source_hip_maxk_512 = []
-            for ff in source_hip:
-                if ff.endswith("maxk_512.cpp"):
-                    source_hip_maxk_512 += [ff]
-            source_hip = list(set(source_hip) - set(source_hip_maxk_512))
-
         rename_cpp_cu(source_hip)
         hip_version = get_hip_version(ROCM_HOME)
 
@@ -449,8 +441,8 @@ def get_extensions():
         ]
 
         generator_flag = []
-        if enable_hd512_hip_fmha == "1":
-            generator_flag += ["-DFMHA_LIMIT_MAX_HEADDIM_TO_256=0"]
+        # build (head dimension = 512) instances
+        generator_flag += ["-DFMHA_LIMIT_MAX_HEADDIM_TO_256=0"]
 
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         use_rtn_bf16_convert = os.getenv("ENABLE_HIP_FMHA_RTN_BF16_CONVERT", "0")
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 8fa42c4195..3118215a78 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -472,11 +472,6 @@ def test_forward(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv, packed, fmt, **kwargs)
         ):
             pytest.skip("ck.FwOp hdim-512 is not supported when Paged-KVCache is used!")
 
-    # comment this for testing hdim-512 cases if hdim-512 support is built into hip_fmha
-    if op is fmha.ck.FwOp:
-        if k > 256 or kv > 256:
-            pytest.skip("ck.FwOp hdim-512 support is not built by default!")
-
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
         fmt="BMHK" if packed else fmt,

From 0c85bee74ac73ffa6cc837aa95a65086e93f42d8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 17 Jan 2025 08:08:28 +0000
Subject: [PATCH 780/837] Further update to build hdim-512 by default

---
 setup.py                                                    | 2 --
 tests/test_mem_eff_attention.py                             | 5 -----
 .../hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h       | 6 ++++--
 .../hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h       | 6 ++++--
 xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h  | 2 +-
 5 files changed, 9 insertions(+), 12 deletions(-)

diff --git a/setup.py b/setup.py
index 1972c1bf49..fd9cf5d69b 100644
--- a/setup.py
+++ b/setup.py
@@ -441,8 +441,6 @@ def get_extensions():
         ]
 
         generator_flag = []
-        # build (head dimension = 512) instances
-        generator_flag += ["-DFMHA_LIMIT_MAX_HEADDIM_TO_256=0"]
 
         cc_flag = ["-DBUILD_PYTHON_PACKAGE"]
         use_rtn_bf16_convert = os.getenv("ENABLE_HIP_FMHA_RTN_BF16_CONVERT", "0")
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index 3118215a78..28ba67ccbe 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -570,11 +570,6 @@ def test_logsumexp(opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv):
                 "With ck.FwOp Paged-KVCache has some problem with forward training!"
             )
 
-    # comment this for testing hdim-512 cases if hdim-512 support is built into hip_fmha
-    if op is fmha.ck.FwOp:
-        if k > 256 or kv > 256:
-            pytest.skip("ck.FwOp hdim-512 support is not built by default!")
-
     query, key, value, attn_bias = create_tensors(
         *opFW_device_dtype_biasT_B_Mq_Mkv_H_K_Kv,
         fmt="BMHK",
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index 48c1e246b3..34a38bab98 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -89,8 +89,10 @@ struct batched_forward_mask_bias_dropout_dispatch {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
-          using FmhaFwdPipeline_ =
-              ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+          using FmhaFwdPipeline_ = std::conditional_t<
+              MaxK <= 256,
+              ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>,
+              ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
 
           using FmhaFwdEpilogue_ =
               ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index ac5090f4c5..a5bab401b1 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -78,8 +78,10 @@ struct grouped_forward_mask_bias_dropout_dispatch {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaFwdTraits_, FmhaMask>;
 
-          using FmhaFwdPipeline_ =
-              ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+          using FmhaFwdPipeline_ = std::conditional_t<
+              MaxK <= 256,
+              ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>,
+              ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
 
           using FmhaFwdEpilogue_ =
               ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
index ed6ff86c3c..b0f66cc773 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_headdim_switch.h
@@ -10,7 +10,7 @@
 #include <stdexcept>
 
 #ifndef FMHA_LIMIT_MAX_HEADDIM_TO_256
-#define FMHA_LIMIT_MAX_HEADDIM_TO_256 1
+#define FMHA_LIMIT_MAX_HEADDIM_TO_256 0
 #endif
 
 #if FMHA_LIMIT_MAX_HEADDIM_TO_256

From ddbe036d7c634a66a78b059ccc1ff85a9abd3415 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 22 Jan 2025 14:49:17 +0000
Subject: [PATCH 781/837] Use separate setting for qr_ks_vs and qr_ks_vs_async
 pipelines

---
 .gitmodules                                   |  2 +-
 third_party/composable_kernel_tiled           |  2 +-
 .../attention_forward_generic_ck_tiled.cpp    | 11 ++--
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    | 33 ++++++------
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 40 ++++++++++-----
 .../ck_tiled_fmha_fwd_async_setting.h         | 51 +++++--------------
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      | 31 ++++-------
 .../ck_tiled_fmha_fwd_splitkv_selector.h      |  1 +
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 27 +++++-----
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 42 +++++++++------
 10 files changed, 114 insertions(+), 126 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 176104791f..283558de59 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop
+	branch = ck_tile/improve_async_pipeline
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 3d50f57f43..3ee41b406b 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 3d50f57f4362afc9a69e39858ea3bda9b0fb5159
+Subproject commit 3ee41b406b23fb96b2355c0b9ef3914cfcd9e432
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 54ac6f0173..566a3cf24e 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -243,8 +243,8 @@ efficient_attention_forward_ck(
     bool use_split_kv;
     int num_kv_splits;
 
-    std::tie(use_split_kv, num_kv_splits) =
-        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
+    std::tie(use_split_kv, num_kv_splits) = get_num_kv_splits_heuristic(
+        p.compute_logsumexp, p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Don't use split-kv for fmha-fwd training path
@@ -395,7 +395,12 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     std::tie(use_split_kv, num_kv_splits) = get_num_kv_splits_heuristic(
-        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 8);
+        p.compute_logsumexp,
+        p.num_batches,
+        p.Hq,
+        p.max_seqlen_q,
+        std::max(p.K, p.Kv),
+        8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index adddeb81ad..7cd3ba2e13 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -51,14 +51,12 @@ void run_batched_infer_mask_bias_dropout_dispatch(
         // dimension > 256
       }
     } else {
-      auto mtile = [&](auto) {
+      const auto mtile = [&]() {
         if constexpr (MaxK <= 256)
-          return get_fmha_fwd_async_mtile(
-              param.num_batches, param.Hq, param.max_seqlen_q);
+          return get_fmha_fwd_async_mtile(param.B, param.Hq, param.M);
         else
-          return get_fmha_fwd_mtile(
-              param.num_batches, param.Hq, param.max_seqlen_q);
-      )();
+          return get_fmha_fwd_mtile(param.B, param.Hq, param.M);
+      }();
 
       if (mtile == 128)
         batched_infer_mask_bias_dropout_dispatch<
@@ -76,16 +74,15 @@ void run_batched_infer_mask_bias_dropout_dispatch(
             kHasDropout,
             MaxK,
             64>::Run(param, stream);
-      }
-    }
-    else {
-      // at present, dropout of fwd kernel requires 32x32 WarpTile
-      batched_infer_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK,
-          128>::Run(param, stream);
     }
-  };
+  } else {
+    // at present, dropout of fwd kernel requires 32x32 WarpTile
+    batched_infer_mask_bias_dropout_dispatch<
+        ScalarType,
+        kHasMask,
+        kHasBias,
+        kHasDropout,
+        MaxK,
+        128>::Run(param, stream);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 2f3acab1a3..17c8816b9a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -26,10 +26,16 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct batched_infer_mask_bias_dropout_dispatch {
-  using FmhaShape = std::conditional_t<
-      MaxK <= 256,
-      typename FmhaFwdAsyncShape<MaxK, MTile>::Type,
-      typename FmhaFwdShape<MaxK, MTile>::Type>;
+  static constexpr bool kUseAsyncPipeline = (MaxK <= 256 && !kHasDropout);
+
+  constexpr static auto get_fmha_shape_type() {
+    if constexpr (kUseAsyncPipeline)
+      return typename FmhaFwdAsyncShape<MaxK, MTile>::Type{};
+    else
+      return typename FmhaFwdShape<MaxK, MTile>::Type{};
+  };
+
+  using FmhaShape = decltype(get_fmha_shape_type());
 
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -52,8 +58,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
   static void Run(BatchedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    constexpr ck_tile::index_t occupancy =
-        (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
+    constexpr ck_tile::index_t occupancy = -1;
 
     constexpr auto kBiasEnum = kHasBias
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
@@ -92,11 +97,6 @@ struct batched_infer_mask_bias_dropout_dispatch {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-          using FmhaPipeline = std::conditional_t<
-              MaxK <= 256,
-              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
-              ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
           using FmhaEpilogue =
               ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                   typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
@@ -104,9 +104,21 @@ struct batched_infer_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDim>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
+          if constexpr (kUseAsyncPipeline) {
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          } else {
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          }
         });
   };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index c4a4cac456..a374cfe23c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -66,17 +66,8 @@ struct FmhaFwdAsyncBlockTile<256, MTile> {
 
 template struct FmhaFwdAsyncBlockTile<256>;
 
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncBlockTile<512, MTile> {
-  using type = ck_tile::sequence<64, 128, 32, 512, 32, 512>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template struct FmhaFwdAsyncBlockTile<512>;
-
-using FmhaFwdWarpTile1 = ck_tile::sequence<32, 32, 16>;
-using FmhaFwdWarpTile2 = ck_tile::sequence<16, 16, 16>;
+using FmhaFwdAsyncWarpTile1 = ck_tile::sequence<32, 32, 16>;
+using FmhaFwdAsyncWarpTile2 = ck_tile::sequence<16, 16, 16>;
 
 template <ck_tile::index_t MaxK, ck_tile::index_t MTile>
 struct FmhaFwdAsyncShape;
@@ -86,9 +77,9 @@ struct FmhaFwdAsyncShape<32, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<32>::type,
       typename FmhaFwdAsyncBlockTile<32>::gemm0_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<32>::gemm1_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 
@@ -100,9 +91,9 @@ struct FmhaFwdAsyncShape<64, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<64>::type,
       typename FmhaFwdAsyncBlockTile<64>::gemm0_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<64>::gemm1_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 
@@ -114,9 +105,9 @@ struct FmhaFwdAsyncShape<96, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<96>::type,
       typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 
@@ -128,9 +119,9 @@ struct FmhaFwdAsyncShape<128, 64> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<128, 64>::type,
       typename FmhaFwdAsyncBlockTile<128, 64>::gemm0_warps,
-      FmhaFwdWarpTile2,
+      FmhaFwdAsyncWarpTile2,
       typename FmhaFwdAsyncBlockTile<128, 64>::gemm1_warps,
-      FmhaFwdWarpTile2,
+      FmhaFwdAsyncWarpTile2,
       IsVLayoutRowMajor>;
 };
 
@@ -139,9 +130,9 @@ struct FmhaFwdAsyncShape<128, 128> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<128, 128>::type,
       typename FmhaFwdAsyncBlockTile<128, 128>::gemm0_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<128, 128>::gemm1_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 
@@ -150,29 +141,15 @@ struct FmhaFwdAsyncShape<256, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<256>::type,
       typename FmhaFwdAsyncBlockTile<256>::gemm0_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<256>::gemm1_warps,
-      FmhaFwdWarpTile1,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 
 template struct FmhaFwdAsyncShape<256, 64>;
 template struct FmhaFwdAsyncShape<256, 128>;
 
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncShape<512, MTile> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<512>::type,
-      typename FmhaFwdAsyncBlockTile<512>::gemm0_warps,
-      FmhaFwdWarpTile2,
-      typename FmhaFwdAsyncBlockTile<512>::gemm1_warps,
-      FmhaFwdWarpTile2,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdAsyncShape<512, 64>;
-template struct FmhaFwdAsyncShape<512, 128>;
-
 static int get_fmha_fwd_async_mtile(
     int num_batches,
     int num_heads,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 0045b8b49f..321d3e20fe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -43,20 +43,15 @@ struct FmhaFwdBlockTile<96, MTile> {
 
 template struct FmhaFwdBlockTile<96>;
 
-template <>
-struct FmhaFwdBlockTile<128, 64> {
-  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template <>
-struct FmhaFwdBlockTile<128, 128> {
+template <ck_tile::index_t MTile>
+struct FmhaFwdBlockTile<128, MTile> {
   using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
+template struct FmhaFwdBlockTile<128>;
+
 template <ck_tile::index_t MTile>
 struct FmhaFwdBlockTile<256, MTile> {
   using type = ck_tile::sequence<128, 128, 32, 256, 32, 256>;
@@ -123,19 +118,8 @@ struct FmhaFwdShape<96, MTile> {
 template struct FmhaFwdShape<96, 64>;
 template struct FmhaFwdShape<96, 128>;
 
-template <>
-struct FmhaFwdShape<128, 64> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdBlockTile<128, 64>::type,
-      typename FmhaFwdBlockTile<128, 64>::gemm0_warps,
-      FmhaFwdWarpTile2,
-      typename FmhaFwdBlockTile<128, 64>::gemm1_warps,
-      FmhaFwdWarpTile2,
-      IsVLayoutRowMajor>;
-};
-
-template <>
-struct FmhaFwdShape<128, 128> {
+template <ck_tile::index_t MTile>
+struct FmhaFwdShape<128, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdBlockTile<128, 128>::type,
       typename FmhaFwdBlockTile<128, 128>::gemm0_warps,
@@ -145,6 +129,9 @@ struct FmhaFwdShape<128, 128> {
       IsVLayoutRowMajor>;
 };
 
+template struct FmhaFwdShape<128, 64>;
+template struct FmhaFwdShape<128, 128>;
+
 template <ck_tile::index_t MTile>
 struct FmhaFwdShape<256, MTile> {
   using Type = ck_tile::TileFmhaShape<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index 6b1478c28a..cfab39d021 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -9,6 +9,7 @@
 #include <cmath>
 #include <tuple>
 #include "ck_fmha_util.h"
+#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 5fc7b8e20e..2da180431d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -52,14 +52,14 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
         // dimension > 256
       }
     } else {
-      auto mtile = [&](auto) {
+      const auto mtile = [&]() {
         if constexpr (MaxK <= 256)
           return get_fmha_fwd_async_mtile(
               param.num_batches, param.Hq, param.max_seqlen_q);
         else
           return get_fmha_fwd_mtile(
               param.num_batches, param.Hq, param.max_seqlen_q);
-      )();
+      }();
 
       if (mtile == 128)
         grouped_infer_mask_bias_dropout_dispatch<
@@ -77,16 +77,15 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
             kHasDropout,
             MaxK,
             64>::Run(param, stream);
-      }
-    }
-    else {
-      // at present, dropout of fwd kernel requires 32x32 WarpTile
-      grouped_infer_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK,
-          128>::Run(param, stream);
     }
-  };
+  } else {
+    // at present, dropout of fwd kernel requires 32x32 WarpTile
+    grouped_infer_mask_bias_dropout_dispatch<
+        ScalarType,
+        kHasMask,
+        kHasBias,
+        kHasDropout,
+        MaxK,
+        128>::Run(param, stream);
+  }
+};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index ea435a018b..8a8ed25b1f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -26,10 +26,16 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct grouped_infer_mask_bias_dropout_dispatch {
-  using FmhaShape = std::conditional_t<
-      MaxK <= 256,
-      typename FmhaFwdAsyncShape<MaxK, MTile>::Type,
-      typename FmhaFwdShape<MaxK, MTile>::Type>;
+  static constexpr bool kUseAsyncPipeline = (MaxK <= 256 && !kHasDropout);
+
+  constexpr static auto get_fmha_shape_type() {
+    if constexpr (kUseAsyncPipeline)
+      return typename FmhaFwdAsyncShape<MaxK, MTile>::Type{};
+    else
+      return typename FmhaFwdShape<MaxK, MTile>::Type{};
+  };
+
+  using FmhaShape = decltype(get_fmha_shape_type());
 
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -49,13 +55,10 @@ struct grouped_infer_mask_bias_dropout_dispatch {
       FmhaMask,
       FmhaTraits>;
 
-  static_assert(MaxK <= 256, "Maxk > 256 could not execute this path!");
-
   static void Run(GroupedForwardParams& param, hipStream_t stream) {
     using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-    constexpr ck_tile::index_t occupancy =
-        (MaxK == 64) ? 3 : ((MaxK >= 256) ? 1 : 2);
+    constexpr ck_tile::index_t occupancy = -1;
 
     constexpr auto kBiasEnum = kHasBias
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
@@ -84,11 +87,6 @@ struct grouped_infer_mask_bias_dropout_dispatch {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
-          using FmhaPipeline = std::conditional_t<
-              MaxK <= 256,
-              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>,
-              ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>>;
-
           using FmhaEpilogue =
               ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                   typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
@@ -96,9 +94,21 @@ struct grouped_infer_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-          RunWithKernel<FmhaKernel>(param, stream);
+          if constexpr (kUseAsyncPipeline) {
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          } else {
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+            RunWithKernel<FmhaKernel>(param, stream);
+          }
         });
   };
 

From 30702d721db83172e2f92d6a7df2877c78a2666d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 23 Jan 2025 05:43:11 +0000
Subject: [PATCH 782/837] Revert "Remove using splitkv kernel from fmha fwd
 training path"

This reverts commit 84883b5db2fd0bb5256e451b5bd61836730445f8.
---
 .../attention_forward_generic_ck_tiled.cpp    | 11 +---
 .../hip_fmha/ck_tiled_fmha_batched_forward.h  | 63 +++++++++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_forward.h  | 66 ++++++++++++++-----
 3 files changed, 99 insertions(+), 41 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 54ac6f0173..fbc43d21dd 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -247,9 +247,7 @@ efficient_attention_forward_ck(
         get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
-    // 2) Don't use split-kv for fmha-fwd training path
-    p.use_split_kv =
-        (!use_dropout && !p.compute_logsumexp && use_split_kv) ? true : false;
+    p.use_split_kv = (!use_dropout && use_split_kv) ? true : false;
 
     p.num_kv_splits = num_kv_splits;
 
@@ -399,11 +397,8 @@ efficient_attention_forward_ck(
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
-    // 3) Don't use split-kv for fmha-fwd training path
-    p.use_split_kv = (p.use_paged_kvcache ||
-                      (!use_dropout && !p.compute_logsumexp && use_split_kv))
-        ? true
-        : false;
+    p.use_split_kv =
+        (p.use_paged_kvcache || (!use_dropout && use_split_kv)) ? true : false;
 
     p.num_kv_splits = num_kv_splits;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
index f3763ed50c..434e80a084 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward.h
@@ -8,7 +8,11 @@
 
 #include <algorithm>
 #include "ck_tiled_fmha_batched_forward_dispatch.h"
+#include "ck_tiled_fmha_batched_forward_splitkv_dispatch.h"
+#include "ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h"
 #include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -19,23 +23,50 @@ template <
 void run_batched_forward_mask_bias_dropout_dispatch(
     BatchedForwardParams& param,
     hipStream_t stream) {
+  // currently split-kv implementation does not support:
+  // (*) dropout
+  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
-    if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
-      batched_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK,
-          128>::Run(param, stream);
-    else
-      batched_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK,
-          64>::Run(param, stream);
+    if (param.use_split_kv && MaxK <= 256) {
+      if constexpr (MaxK <= 256) {
+        if (use_splitkv_smallq(param.M, std::max(param.K, param.Kv))) {
+          batched_forward_splitkv_smallq_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK>::Run(param, stream);
+        } else {
+          FMHA_FWD_SEQLEN_Q_SWITCH(param.M, MaxSeqlenQ, [&] {
+            batched_forward_splitkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                MaxSeqlenQ>::Run(param, stream);
+          });
+        }
+      } else {
+        // Unreachable. Do not instantiate split-kv pipelines with head
+        // dimension > 256
+      }
+    } else {
+      if (get_fmha_fwd_mtile(param.B, param.Hq, param.M) == 128)
+        batched_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            128>::Run(param, stream);
+      else
+        batched_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            64>::Run(param, stream);
+    }
   } else {
     // at present, dropout of fwd kernel requires 32x32 WarpTile
     batched_forward_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 591fbd1f7d..39c3a10fbf 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -8,7 +8,11 @@
 
 #include <algorithm>
 #include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_forward_dispatch.h"
+#include "ck_tiled_fmha_grouped_forward_splitkv_dispatch.h"
+#include "ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h"
+#include "ck_tiled_fmha_seqlen_q_switch.h"
 
 template <
     typename ScalarType,
@@ -19,24 +23,52 @@ template <
 void run_grouped_forward_mask_bias_dropout_dispatch(
     GroupedForwardParams& param,
     hipStream_t stream) {
+  // currently split-kv implementation does not support:
+  // (*) dropout
+  // (*) head dimension > 256
   if constexpr (!kHasDropout) {
-    if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
-        128)
-      grouped_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK,
-          128>::Run(param, stream);
-    else
-      grouped_forward_mask_bias_dropout_dispatch<
-          ScalarType,
-          kHasMask,
-          kHasBias,
-          kHasDropout,
-          MaxK,
-          64>::Run(param, stream);
+    if (param.use_split_kv && MaxK <= 256) {
+      if constexpr (MaxK <= 256) {
+        if (use_splitkv_smallq(
+                param.max_seqlen_q, std::max(param.K, param.Kv))) {
+          grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch<
+              ScalarType,
+              kHasMask,
+              kHasBias,
+              MaxK>::Run(param, stream);
+        } else {
+          FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+            grouped_forward_splitkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                MaxSeqlenQ>::Run(param, stream);
+          });
+        }
+      } else {
+        // Unreachable. Do not instantiate split-kv pipelines with head
+        // dimension > 256
+      }
+    } else {
+      if (get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q) ==
+          128)
+        grouped_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            128>::Run(param, stream);
+      else
+        grouped_forward_mask_bias_dropout_dispatch<
+            ScalarType,
+            kHasMask,
+            kHasBias,
+            kHasDropout,
+            MaxK,
+            64>::Run(param, stream);
+    }
   } else {
     // at present, dropout of fwd kernel requires 32x32 WarpTile
     grouped_forward_mask_bias_dropout_dispatch<

From 45a43652f4f849bfa8c64a502df79cba0a738281 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 24 Jan 2025 06:39:50 +0000
Subject: [PATCH 783/837] Ensure to qr_ks_vs pipeline is used when kHasDropout
 is true and MaxK <= 256

---
 .../hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h        | 7 +++++++
 .../hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h        | 7 +++++++
 2 files changed, 14 insertions(+)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 17c8816b9a..51a8cd5445 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -110,6 +110,13 @@ struct batched_infer_mask_bias_dropout_dispatch {
             using FmhaKernel =
                 ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
 
+            RunWithKernel<FmhaKernel>(param, stream);
+          } else if constexpr (MaxK <= 256) {
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
             RunWithKernel<FmhaKernel>(param, stream);
           } else {
             using FmhaPipeline =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 8a8ed25b1f..7b6c53ea66 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -100,6 +100,13 @@ struct grouped_infer_mask_bias_dropout_dispatch {
             using FmhaKernel =
                 ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
 
+            RunWithKernel<FmhaKernel>(param, stream);
+          } else if constexpr (MaxK <= 256) {
+            using FmhaPipeline =
+                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+            using FmhaKernel =
+                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
             RunWithKernel<FmhaKernel>(param, stream);
           } else {
             using FmhaPipeline =

From 501a9bab21b9ee185ef77dbfa7445a4e722e9eed Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 27 Jan 2025 04:07:29 +0000
Subject: [PATCH 784/837] Tune the tile sizes for hdim-128 for qr_ks_vs_async
 pipeline

---
 .../hip_fmha/ck_tiled_fmha_fwd_async_setting.h       | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index a374cfe23c..aa40b3865b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -27,7 +27,7 @@ template struct FmhaFwdAsyncBlockTile<32>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<64, MTile> {
-  using type = ck_tile::sequence<128, 64, 32, 64, 32, 64>;
+  using type = ck_tile::sequence<128, 64, 16, 64, 32, 64>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -36,7 +36,7 @@ template struct FmhaFwdAsyncBlockTile<64>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<96, MTile> {
-  using type = ck_tile::sequence<128, 64, 32, 128, 32, 96>;
+  using type = ck_tile::sequence<128, 64, 16, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -45,7 +45,7 @@ template struct FmhaFwdAsyncBlockTile<96>;
 
 template <>
 struct FmhaFwdAsyncBlockTile<128, 64> {
-  using type = ck_tile::sequence<64, 64, 32, 128, 32, 128>;
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -59,7 +59,7 @@ struct FmhaFwdAsyncBlockTile<128, 128> {
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<256, MTile> {
-  using type = ck_tile::sequence<128, 32, 32, 256, 32, 256>;
+  using type = ck_tile::sequence<64, 32, 32, 256, 16, 256>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -141,9 +141,9 @@ struct FmhaFwdAsyncShape<256, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<256>::type,
       typename FmhaFwdAsyncBlockTile<256>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile2,
       typename FmhaFwdAsyncBlockTile<256>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile2,
       IsVLayoutRowMajor>;
 };
 

From 46d424cc6ed5f5bfb1d342d1f6a6cbeb0a65b328 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 2 Feb 2025 09:53:14 +0000
Subject: [PATCH 785/837] Synchronize to the change in ck_tile (QLoadOnece ==
 false for qr_ks_vs_async)

---
 third_party/composable_kernel_tiled           |  2 +-
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 27 ++++++++++---------
 .../ck_tiled_fmha_fwd_async_setting.h         |  6 ++---
 .../ck_tiled_fmha_grouped_infer_dispatch.h    |  6 ++++-
 4 files changed, 23 insertions(+), 18 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 3ee41b406b..a94ac4bb2f 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 3ee41b406b23fb96b2355c0b9ef3914cfcd9e432
+Subproject commit a94ac4bb2ff648ff8623d8b6370295fade79ae57
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 51a8cd5445..aae2fc36a8 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -37,6 +37,10 @@ struct batched_infer_mask_bias_dropout_dispatch {
 
   using FmhaShape = decltype(get_fmha_shape_type());
 
+  static constexpr ck_tile::index_t kKLoadLength =
+      (kUseAsyncPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
+                                        : FmhaShape::kSubQKHeaddim;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -65,28 +69,25 @@ struct batched_infer_mask_bias_dropout_dispatch {
         : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
     const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-    const bool pad_seqlen_k =
-        (param.N == 0) || !(param.N % FmhaShape::kN0 == 0);
+
+    const bool pad_headdim_q = !(param.K % kKLoadLength == 0);
     const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
-    const bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
 
-    // usually headdim_q and headdim_v are same, consider them together to
-    // determine whether to do padding saving some compiling time
-    const bool pad_headdim = (pad_headdim_q || pad_headdim_v);
+    constexpr bool kPadSeqLenK = true;
 
     BOOL_SWITCH_3(
         pad_seqlen_q,
         kPadSeqLenQ,
-        pad_seqlen_k,
-        kPadSeqLenK,
-        pad_headdim,
-        kPadHeadDim,
+        pad_headdim_q,
+        kPadHeadDimQ,
+        pad_headdim_v,
+        kPadHeadDimV,
         [&] {
           using FmhaTraits = ck_tile::TileFmhaTraits<
               kPadSeqLenQ,
               kPadSeqLenK,
-              kPadHeadDim, // kPadHeadDimQ,
-              kPadHeadDim, // kPadHeadDimV,
+              kPadHeadDimQ, // kPadHeadDimQ,
+              kPadHeadDimV, // kPadHeadDimV,
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               false, // kStoreLSE
@@ -102,7 +103,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
                   typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                   typename FmhaFwdTypeConfig<ScalarType>::ODataType,
                   kPadSeqLenQ,
-                  kPadHeadDim>>;
+                  kPadHeadDimV>>;
 
           if constexpr (kUseAsyncPipeline) {
             using FmhaPipeline =
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index aa40b3865b..39816bd000 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -36,7 +36,7 @@ template struct FmhaFwdAsyncBlockTile<64>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<96, MTile> {
-  using type = ck_tile::sequence<128, 64, 16, 128, 32, 96>;
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -105,9 +105,9 @@ struct FmhaFwdAsyncShape<96, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<96>::type,
       typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile2,
       typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile2,
       IsVLayoutRowMajor>;
 };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 7b6c53ea66..b2cf6ec9ac 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -37,6 +37,10 @@ struct grouped_infer_mask_bias_dropout_dispatch {
 
   using FmhaShape = decltype(get_fmha_shape_type());
 
+  static constexpr ck_tile::index_t kKLoadLength =
+      (kUseAsyncPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
+                                        : FmhaShape::kSubQKHeaddim;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -67,7 +71,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
     constexpr bool kPadSeqLenQ = true;
     constexpr bool kPadSeqLenK = true;
 
-    bool pad_headdim_q = !(param.K % FmhaShape::kSubQKHeaddim == 0);
+    bool pad_headdim_q = !(param.K % kKLoadLength == 0);
     bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
     BOOL_SWITCH_2(

From dfb31aabaabe5d0b44043dd8cb2d1ffe56c79ef7 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 2 Feb 2025 15:05:41 +0000
Subject: [PATCH 786/837] Use kM0 = 128 for hdim-96 when using qr_ks_vs_async
 pipeline

---
 third_party/composable_kernel_tiled                         | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h    | 6 +++---
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index a94ac4bb2f..97efebdb62 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit a94ac4bb2ff648ff8623d8b6370295fade79ae57
+Subproject commit 97efebdb62420eea15df835076356e66a49235c2
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index 39816bd000..de0224092c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -36,7 +36,7 @@ template struct FmhaFwdAsyncBlockTile<64>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<96, MTile> {
-  using type = ck_tile::sequence<64, 128, 32, 128, 32, 96>;
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -105,9 +105,9 @@ struct FmhaFwdAsyncShape<96, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<96>::type,
       typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
-      FmhaFwdAsyncWarpTile2,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
-      FmhaFwdAsyncWarpTile2,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 

From b699977056e7d97f500577ce906684128f29fa5d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 4 Feb 2025 13:37:40 +0000
Subject: [PATCH 787/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 97efebdb62..fb0f56b361 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 97efebdb62420eea15df835076356e66a49235c2
+Subproject commit fb0f56b36198b26f5af70269a96aff08288da1f1

From e7146b672112d7ca750df8d1fe858ba99b5a3696 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 7 Feb 2025 09:52:40 +0000
Subject: [PATCH 788/837] Adjust the tile shape settings for hdim-128 and
 hdim-96

---
 .../attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index de0224092c..e13a73c221 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -36,7 +36,7 @@ template struct FmhaFwdAsyncBlockTile<64>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<96, MTile> {
-  using type = ck_tile::sequence<128, 128, 32, 128, 32, 96>;
+  using type = ck_tile::sequence<128, 64, 32, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -68,6 +68,7 @@ template struct FmhaFwdAsyncBlockTile<256>;
 
 using FmhaFwdAsyncWarpTile1 = ck_tile::sequence<32, 32, 16>;
 using FmhaFwdAsyncWarpTile2 = ck_tile::sequence<16, 16, 16>;
+using FmhaFwdAsyncWarpTile3 = ck_tile::sequence<16, 16, 32>;
 
 template <ck_tile::index_t MaxK, ck_tile::index_t MTile>
 struct FmhaFwdAsyncShape;
@@ -105,9 +106,9 @@ struct FmhaFwdAsyncShape<96, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<96>::type,
       typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile3,
       typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile2,
       IsVLayoutRowMajor>;
 };
 
@@ -119,7 +120,7 @@ struct FmhaFwdAsyncShape<128, 64> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<128, 64>::type,
       typename FmhaFwdAsyncBlockTile<128, 64>::gemm0_warps,
-      FmhaFwdAsyncWarpTile2,
+      FmhaFwdAsyncWarpTile3,
       typename FmhaFwdAsyncBlockTile<128, 64>::gemm1_warps,
       FmhaFwdAsyncWarpTile2,
       IsVLayoutRowMajor>;

From 4a683012bb073425bcf36804921f87adebe93543 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 7 Feb 2025 10:44:06 +0000
Subject: [PATCH 789/837] Adjust warp tile settings for hdim-128 and mtile-128

---
 .../csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index e13a73c221..f636de605d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -131,9 +131,9 @@ struct FmhaFwdAsyncShape<128, 128> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<128, 128>::type,
       typename FmhaFwdAsyncBlockTile<128, 128>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile3,
       typename FmhaFwdAsyncBlockTile<128, 128>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
+      FmhaFwdAsyncWarpTile2,
       IsVLayoutRowMajor>;
 };
 

From 3d4bac79b6015246aeb353219332bcc0703fde35 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 9 Feb 2025 13:58:19 +0000
Subject: [PATCH 790/837] Tune the tile settings for hdim-96 and hdim-128

---
 third_party/composable_kernel_tiled                  |  2 +-
 .../hip_fmha/ck_tiled_fmha_fwd_async_setting.h       | 12 ++++++------
 2 files changed, 7 insertions(+), 7 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index fb0f56b361..2e612c02c9 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit fb0f56b36198b26f5af70269a96aff08288da1f1
+Subproject commit 2e612c02c9d7d805cf6b32ef07ecaf33d24a37e0
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
index f636de605d..8d29137f6f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
@@ -36,7 +36,7 @@ template struct FmhaFwdAsyncBlockTile<64>;
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdAsyncBlockTile<96, MTile> {
-  using type = ck_tile::sequence<128, 64, 32, 128, 32, 96>;
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 96>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -52,7 +52,7 @@ struct FmhaFwdAsyncBlockTile<128, 64> {
 
 template <>
 struct FmhaFwdAsyncBlockTile<128, 128> {
-  using type = ck_tile::sequence<128, 64, 32, 128, 32, 128>;
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
@@ -106,9 +106,9 @@ struct FmhaFwdAsyncShape<96, MTile> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<96>::type,
       typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
-      FmhaFwdAsyncWarpTile3,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
-      FmhaFwdAsyncWarpTile2,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 
@@ -131,9 +131,9 @@ struct FmhaFwdAsyncShape<128, 128> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdAsyncBlockTile<128, 128>::type,
       typename FmhaFwdAsyncBlockTile<128, 128>::gemm0_warps,
-      FmhaFwdAsyncWarpTile3,
+      FmhaFwdAsyncWarpTile1,
       typename FmhaFwdAsyncBlockTile<128, 128>::gemm1_warps,
-      FmhaFwdAsyncWarpTile2,
+      FmhaFwdAsyncWarpTile1,
       IsVLayoutRowMajor>;
 };
 

From f68019a1cc81b6a547b9d99f9576750109bbbec8 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 11 Feb 2025 07:42:42 +0000
Subject: [PATCH 791/837] Tune the kPadSeqLenQ and kPadSeqLenK using in
 batched_infer and grouped_infer

---
 third_party/composable_kernel_tiled                   |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h   | 11 ++++++-----
 .../hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h   |  4 +++-
 3 files changed, 10 insertions(+), 7 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 2e612c02c9..f881fa70b0 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 2e612c02c9d7d805cf6b32ef07ecaf33d24a37e0
+Subproject commit f881fa70b0663b579d31e49b129a7477a3082773
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index aae2fc36a8..ebd61a9a6d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -68,16 +68,17 @@ struct batched_infer_mask_bias_dropout_dispatch {
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
         : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
-    const bool pad_seqlen_q = !(param.M % FmhaShape::kM0 == 0);
-
+    const bool pad_seqlen_k = !(param.N % FmhaShape::kN0 == 0);
     const bool pad_headdim_q = !(param.K % kKLoadLength == 0);
     const bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-    constexpr bool kPadSeqLenK = true;
+    // no need to check seqlen_q since it is not used as fastest dim,
+    // buffer_load_dwordxx/buffer_store_dwordxx can handle oob access
+    constexpr bool kPadSeqLenQ = false;
 
     BOOL_SWITCH_3(
-        pad_seqlen_q,
-        kPadSeqLenQ,
+        pad_seqlen_k,
+        kPadSeqLenK,
         pad_headdim_q,
         kPadHeadDimQ,
         pad_headdim_v,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index b2cf6ec9ac..eab3481c79 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -68,7 +68,9 @@ struct grouped_infer_mask_bias_dropout_dispatch {
         ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
         : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
 
-    constexpr bool kPadSeqLenQ = true;
+    // no need to check seqlen_q since it is not used as fastest dim,
+    // buffer_load_dwordxx/buffer_store_dwordxx can handle oob access
+    constexpr bool kPadSeqLenQ = false;
     constexpr bool kPadSeqLenK = true;
 
     bool pad_headdim_q = !(param.K % kKLoadLength == 0);

From e2629db6138b8ffeb43a93a56d56bf9bba332272 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 11 Feb 2025 15:10:51 +0000
Subject: [PATCH 792/837] Fix in ck.py to handle attn_bias types with 5-D bias
 tensor

---
 xformers/ops/fmha/ck.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 50f8d80135..0d908340c8 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -240,7 +240,13 @@ def apply(
 
         [_, _, G, Hq, _] = inp.query.shape
         attn_bias_replace = inp.attn_bias
-        if isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim != 0:
+        if isinstance(inp.attn_bias, LowerTriangularMaskWithTensorBias):
+            bias_tensor = _get_tensor_bias(inp.attn_bias)
+            if bias_tensor.ndim == 5:
+                attn_bias_replace = LowerTriangularMaskWithTensorBias(
+                    bias_tensor.flatten(1, 2)
+                )
+        elif isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim == 5:
             attn_bias_replace = inp.attn_bias.flatten(1, 2)
         inp = replace(
             inp,

From 6c5a72a5622e62afa2dc1b70d9d34be5a3801851 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Thu, 13 Feb 2025 15:48:27 +0000
Subject: [PATCH 793/837] Let ck_splitk_decoder to use ck_tile headers only

---
 .../hip_decoder/attention_forward_splitk.cpp  |   6 +-
 ...k_tile_attention_forward_decoder_splitk.h} |  52 ++--
 .../ck_tile_attention_inner_product.h         | 235 ++++++++++++++++++
 3 files changed, 265 insertions(+), 28 deletions(-)
 rename xformers/csrc/attention/hip_decoder/{ck_attention_forward_decoder_splitk.h => ck_tile_attention_forward_decoder_splitk.h} (90%)
 create mode 100644 xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h

diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
index 647e540d37..553bd81305 100644
--- a/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
+++ b/xformers/csrc/attention/hip_decoder/attention_forward_splitk.cpp
@@ -8,7 +8,7 @@
 #include <ck_tile/host/kernel_launch.hpp>
 #include <ck_tile/host/stream_config.hpp>
 
-#include "ck_attention_forward_decoder_splitk.h"
+#include "ck_tile_attention_forward_decoder_splitk.h"
 
 namespace {
 constexpr int32_t kThreadsPerWavefront = 64;
@@ -31,12 +31,12 @@ struct c10_to_data_t<float> {
 
 template <>
 struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
+  using type = ck_tile::fp16_t;
 };
 
 template <>
 struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
+  using type = ck_tile::bf16_t;
 };
 } // namespace
 
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h b/xformers/csrc/attention/hip_decoder/ck_tile_attention_forward_decoder_splitk.h
similarity index 90%
rename from xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
rename to xformers/csrc/attention/hip_decoder/ck_tile_attention_forward_decoder_splitk.h
index 5389affacc..52863accd0 100644
--- a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder_splitk.h
+++ b/xformers/csrc/attention/hip_decoder/ck_tile_attention_forward_decoder_splitk.h
@@ -1,17 +1,15 @@
 #pragma once
 
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/math.hpp>
+#include <ck_tile/core.hpp>
 
-#include "ck_attention_inner_product.h"
-#include "ck_attention_math_ext.h"
+#include "ck_tile_attention_inner_product.h"
 
 namespace {
 
 template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
-    typename ck::vector_type<float, vec_size>::type acc,
-    typename ck::vector_type<data_t, vec_size>::type a,
+__device__ ck_tile::ext_vector_t<float, vec_size> scalar_scale_acc(
+    ck_tile::ext_vector_t<float, vec_size> acc,
+    ck_tile::ext_vector_t<data_t, vec_size> a,
     float b) {
   union {
     decltype(acc) vec;
@@ -24,7 +22,7 @@ __device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
 
 #pragma unroll
   for (int32_t i = 0; i < vec_size; ++i) {
-    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
+    acc_u.arr[i] += ck_tile::type_convert<float>(a_u.arr[i]) * b;
   }
 
   return acc_u.vec;
@@ -99,8 +97,8 @@ struct ForwardDecoderSplitKReduceKernelImpl {
     const int32_t h = blockIdx.x % arg.Q_size_h;
 
     using data_t = scalar_t;
-    using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+    using data_vec_t = ck_tile::ext_vector_t<data_t, vec_size>;
+    using compute_vec_t = ck_tile::ext_vector_t<compute_t, vec_size>;
 
     union {
       data_vec_t vec;
@@ -129,7 +127,7 @@ struct ForwardDecoderSplitKReduceKernelImpl {
     }
 
     compute_t global_sumexp = 0;
-    compute_t global_max = ck::NumericLimits<compute_t>::Lowest();
+    compute_t global_max = ck_tile::numeric<compute_t>::lowest();
 
     for (int32_t split_idx = 0; split_idx < arg.split_k; ++split_idx) {
       load_v<data_t, data_vec_t>(
@@ -141,7 +139,7 @@ struct ForwardDecoderSplitKReduceKernelImpl {
 #pragma unroll
       for (int32_t i = 0; i < vec_size; ++i) {
         O_split_compute.arr[i] =
-            ck::type_convert<compute_t>(O_split_data.arr[i]);
+            ck_tile::type_convert<compute_t>(O_split_data.arr[i]);
       }
       compute_t local_max =
           *(arg.split_max + blockIdx.x * arg.split_k + split_idx);
@@ -150,7 +148,7 @@ struct ForwardDecoderSplitKReduceKernelImpl {
 
       compute_t log_alpha = -std::abs(local_max - global_max);
       compute_t alpha =
-          isnan(log_alpha) ? compute_t{1.} : ck::math::exp(log_alpha);
+          ck_tile::isnan(log_alpha) ? compute_t{1.} : ck_tile::exp(log_alpha);
 
       bool pick_new = local_max < global_max;
       compute_t pick_current_coef = pick_new ? 1. : alpha;
@@ -160,12 +158,13 @@ struct ForwardDecoderSplitKReduceKernelImpl {
           pick_current_coef * global_sumexp + pick_new_coef * local_sumexp;
       global_O_compute.vec = pick_current_coef * global_O_compute.vec +
           pick_new_coef * O_split_compute.vec;
-      global_max = ck::math::max(local_max, global_max);
+      global_max = ck_tile::max(local_max, global_max);
     }
     global_O_compute.vec /= global_sumexp;
 #pragma unroll
     for (int32_t i = 0; i < vec_size; ++i) {
-      global_O_data.arr[i] = ck::type_convert<data_t>(global_O_compute.arr[i]);
+      global_O_data.arr[i] =
+          ck_tile::type_convert<data_t>(global_O_compute.arr[i]);
     }
     store_v<data_t, data_vec_t>(
         arg.O + b * arg.XQ_stride_b + m * arg.XQ_stride_m +
@@ -223,8 +222,11 @@ struct ForwardDecoderSplitKAttnKernelImpl {
     const auto* __restrict__ cache_V_base = arg.cache_V + cache_KV_base_offset;
 
     using data_t = scalar_t;
-    using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-    using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
+    using data_vec_t = std::conditional_t<
+        vec_size == 1,
+        data_t,
+        ck_tile::ext_vector_t<data_t, vec_size>>;
+    using compute_vec_t = ck_tile::ext_vector_t<compute_t, vec_size>;
 
     const bool lane_active_for_io = lane_idx * vec_size < arg.Q_size_k;
 
@@ -237,7 +239,7 @@ struct ForwardDecoderSplitKAttnKernelImpl {
       load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
     }
 
-    compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
+    compute_t max_qk_acc = ck_tile::numeric<compute_t>::lowest();
 
     // Compute S[0:t_max] =
     // ```
@@ -279,12 +281,12 @@ struct ForwardDecoderSplitKAttnKernelImpl {
 #pragma unroll n_loop_unroll
       for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
         compute_t qk_acc = 0;
-        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+        ck_tile::inner_product<data_vec_t, data_vec_t, compute_t>(
             q_thread, k_loads[ttt], qk_acc);
         qk_acc *= arg.qk_scale;
 
         qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+        max_qk_acc = ck_tile::max(qk_acc, max_qk_acc);
         if (lane_idx == 0) {
           smem[tt + ttt - n_unrolled_loops * dtt * split_idx] = qk_acc;
         }
@@ -308,13 +310,13 @@ struct ForwardDecoderSplitKAttnKernelImpl {
         compute_t qk_acc = 0;
         const int32_t t = tt + ttt;
         if (t < t_max) {
-          ck::inner_product<data_vec_t, data_vec_t, compute_t>(
+          ck_tile::inner_product<data_vec_t, data_vec_t, compute_t>(
               q_thread, k_loads[ttt], qk_acc);
           qk_acc *= arg.qk_scale;
 
           qk_acc =
               wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-          max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
+          max_qk_acc = ck_tile::max(qk_acc, max_qk_acc);
 
           // write accumulated sums to smem.
           if (lane_idx == 0) {
@@ -331,7 +333,7 @@ struct ForwardDecoderSplitKAttnKernelImpl {
     }
     __syncthreads();
     if (lane_idx < wavefronts_per_block) {
-      max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
+      max_qk_acc = ck_tile::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
     }
     // shared across all threads in block
     max_qk_acc = wavefrontReduce(
@@ -350,7 +352,7 @@ struct ForwardDecoderSplitKAttnKernelImpl {
           : t_max;
       for (int32_t t = t_low + thread_linear_idx; t < t_high;
            t += threads_per_block) {
-        const auto s = ck::math::exp(smem[t - t_low] - max_qk_acc);
+        const auto s = ck_tile::exp(smem[t - t_low] - max_qk_acc);
         softmax_denominator += s;
         smem[t - t_low] = s;
       }
@@ -445,7 +447,7 @@ struct ForwardDecoderSplitKAttnKernelImpl {
       } bf_r;
 #pragma unroll
       for (int32_t i = 0; i < vec_size; ++i) {
-        bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
+        bf_r.arr[i] = ck_tile::type_convert<data_t>(r.arr[i]);
       }
       // write output row O[b][m][g][h][:]
       data_t* __restrict__ o_ =
diff --git a/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h b/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h
new file mode 100644
index 0000000000..39350789bf
--- /dev/null
+++ b/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h
@@ -0,0 +1,235 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core.hpp>
+
+namespace ck_tile {
+
+template <typename TA, typename TB, typename TC>
+__device__ void inner_product(const TA& a, const TB& b, TC& c);
+
+template <>
+__device__ void inner_product<float, float, float>(
+    const float& a,
+    const float& b,
+    float& c) {
+#if CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_MAC_F32)
+  asm volatile(
+      "\n \
+            v_mac_f32 %0, %1, %2 \n \
+            "
+      : "=v"(c)
+      : "v"(a), "v"(b), "0"(c));
+#elif CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_FMAC_F32)
+  asm volatile(
+      "\n \
+            v_fmac_f32 %0, %1, %2 \n \
+            "
+      : "=v"(c)
+      : "v"(a), "v"(b), "0"(c));
+#else
+  c += a * b;
+#endif
+}
+
+template <>
+__device__ void inner_product<fp32x2_t, fp32x2_t, float>(
+    const fp32x2_t& a,
+    const fp32x2_t& b,
+    float& c) {
+  inner_product(a[0], b[0], c);
+  inner_product(a[1], b[1], c);
+}
+
+template <>
+__device__ void inner_product<fp32x4_t, fp32x4_t, float>(
+    const fp32x4_t& a,
+    const fp32x4_t& b,
+    float& c) {
+  inner_product(a[0], b[0], c);
+  inner_product(a[1], b[1], c);
+  inner_product(a[2], b[2], c);
+  inner_product(a[3], b[3], c);
+}
+
+template <>
+__device__ void inner_product<bf16_t, bf16_t, float>(
+    const bf16_t& a,
+    const bf16_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<fp16_t, fp16_t, float>(
+    const fp16_t& a,
+    const fp16_t& b,
+    float& c) {
+  inner_product(type_convert<float>(a), type_convert<float>(b), c);
+}
+
+template <>
+__device__ void inner_product<fp16x2_t, fp16x2_t, float>(
+    const fp16x2_t& a,
+    const fp16x2_t& b,
+    float& c) {
+#if defined(CK_USE_AMD_V_DOT2_F32_F16)
+#if CK_USE_AMD_V_DOT_INLINE_ASM
+  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
+  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
+  // ) s_nop with parameter 2 is equal to 3 x s_nop
+  asm volatile(
+      "\n \
+            v_dot2_f32_f16 %0, %1, %2, %0\n \
+            s_nop 2 \n \
+            "
+      : "=v"(c)
+      : "v"(a), "v"(b), "0"(c));
+#else
+  c = __builtin_amdgcn_fdot2(a, b, c, false);
+#endif
+#else
+  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
+  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+#endif
+}
+
+template <>
+__device__ void inner_product<fp16x4_t, fp16x4_t, float>(
+    const fp16x4_t& a,
+    const fp16x4_t& b,
+    float& c) {
+  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
+  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+  c += type_convert<float>(a[2]) * type_convert<float>(b[2]);
+  c += type_convert<float>(a[3]) * type_convert<float>(b[3]);
+}
+
+template <>
+__device__ void inner_product<fp16x8_t, fp16x8_t, float>(
+    const fp16x8_t& a,
+    const fp16x8_t& b,
+    float& c) {
+  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
+  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+  c += type_convert<float>(a[2]) * type_convert<float>(b[2]);
+  c += type_convert<float>(a[3]) * type_convert<float>(b[3]);
+  c += type_convert<float>(a[4]) * type_convert<float>(b[4]);
+  c += type_convert<float>(a[5]) * type_convert<float>(b[5]);
+  c += type_convert<float>(a[6]) * type_convert<float>(b[6]);
+  c += type_convert<float>(a[7]) * type_convert<float>(b[7]);
+}
+
+template <>
+__device__ void inner_product<bf16x2_t, bf16x2_t, float>(
+    const bf16x2_t& a,
+    const bf16x2_t& b,
+    float& c) {
+  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
+  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+}
+
+template <>
+__device__ void inner_product<bf16x4_t, bf16x4_t, float>(
+    const bf16x4_t& a,
+    const bf16x4_t& b,
+    float& c) {
+  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
+  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+  c += type_convert<float>(a[2]) * type_convert<float>(b[2]);
+  c += type_convert<float>(a[3]) * type_convert<float>(b[3]);
+}
+
+template <>
+__device__ void inner_product<int8_t, int8_t, int32_t>(
+    const int8_t& a,
+    const int8_t& b,
+    int32_t& c) {
+  c += type_convert<int32_t>(a) * type_convert<int32_t>(b);
+}
+
+template <>
+__device__ void inner_product<int8x2_t, int8x2_t, int32_t>(
+    const int8x2_t& a,
+    const int8x2_t& b,
+    int32_t& c) {
+  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
+  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
+}
+
+template <>
+__device__ void inner_product<int8x4_t, int8x4_t, int32_t>(
+    const int8x4_t& a,
+    const int8x4_t& b,
+    int32_t& c) {
+#if defined(CK_USE_AMD_V_DOT4_I32_I8)
+#if CK_USE_AMD_V_DOT_INLINE_ASM
+  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
+  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
+  // ) s_nop with parameter 2 is equal to 3 x s_nop
+  asm volatile(
+      "\n \
+            v_dot4_i32_i8 %0, %1, %2, %0\n \
+            s_nop 2 \n \
+            "
+      : "=v"(c)
+      : "v"(bit_cast<int32_t>(a)), "v"(bit_cast<int32_t>(b)), "0"(c));
+#else
+  c = __builtin_amdgcn_sdot4(
+      bit_cast<int32_t>(a), bit_cast<int32_t>(b), c, false);
+#endif
+#elif defined(CK_USE_AMD_V_DOT4_I32_I8_GFX11)
+  c = __builtin_amdgcn_sudot4(
+      true, bit_cast<int32_t>(a), true, bit_cast<int32_t>(b), c, false);
+#else
+  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
+  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
+  c += type_convert<int32_t>(a[2]) * type_convert<int32_t>(b[2]);
+  c += type_convert<int32_t>(a[3]) * type_convert<int32_t>(b[3]);
+#endif
+}
+
+template <>
+__device__ void inner_product<int8x8_t, int8x8_t, int32_t>(
+    const int8x8_t& a,
+    const int8x8_t& b,
+    int32_t& c) {
+  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
+  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
+  c += type_convert<int32_t>(a[2]) * type_convert<int32_t>(b[2]);
+  c += type_convert<int32_t>(a[3]) * type_convert<int32_t>(b[3]);
+  c += type_convert<int32_t>(a[4]) * type_convert<int32_t>(b[4]);
+  c += type_convert<int32_t>(a[5]) * type_convert<int32_t>(b[5]);
+  c += type_convert<int32_t>(a[6]) * type_convert<int32_t>(b[6]);
+  c += type_convert<int32_t>(a[7]) * type_convert<int32_t>(b[7]);
+}
+
+template <>
+__device__ void inner_product<int8x16_t, int8x16_t, int32_t>(
+    const int8x16_t& a,
+    const int8x16_t& b,
+    int32_t& c) {
+  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
+  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
+  c += type_convert<int32_t>(a[2]) * type_convert<int32_t>(b[2]);
+  c += type_convert<int32_t>(a[3]) * type_convert<int32_t>(b[3]);
+  c += type_convert<int32_t>(a[4]) * type_convert<int32_t>(b[4]);
+  c += type_convert<int32_t>(a[5]) * type_convert<int32_t>(b[5]);
+  c += type_convert<int32_t>(a[6]) * type_convert<int32_t>(b[6]);
+  c += type_convert<int32_t>(a[7]) * type_convert<int32_t>(b[7]);
+  c += type_convert<int32_t>(a[8]) * type_convert<int32_t>(b[8]);
+  c += type_convert<int32_t>(a[9]) * type_convert<int32_t>(b[9]);
+  c += type_convert<int32_t>(a[10]) * type_convert<int32_t>(b[10]);
+  c += type_convert<int32_t>(a[11]) * type_convert<int32_t>(b[11]);
+  c += type_convert<int32_t>(a[12]) * type_convert<int32_t>(b[12]);
+  c += type_convert<int32_t>(a[13]) * type_convert<int32_t>(b[13]);
+  c += type_convert<int32_t>(a[14]) * type_convert<int32_t>(b[14]);
+  c += type_convert<int32_t>(a[15]) * type_convert<int32_t>(b[15]);
+}
+
+} // namespace ck_tile

From 8c05a8e67e994aaf41314f16ae7d7b4a6fe80f3f Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 14 Feb 2025 05:08:55 +0000
Subject: [PATCH 794/837] Synchronize to the latest ck develop branch for
 solving a test failure

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 3d50f57f43..4cfb24feb6 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 3d50f57f4362afc9a69e39858ea3bda9b0fb5159
+Subproject commit 4cfb24feb67602d38b60a1568492c6313bf25a82

From 551fd235f8a518c3d3e7ce088a9fa2d2453adbc9 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Feb 2025 06:32:44 +0000
Subject: [PATCH 795/837] Synchronize to the latest ck develop branch for
 solving the test_paged_attention_ck failed cases

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 4cfb24feb6..a3757a5f9c 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 4cfb24feb67602d38b60a1568492c6313bf25a82
+Subproject commit a3757a5f9c40c1c8ff23e54c5b99c5e059ed1c39

From e12bca7bc713142e8481e45f61765d8111b4c519 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Feb 2025 07:47:45 +0000
Subject: [PATCH 796/837] remove import sys in generate_instances.py

---
 xformers/csrc/attention/hip_fmha/generate_instances.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/xformers/csrc/attention/hip_fmha/generate_instances.py b/xformers/csrc/attention/hip_fmha/generate_instances.py
index 9af1d90224..7f1dabeb8d 100644
--- a/xformers/csrc/attention/hip_fmha/generate_instances.py
+++ b/xformers/csrc/attention/hip_fmha/generate_instances.py
@@ -6,7 +6,6 @@
 #
 
 import os
-import sys
 from pathlib import Path
 from typing import List
 

From 981d068bbdc4ab448274c7971fced85b4b186215 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Feb 2025 09:14:53 +0000
Subject: [PATCH 797/837] Tiny scripts update in ck.py

---
 xformers/ops/fmha/ck.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 0d908340c8..2b7672eedd 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -242,7 +242,7 @@ def apply(
         attn_bias_replace = inp.attn_bias
         if isinstance(inp.attn_bias, LowerTriangularMaskWithTensorBias):
             bias_tensor = _get_tensor_bias(inp.attn_bias)
-            if bias_tensor.ndim == 5:
+            if bias_tensor is not None and bias_tensor.ndim == 5:
                 attn_bias_replace = LowerTriangularMaskWithTensorBias(
                     bias_tensor.flatten(1, 2)
                 )

From f0029c723835d002245326fecb8f704e001ff965 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 19 Feb 2025 13:32:19 +0000
Subject: [PATCH 798/837] Rename the qr_ks_vs_async pipeline to
 qr_ks_vs_whole_k_prefetch pipeline

---
 third_party/composable_kernel_tiled               |  2 +-
 .../ck_tiled_fmha_batched_infer_dispatch.h        | 15 ++++++++-------
 .../ck_tiled_fmha_grouped_infer_dispatch.h        | 15 ++++++++-------
 3 files changed, 17 insertions(+), 15 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index f881fa70b0..95db83a3c8 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit f881fa70b0663b579d31e49b129a7477a3082773
+Subproject commit 95db83a3c8e76dee833ca40b87742cea8b78cb32
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index ebd61a9a6d..66b2f0f84a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -26,10 +26,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct batched_infer_mask_bias_dropout_dispatch {
-  static constexpr bool kUseAsyncPipeline = (MaxK <= 256 && !kHasDropout);
+  static constexpr bool kUseWholeKPrefetchPipeline =
+      (MaxK <= 256 && !kHasDropout);
 
   constexpr static auto get_fmha_shape_type() {
-    if constexpr (kUseAsyncPipeline)
+    if constexpr (kUseWholeKPrefetchPipeline)
       return typename FmhaFwdAsyncShape<MaxK, MTile>::Type{};
     else
       return typename FmhaFwdShape<MaxK, MTile>::Type{};
@@ -38,8 +39,8 @@ struct batched_infer_mask_bias_dropout_dispatch {
   using FmhaShape = decltype(get_fmha_shape_type());
 
   static constexpr ck_tile::index_t kKLoadLength =
-      (kUseAsyncPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
-                                        : FmhaShape::kSubQKHeaddim;
+      (kUseWholeKPrefetchPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
+                                                 : FmhaShape::kSubQKHeaddim;
 
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -106,9 +107,9 @@ struct batched_infer_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          if constexpr (kUseAsyncPipeline) {
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+          if constexpr (kUseWholeKPrefetchPipeline) {
+            using FmhaPipeline = ck_tile::BlockFmhaPipelineQRKSVSWholeKPrefetch<
+                FmhaPipelineProblem>;
             using FmhaKernel =
                 ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index eab3481c79..c0e7ffcd67 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -26,10 +26,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct grouped_infer_mask_bias_dropout_dispatch {
-  static constexpr bool kUseAsyncPipeline = (MaxK <= 256 && !kHasDropout);
+  static constexpr bool kUseWholeKPrefetchPipeline =
+      (MaxK <= 256 && !kHasDropout);
 
   constexpr static auto get_fmha_shape_type() {
-    if constexpr (kUseAsyncPipeline)
+    if constexpr (kUseWholeKPrefetchPipeline)
       return typename FmhaFwdAsyncShape<MaxK, MTile>::Type{};
     else
       return typename FmhaFwdShape<MaxK, MTile>::Type{};
@@ -38,8 +39,8 @@ struct grouped_infer_mask_bias_dropout_dispatch {
   using FmhaShape = decltype(get_fmha_shape_type());
 
   static constexpr ck_tile::index_t kKLoadLength =
-      (kUseAsyncPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
-                                        : FmhaShape::kSubQKHeaddim;
+      (kUseWholeKPrefetchPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
+                                                 : FmhaShape::kSubQKHeaddim;
 
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
@@ -100,9 +101,9 @@ struct grouped_infer_mask_bias_dropout_dispatch {
                   kPadSeqLenQ,
                   kPadHeadDimV>>;
 
-          if constexpr (kUseAsyncPipeline) {
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+          if constexpr (kUseWholeKPrefetchPipeline) {
+            using FmhaPipeline = ck_tile::BlockFmhaPipelineQRKSVSWholeKPrefetch<
+                FmhaPipelineProblem>;
             using FmhaKernel =
                 ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
 

From 3caf1de23697cc7bb6830e3b59cb434bf5874e09 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 20 Feb 2025 22:18:55 +0000
Subject: [PATCH 799/837] silence lint, sync with upstream

---
 xformers/components/attention/core.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/xformers/components/attention/core.py b/xformers/components/attention/core.py
index 3a201fb512..3e80e917dc 100644
--- a/xformers/components/attention/core.py
+++ b/xformers/components/attention/core.py
@@ -103,7 +103,7 @@ def _matmul_with_mask(
             repeat_factor = att.shape[0] // mask.shape[0]
             mask = mask.repeat([repeat_factor, 1, 1])
             logger.info("Mismatched batch dimensions for mask, repeating mask.")
-        att += mask
+        att += mask  # type: ignore
     return att
 
 
From 3e790857bd7228278cdf82f694c768b97dcdadd8 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 14 Feb 2025 01:34:09 +0000
Subject: [PATCH 800/837] refactor attention inner product

---
 .../ck_tile_attention_inner_product.h         | 158 +++++-------------
 1 file changed, 46 insertions(+), 112 deletions(-)

diff --git a/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h b/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h
index 39350789bf..5ff5aaae4f 100644
--- a/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h
+++ b/xformers/csrc/attention/hip_decoder/ck_tile_attention_inner_product.h
@@ -1,5 +1,5 @@
 /*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ * Copyright (c) 2023-2025, Advanced Micro Devices, Inc. All rights reserved.
  *
  * This source code is licensed under the BSD-style license found in the
  * LICENSE file in the root directory of this source tree.
@@ -11,21 +11,27 @@
 namespace ck_tile {
 
 template <typename TA, typename TB, typename TC>
-__device__ void inner_product(const TA& a, const TB& b, TC& c);
+CK_TILE_DEVICE void inner_product(const TA& a, const TB& b, TC& c);
+
+template <typename TA, typename TB, typename TC, typename TItem>
+CK_TILE_DEVICE void inner_product_unrolled(const TA& a, const TB& b, TC& c) {
+  static_assert(std::is_same_v<TA, TB>);
+  constexpr int unroll_count = sizeof(TA) / sizeof(TItem);
+  using item_array_t = TItem[unroll_count];
+  auto av = *reinterpret_cast<const item_array_t*>(&a);
+  auto bv = *reinterpret_cast<const item_array_t*>(&b);
+#pragma unroll
+  for (int i = 0; i < unroll_count; ++i) {
+    inner_product(av[i], bv[i], c);
+  }
+}
 
 template <>
-__device__ void inner_product<float, float, float>(
+CK_TILE_DEVICE void inner_product<float, float, float>(
     const float& a,
     const float& b,
     float& c) {
-#if CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_MAC_F32)
-  asm volatile(
-      "\n \
-            v_mac_f32 %0, %1, %2 \n \
-            "
-      : "=v"(c)
-      : "v"(a), "v"(b), "0"(c));
-#elif CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_FMAC_F32)
+#if (defined(__gfx9__)) // for GPU code
   asm volatile(
       "\n \
             v_fmac_f32 %0, %1, %2 \n \
@@ -38,27 +44,23 @@ __device__ void inner_product<float, float, float>(
 }
 
 template <>
-__device__ void inner_product<fp32x2_t, fp32x2_t, float>(
+CK_TILE_DEVICE void inner_product<fp32x2_t, fp32x2_t, float>(
     const fp32x2_t& a,
     const fp32x2_t& b,
     float& c) {
-  inner_product(a[0], b[0], c);
-  inner_product(a[1], b[1], c);
+  inner_product_unrolled<fp32x2_t, fp32x2_t, float, fp32_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<fp32x4_t, fp32x4_t, float>(
+CK_TILE_DEVICE void inner_product<fp32x4_t, fp32x4_t, float>(
     const fp32x4_t& a,
     const fp32x4_t& b,
     float& c) {
-  inner_product(a[0], b[0], c);
-  inner_product(a[1], b[1], c);
-  inner_product(a[2], b[2], c);
-  inner_product(a[3], b[3], c);
+  inner_product_unrolled<fp32x4_t, fp32x4_t, float, fp32_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<bf16_t, bf16_t, float>(
+CK_TILE_DEVICE void inner_product<bf16_t, bf16_t, float>(
     const bf16_t& a,
     const bf16_t& b,
     float& c) {
@@ -66,7 +68,7 @@ __device__ void inner_product<bf16_t, bf16_t, float>(
 }
 
 template <>
-__device__ void inner_product<fp16_t, fp16_t, float>(
+CK_TILE_DEVICE void inner_product<fp16_t, fp16_t, float>(
     const fp16_t& a,
     const fp16_t& b,
     float& c) {
@@ -74,79 +76,51 @@ __device__ void inner_product<fp16_t, fp16_t, float>(
 }
 
 template <>
-__device__ void inner_product<fp16x2_t, fp16x2_t, float>(
+CK_TILE_DEVICE void inner_product<fp16x2_t, fp16x2_t, float>(
     const fp16x2_t& a,
     const fp16x2_t& b,
     float& c) {
-#if defined(CK_USE_AMD_V_DOT2_F32_F16)
-#if CK_USE_AMD_V_DOT_INLINE_ASM
-  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
-  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
-  // ) s_nop with parameter 2 is equal to 3 x s_nop
-  asm volatile(
-      "\n \
-            v_dot2_f32_f16 %0, %1, %2, %0\n \
-            s_nop 2 \n \
-            "
-      : "=v"(c)
-      : "v"(a), "v"(b), "0"(c));
-#else
+#if (defined(__gfx9__)) // for GPU code
   c = __builtin_amdgcn_fdot2(a, b, c, false);
-#endif
 #else
-  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
-  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+  inner_product_unrolled<fp16x2_t, fp16x2_t, float, fp16_t>(a, b, c);
 #endif
 }
 
 template <>
-__device__ void inner_product<fp16x4_t, fp16x4_t, float>(
+CK_TILE_DEVICE void inner_product<fp16x4_t, fp16x4_t, float>(
     const fp16x4_t& a,
     const fp16x4_t& b,
     float& c) {
-  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
-  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
-  c += type_convert<float>(a[2]) * type_convert<float>(b[2]);
-  c += type_convert<float>(a[3]) * type_convert<float>(b[3]);
+  inner_product_unrolled<fp16x4_t, fp16x4_t, float, fp16x2_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<fp16x8_t, fp16x8_t, float>(
+CK_TILE_DEVICE void inner_product<fp16x8_t, fp16x8_t, float>(
     const fp16x8_t& a,
     const fp16x8_t& b,
     float& c) {
-  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
-  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
-  c += type_convert<float>(a[2]) * type_convert<float>(b[2]);
-  c += type_convert<float>(a[3]) * type_convert<float>(b[3]);
-  c += type_convert<float>(a[4]) * type_convert<float>(b[4]);
-  c += type_convert<float>(a[5]) * type_convert<float>(b[5]);
-  c += type_convert<float>(a[6]) * type_convert<float>(b[6]);
-  c += type_convert<float>(a[7]) * type_convert<float>(b[7]);
+  inner_product_unrolled<fp16x8_t, fp16x8_t, float, fp16x2_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<bf16x2_t, bf16x2_t, float>(
+CK_TILE_DEVICE void inner_product<bf16x2_t, bf16x2_t, float>(
     const bf16x2_t& a,
     const bf16x2_t& b,
     float& c) {
-  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
-  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
+  inner_product_unrolled<bf16x2_t, bf16x2_t, float, bf16_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<bf16x4_t, bf16x4_t, float>(
+CK_TILE_DEVICE void inner_product<bf16x4_t, bf16x4_t, float>(
     const bf16x4_t& a,
     const bf16x4_t& b,
     float& c) {
-  c += type_convert<float>(a[0]) * type_convert<float>(b[0]);
-  c += type_convert<float>(a[1]) * type_convert<float>(b[1]);
-  c += type_convert<float>(a[2]) * type_convert<float>(b[2]);
-  c += type_convert<float>(a[3]) * type_convert<float>(b[3]);
+  inner_product_unrolled<bf16x4_t, bf16x4_t, float, bf16_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<int8_t, int8_t, int32_t>(
+CK_TILE_DEVICE void inner_product<int8_t, int8_t, int32_t>(
     const int8_t& a,
     const int8_t& b,
     int32_t& c) {
@@ -154,82 +128,42 @@ __device__ void inner_product<int8_t, int8_t, int32_t>(
 }
 
 template <>
-__device__ void inner_product<int8x2_t, int8x2_t, int32_t>(
+CK_TILE_DEVICE void inner_product<int8x2_t, int8x2_t, int32_t>(
     const int8x2_t& a,
     const int8x2_t& b,
     int32_t& c) {
-  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
-  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
+  inner_product_unrolled<int8x2_t, int8x2_t, int32_t, int8_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<int8x4_t, int8x4_t, int32_t>(
+CK_TILE_DEVICE void inner_product<int8x4_t, int8x4_t, int32_t>(
     const int8x4_t& a,
     const int8x4_t& b,
     int32_t& c) {
-#if defined(CK_USE_AMD_V_DOT4_I32_I8)
-#if CK_USE_AMD_V_DOT_INLINE_ASM
-  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
-  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
-  // ) s_nop with parameter 2 is equal to 3 x s_nop
-  asm volatile(
-      "\n \
-            v_dot4_i32_i8 %0, %1, %2, %0\n \
-            s_nop 2 \n \
-            "
-      : "=v"(c)
-      : "v"(bit_cast<int32_t>(a)), "v"(bit_cast<int32_t>(b)), "0"(c));
-#else
+#if (defined(__gfx9__)) // for GPU code
   c = __builtin_amdgcn_sdot4(
       bit_cast<int32_t>(a), bit_cast<int32_t>(b), c, false);
-#endif
-#elif defined(CK_USE_AMD_V_DOT4_I32_I8_GFX11)
-  c = __builtin_amdgcn_sudot4(
-      true, bit_cast<int32_t>(a), true, bit_cast<int32_t>(b), c, false);
 #else
-  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
-  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
-  c += type_convert<int32_t>(a[2]) * type_convert<int32_t>(b[2]);
-  c += type_convert<int32_t>(a[3]) * type_convert<int32_t>(b[3]);
+  inner_product_unrolled<int8x4_t, int8x4_t, int32_t, int8_t>(a, b, c);
 #endif
 }
 
 template <>
-__device__ void inner_product<int8x8_t, int8x8_t, int32_t>(
+CK_TILE_DEVICE void inner_product<int8x8_t, int8x8_t, int32_t>(
     const int8x8_t& a,
     const int8x8_t& b,
     int32_t& c) {
-  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
-  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
-  c += type_convert<int32_t>(a[2]) * type_convert<int32_t>(b[2]);
-  c += type_convert<int32_t>(a[3]) * type_convert<int32_t>(b[3]);
-  c += type_convert<int32_t>(a[4]) * type_convert<int32_t>(b[4]);
-  c += type_convert<int32_t>(a[5]) * type_convert<int32_t>(b[5]);
-  c += type_convert<int32_t>(a[6]) * type_convert<int32_t>(b[6]);
-  c += type_convert<int32_t>(a[7]) * type_convert<int32_t>(b[7]);
+  inner_product_unrolled<int8x8_t, int8x8_t, int32_t, int8x4_t>(a, b, c);
 }
 
 template <>
-__device__ void inner_product<int8x16_t, int8x16_t, int32_t>(
+CK_TILE_DEVICE void inner_product<int8x16_t, int8x16_t, int32_t>(
     const int8x16_t& a,
     const int8x16_t& b,
     int32_t& c) {
-  c += type_convert<int32_t>(a[0]) * type_convert<int32_t>(b[0]);
-  c += type_convert<int32_t>(a[1]) * type_convert<int32_t>(b[1]);
-  c += type_convert<int32_t>(a[2]) * type_convert<int32_t>(b[2]);
-  c += type_convert<int32_t>(a[3]) * type_convert<int32_t>(b[3]);
-  c += type_convert<int32_t>(a[4]) * type_convert<int32_t>(b[4]);
-  c += type_convert<int32_t>(a[5]) * type_convert<int32_t>(b[5]);
-  c += type_convert<int32_t>(a[6]) * type_convert<int32_t>(b[6]);
-  c += type_convert<int32_t>(a[7]) * type_convert<int32_t>(b[7]);
-  c += type_convert<int32_t>(a[8]) * type_convert<int32_t>(b[8]);
-  c += type_convert<int32_t>(a[9]) * type_convert<int32_t>(b[9]);
-  c += type_convert<int32_t>(a[10]) * type_convert<int32_t>(b[10]);
-  c += type_convert<int32_t>(a[11]) * type_convert<int32_t>(b[11]);
-  c += type_convert<int32_t>(a[12]) * type_convert<int32_t>(b[12]);
-  c += type_convert<int32_t>(a[13]) * type_convert<int32_t>(b[13]);
-  c += type_convert<int32_t>(a[14]) * type_convert<int32_t>(b[14]);
-  c += type_convert<int32_t>(a[15]) * type_convert<int32_t>(b[15]);
+  inner_product_unrolled<int8x16_t, int8x16_t, int32_t, int8x4_t>(a, b, c);
 }
 
+// TBD: Packed I4
+
 } // namespace ck_tile

From b930f317a4231bc0b4619d292121500f1df36095 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sat, 22 Feb 2025 11:57:11 +0000
Subject: [PATCH 801/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 95db83a3c8..4ff7c13a9f 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 95db83a3c8e76dee833ca40b87742cea8b78cb32
+Subproject commit 4ff7c13a9ff32fae2e93df5b63a049f3b84770d3

From 8ba5216b59467c236c4bfd4e88582dae47821328 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 17 Feb 2025 09:14:53 +0000
Subject: [PATCH 802/837] Tiny scripts update in ck.py

---
 xformers/ops/fmha/ck.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 50f8d80135..2b7672eedd 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -240,7 +240,13 @@ def apply(
 
         [_, _, G, Hq, _] = inp.query.shape
         attn_bias_replace = inp.attn_bias
-        if isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim != 0:
+        if isinstance(inp.attn_bias, LowerTriangularMaskWithTensorBias):
+            bias_tensor = _get_tensor_bias(inp.attn_bias)
+            if bias_tensor is not None and bias_tensor.ndim == 5:
+                attn_bias_replace = LowerTriangularMaskWithTensorBias(
+                    bias_tensor.flatten(1, 2)
+                )
+        elif isinstance(inp.attn_bias, torch.Tensor) and inp.attn_bias.ndim == 5:
             attn_bias_replace = inp.attn_bias.flatten(1, 2)
         inp = replace(
             inp,

From 5a9239fca8bbae01def073a0a9532d1e636d3dc6 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 24 Feb 2025 09:26:51 +0000
Subject: [PATCH 803/837] Rename the ck_tile submodule branch and synchronize
 to latest commit

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 283558de59..517bab80fd 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = ck_tile/improve_async_pipeline
+	branch = ck_tile/complete_k_prefetch
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 4ff7c13a9f..d40e48cb73 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 4ff7c13a9ff32fae2e93df5b63a049f3b84770d3
+Subproject commit d40e48cb73c91727f6b35a9ae3e55cc6ab893e13

From 9bfdf3c39de6e3eac06470c594cb9d1f17af561b Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 2 Mar 2025 06:14:26 +0000
Subject: [PATCH 804/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index d40e48cb73..40f327ab1b 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit d40e48cb73c91727f6b35a9ae3e55cc6ab893e13
+Subproject commit 40f327ab1be1b058d9e327e5e80cbb1deaf5d495

From 9155e2ddd2ad44a7d21fad69e024dbc84e580a17 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Sun, 2 Mar 2025 12:24:49 +0000
Subject: [PATCH 805/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 40f327ab1b..caecd7824a 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 40f327ab1be1b058d9e327e5e80cbb1deaf5d495
+Subproject commit caecd7824aa5fff7b38ecf7a3bf222e3726a215a

From c5620b0567ddeb7159f9539ab55cecef8901aaeb Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 3 Mar 2025 08:54:23 +0000
Subject: [PATCH 806/837] Remove using ck_tiled_fmha_async_fwd_setting.h and
 sync to updated ck_tile commit

---
 third_party/composable_kernel_tiled           |   2 +-
 .../attention_forward_generic_ck_tiled.cpp    |  11 +-
 .../hip_fmha/ck_tiled_fmha_batched_infer.h    |   8 +-
 .../ck_tiled_fmha_batched_infer_dispatch.h    |  10 +-
 .../ck_tiled_fmha_fwd_async_setting.h         | 172 ------------------
 .../hip_fmha/ck_tiled_fmha_fwd_setting.h      |  34 +++-
 .../ck_tiled_fmha_fwd_splitkv_selector.h      |   6 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  11 +-
 .../ck_tiled_fmha_grouped_infer_dispatch.h    |  10 +-
 9 files changed, 35 insertions(+), 229 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 8f8adb720e..495c3badf3 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 8f8adb720eec9c59ecdb267121c9c5051cbd5f27
+Subproject commit 495c3badf34b2ba106ed839256d4ec16e3c08ea0
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index a9ea732275..fbc43d21dd 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -243,8 +243,8 @@ efficient_attention_forward_ck(
     bool use_split_kv;
     int num_kv_splits;
 
-    std::tie(use_split_kv, num_kv_splits) = get_num_kv_splits_heuristic(
-        p.compute_logsumexp, p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
+    std::tie(use_split_kv, num_kv_splits) =
+        get_num_kv_splits_heuristic(p.B, p.Hq, p.M, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     p.use_split_kv = (!use_dropout && use_split_kv) ? true : false;
@@ -393,12 +393,7 @@ efficient_attention_forward_ck(
 
     // added for support split_kv
     std::tie(use_split_kv, num_kv_splits) = get_num_kv_splits_heuristic(
-        p.compute_logsumexp,
-        p.num_batches,
-        p.Hq,
-        p.max_seqlen_q,
-        std::max(p.K, p.Kv),
-        8);
+        p.num_batches, p.Hq, p.max_seqlen_q, std::max(p.K, p.Kv), 8);
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
index 7cd3ba2e13..a274757ab4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer.h
@@ -10,7 +10,6 @@
 #include "ck_tiled_fmha_batched_infer_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_dispatch.h"
 #include "ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h"
-#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
@@ -51,12 +50,7 @@ void run_batched_infer_mask_bias_dropout_dispatch(
         // dimension > 256
       }
     } else {
-      const auto mtile = [&]() {
-        if constexpr (MaxK <= 256)
-          return get_fmha_fwd_async_mtile(param.B, param.Hq, param.M);
-        else
-          return get_fmha_fwd_mtile(param.B, param.Hq, param.M);
-      }();
+      const auto mtile = get_fmha_fwd_mtile(param.B, param.Hq, param.M);
 
       if (mtile == 128)
         batched_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 66b2f0f84a..c7e8ce41db 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -13,7 +13,6 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
@@ -29,14 +28,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
   static constexpr bool kUseWholeKPrefetchPipeline =
       (MaxK <= 256 && !kHasDropout);
 
-  constexpr static auto get_fmha_shape_type() {
-    if constexpr (kUseWholeKPrefetchPipeline)
-      return typename FmhaFwdAsyncShape<MaxK, MTile>::Type{};
-    else
-      return typename FmhaFwdShape<MaxK, MTile>::Type{};
-  };
-
-  using FmhaShape = decltype(get_fmha_shape_type());
+  using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
 
   static constexpr ck_tile::index_t kKLoadLength =
       (kUseWholeKPrefetchPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
deleted file mode 100644
index 8d29137f6f..0000000000
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_async_setting.h
+++ /dev/null
@@ -1,172 +0,0 @@
-/*
- * Copyright (c) 2023-2024, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck_tile/core.hpp>
-#include <ck_tile/ops/fmha.hpp>
-#include "ck_fmha_util.h"
-#include "ck_tiled_fmha_fwd_type_config.h"
-
-template <ck_tile::index_t MaxK, ck_tile::index_t MTile = 0>
-struct FmhaFwdAsyncBlockTile;
-
-// Tile-sizes: M N0 K0 N1 K1 MaxK (MaxK % K0 == 0, MaxK % N1 == 0, N0 % K1 == 0)
-//
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncBlockTile<32, MTile> {
-  using type = ck_tile::sequence<64, 64, 16, 32, 32, 32>;
-  using gemm0_warps = ck_tile::sequence<2, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<2, 1, 1>;
-};
-
-template struct FmhaFwdAsyncBlockTile<32>;
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncBlockTile<64, MTile> {
-  using type = ck_tile::sequence<128, 64, 16, 64, 32, 64>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template struct FmhaFwdAsyncBlockTile<64>;
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncBlockTile<96, MTile> {
-  using type = ck_tile::sequence<128, 128, 32, 128, 32, 96>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template struct FmhaFwdAsyncBlockTile<96>;
-
-template <>
-struct FmhaFwdAsyncBlockTile<128, 64> {
-  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template <>
-struct FmhaFwdAsyncBlockTile<128, 128> {
-  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncBlockTile<256, MTile> {
-  using type = ck_tile::sequence<64, 32, 32, 256, 16, 256>;
-  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
-  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
-};
-
-template struct FmhaFwdAsyncBlockTile<256>;
-
-using FmhaFwdAsyncWarpTile1 = ck_tile::sequence<32, 32, 16>;
-using FmhaFwdAsyncWarpTile2 = ck_tile::sequence<16, 16, 16>;
-using FmhaFwdAsyncWarpTile3 = ck_tile::sequence<16, 16, 32>;
-
-template <ck_tile::index_t MaxK, ck_tile::index_t MTile>
-struct FmhaFwdAsyncShape;
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncShape<32, MTile> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<32>::type,
-      typename FmhaFwdAsyncBlockTile<32>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
-      typename FmhaFwdAsyncBlockTile<32>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdAsyncShape<32, 64>;
-template struct FmhaFwdAsyncShape<32, 128>;
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncShape<64, MTile> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<64>::type,
-      typename FmhaFwdAsyncBlockTile<64>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
-      typename FmhaFwdAsyncBlockTile<64>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdAsyncShape<64, 64>;
-template struct FmhaFwdAsyncShape<64, 128>;
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncShape<96, MTile> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<96>::type,
-      typename FmhaFwdAsyncBlockTile<96>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
-      typename FmhaFwdAsyncBlockTile<96>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdAsyncShape<96, 64>;
-template struct FmhaFwdAsyncShape<96, 128>;
-
-template <>
-struct FmhaFwdAsyncShape<128, 64> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<128, 64>::type,
-      typename FmhaFwdAsyncBlockTile<128, 64>::gemm0_warps,
-      FmhaFwdAsyncWarpTile3,
-      typename FmhaFwdAsyncBlockTile<128, 64>::gemm1_warps,
-      FmhaFwdAsyncWarpTile2,
-      IsVLayoutRowMajor>;
-};
-
-template <>
-struct FmhaFwdAsyncShape<128, 128> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<128, 128>::type,
-      typename FmhaFwdAsyncBlockTile<128, 128>::gemm0_warps,
-      FmhaFwdAsyncWarpTile1,
-      typename FmhaFwdAsyncBlockTile<128, 128>::gemm1_warps,
-      FmhaFwdAsyncWarpTile1,
-      IsVLayoutRowMajor>;
-};
-
-template <ck_tile::index_t MTile>
-struct FmhaFwdAsyncShape<256, MTile> {
-  using Type = ck_tile::TileFmhaShape<
-      typename FmhaFwdAsyncBlockTile<256>::type,
-      typename FmhaFwdAsyncBlockTile<256>::gemm0_warps,
-      FmhaFwdAsyncWarpTile2,
-      typename FmhaFwdAsyncBlockTile<256>::gemm1_warps,
-      FmhaFwdAsyncWarpTile2,
-      IsVLayoutRowMajor>;
-};
-
-template struct FmhaFwdAsyncShape<256, 64>;
-template struct FmhaFwdAsyncShape<256, 128>;
-
-static int get_fmha_fwd_async_mtile(
-    int num_batches,
-    int num_heads,
-    int max_seqlen_q) {
-  int num_SMs = get_number_of_cu();
-  auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
-
-  int batch_nhead_mblocks =
-      num_batches * num_heads * ceildiv(max_seqlen_q, 128);
-
-  if (batch_nhead_mblocks >= 0.8 * num_SMs)
-    return 128;
-
-  return 64;
-};
-
-static int get_fmha_fwd_async_least_mtile() {
-  return 64;
-};
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
index 321d3e20fe..39cf39e43d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_setting.h
@@ -43,14 +43,19 @@ struct FmhaFwdBlockTile<96, MTile> {
 
 template struct FmhaFwdBlockTile<96>;
 
-template <ck_tile::index_t MTile>
-struct FmhaFwdBlockTile<128, MTile> {
-  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
+template <>
+struct FmhaFwdBlockTile<128, 64> {
+  using type = ck_tile::sequence<64, 128, 32, 128, 32, 128>;
   using gemm0_warps = ck_tile::sequence<4, 1, 1>;
   using gemm1_warps = ck_tile::sequence<4, 1, 1>;
 };
 
-template struct FmhaFwdBlockTile<128>;
+template <>
+struct FmhaFwdBlockTile<128, 128> {
+  using type = ck_tile::sequence<128, 128, 32, 128, 32, 128>;
+  using gemm0_warps = ck_tile::sequence<4, 1, 1>;
+  using gemm1_warps = ck_tile::sequence<4, 1, 1>;
+};
 
 template <ck_tile::index_t MTile>
 struct FmhaFwdBlockTile<256, MTile> {
@@ -72,6 +77,7 @@ template struct FmhaFwdBlockTile<512>;
 
 using FmhaFwdWarpTile1 = ck_tile::sequence<32, 32, 16>;
 using FmhaFwdWarpTile2 = ck_tile::sequence<16, 16, 16>;
+using FmhaFwdWarpTile3 = ck_tile::sequence<16, 16, 32>;
 
 template <ck_tile::index_t MaxK, ck_tile::index_t MTile>
 struct FmhaFwdShape;
@@ -118,8 +124,19 @@ struct FmhaFwdShape<96, MTile> {
 template struct FmhaFwdShape<96, 64>;
 template struct FmhaFwdShape<96, 128>;
 
-template <ck_tile::index_t MTile>
-struct FmhaFwdShape<128, MTile> {
+template <>
+struct FmhaFwdShape<128, 64> {
+  using Type = ck_tile::TileFmhaShape<
+      typename FmhaFwdBlockTile<128, 64>::type,
+      typename FmhaFwdBlockTile<128, 64>::gemm0_warps,
+      FmhaFwdWarpTile3,
+      typename FmhaFwdBlockTile<128, 64>::gemm1_warps,
+      FmhaFwdWarpTile2,
+      IsVLayoutRowMajor>;
+};
+
+template <>
+struct FmhaFwdShape<128, 128> {
   using Type = ck_tile::TileFmhaShape<
       typename FmhaFwdBlockTile<128, 128>::type,
       typename FmhaFwdBlockTile<128, 128>::gemm0_warps,
@@ -129,9 +146,6 @@ struct FmhaFwdShape<128, MTile> {
       IsVLayoutRowMajor>;
 };
 
-template struct FmhaFwdShape<128, 64>;
-template struct FmhaFwdShape<128, 128>;
-
 template <ck_tile::index_t MTile>
 struct FmhaFwdShape<256, MTile> {
   using Type = ck_tile::TileFmhaShape<
@@ -173,6 +187,8 @@ static int get_fmha_fwd_mtile(
   if (batch_nhead_mblocks >= 0.8 * num_SMs)
     return 128;
 
+  // currently, only hdim-128 can use mtile-64, for other hdim, the settings for
+  // mtile-64 can be added through tuning/verification
   return 64;
 };
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
index cfab39d021..5ba0e97d67 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_fwd_splitkv_selector.h
@@ -9,7 +9,6 @@
 #include <cmath>
 #include <tuple>
 #include "ck_fmha_util.h"
-#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_setting.h"
@@ -28,7 +27,6 @@ static int generate_splits_list(int i) {
 };
 
 static std::pair<bool, int> get_num_kv_splits_heuristic(
-    bool compute_lse,
     int num_batches,
     int num_heads,
     int max_seqlen_q,
@@ -37,9 +35,7 @@ static std::pair<bool, int> get_num_kv_splits_heuristic(
   int num_SMs = get_number_of_cu();
   auto ceildiv = [](int a, int b) { return (a + b - 1) / b; };
 
-  int mtile_size_for_pipeline_default = compute_lse
-      ? get_fmha_fwd_least_mtile()
-      : get_fmha_fwd_async_least_mtile();
+  int mtile_size_for_pipeline_default = get_fmha_fwd_least_mtile();
   int mtile_size_for_splitkv = 64;
   int mtile_size_for_splitkv_smallq = 16;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 2da180431d..53115587fe 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -7,7 +7,6 @@
 #pragma once
 
 #include <algorithm>
-#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
@@ -52,14 +51,8 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
         // dimension > 256
       }
     } else {
-      const auto mtile = [&]() {
-        if constexpr (MaxK <= 256)
-          return get_fmha_fwd_async_mtile(
-              param.num_batches, param.Hq, param.max_seqlen_q);
-        else
-          return get_fmha_fwd_mtile(
-              param.num_batches, param.Hq, param.max_seqlen_q);
-      }();
+      const auto mtile =
+          get_fmha_fwd_mtile(param.num_batches, param.Hq, param.max_seqlen_q);
 
       if (mtile == 128)
         grouped_infer_mask_bias_dropout_dispatch<
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index c0e7ffcd67..83e5cd6e5b 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -13,7 +13,6 @@
 #include <ck_tile/ops/fmha.hpp>
 
 #include "ck_tiled_bool_switch.h"
-#include "ck_tiled_fmha_fwd_async_setting.h"
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_params.h"
 #include "ck_tiled_headdim_switch.h"
@@ -29,14 +28,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
   static constexpr bool kUseWholeKPrefetchPipeline =
       (MaxK <= 256 && !kHasDropout);
 
-  constexpr static auto get_fmha_shape_type() {
-    if constexpr (kUseWholeKPrefetchPipeline)
-      return typename FmhaFwdAsyncShape<MaxK, MTile>::Type{};
-    else
-      return typename FmhaFwdShape<MaxK, MTile>::Type{};
-  };
-
-  using FmhaShape = decltype(get_fmha_shape_type());
+  using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
 
   static constexpr ck_tile::index_t kKLoadLength =
       (kUseWholeKPrefetchPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim

From 15d66d81906283a3abf3ec4e21aea5568fc04772 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Mon, 3 Mar 2025 15:02:35 +0000
Subject: [PATCH 807/837] Use qr_ks_vs_async pipeline for hdim-96

---
 third_party/composable_kernel_tiled           |   2 +-
 .../ck_tiled_fmha_batched_infer_dispatch.h    | 119 ++++++++++-----
 .../ck_tiled_fmha_grouped_infer_dispatch.h    | 137 ++++++++++++------
 3 files changed, 171 insertions(+), 87 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 495c3badf3..60d8fed30c 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 495c3badf34b2ba106ed839256d4ec16e3c08ea0
+Subproject commit 60d8fed30cac6479b8924bcf7dd3668561c12c60
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index c7e8ce41db..ac1ab00c11 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -26,7 +26,7 @@ template <
     ck_tile::index_t MTile>
 struct batched_infer_mask_bias_dropout_dispatch {
   static constexpr bool kUseWholeKPrefetchPipeline =
-      (MaxK <= 256 && !kHasDropout);
+      (MaxK <= 128 && !kHasDropout);
 
   using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
 
@@ -69,19 +69,74 @@ struct batched_infer_mask_bias_dropout_dispatch {
     // buffer_load_dwordxx/buffer_store_dwordxx can handle oob access
     constexpr bool kPadSeqLenQ = false;
 
-    BOOL_SWITCH_3(
-        pad_seqlen_k,
-        kPadSeqLenK,
-        pad_headdim_q,
-        kPadHeadDimQ,
-        pad_headdim_v,
-        kPadHeadDimV,
-        [&] {
+    // only use qr_ks_vs_async pipeline with hdim-96
+    const bool use_async_pipeline =
+        (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+         (MaxK == 96));
+
+    if (!use_async_pipeline) {
+      BOOL_SWITCH_3(
+          pad_seqlen_k,
+          kPadSeqLenK,
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          [&] {
+            using FmhaTraits = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ, // kPadHeadDimQ,
+                kPadHeadDimV, // kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDimV>>;
+
+            if constexpr (kUseWholeKPrefetchPipeline) {
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQRKSVSWholeKPrefetch<
+                      FmhaPipelineProblem>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            } else if constexpr (MaxK <= 256) {
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            }
+          });
+    } else {
+      BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
+        if constexpr (MaxK == 96) {
           using FmhaTraits = ck_tile::TileFmhaTraits<
-              kPadSeqLenQ,
+              true, // kPadSeqLenQ,
               kPadSeqLenK,
-              kPadHeadDimQ, // kPadHeadDimQ,
-              kPadHeadDimV, // kPadHeadDimV,
+              true, // kPadHeadDimQ,
+              true, // kPadHeadDimV,
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               false, // kStoreLSE
@@ -92,36 +147,24 @@ struct batched_infer_mask_bias_dropout_dispatch {
           using FmhaPipelineProblem =
               FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
 
+          using FmhaPipeline =
+              ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+
           using FmhaEpilogue =
               ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
                   typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
                   typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                  kPadSeqLenQ,
-                  kPadHeadDimV>>;
-
-          if constexpr (kUseWholeKPrefetchPipeline) {
-            using FmhaPipeline = ck_tile::BlockFmhaPipelineQRKSVSWholeKPrefetch<
-                FmhaPipelineProblem>;
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          } else if constexpr (MaxK <= 256) {
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          } else {
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          }
-        });
+                  true,
+                  true>>;
+
+          using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+          RunWithKernel<FmhaKernel>(param, stream);
+        } else {
+          /* runtime will never get here, so no codes to compile */
+        };
+      });
+    };
   };
 
   template <typename FmhaKernel>
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 83e5cd6e5b..efb17b349c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -26,7 +26,7 @@ template <
     ck_tile::index_t MTile>
 struct grouped_infer_mask_bias_dropout_dispatch {
   static constexpr bool kUseWholeKPrefetchPipeline =
-      (MaxK <= 256 && !kHasDropout);
+      (MaxK <= 128 && !kHasDropout);
 
   using FmhaShape = typename FmhaFwdShape<MaxK, MTile>::Type;
 
@@ -69,53 +69,94 @@ struct grouped_infer_mask_bias_dropout_dispatch {
     bool pad_headdim_q = !(param.K % kKLoadLength == 0);
     bool pad_headdim_v = !(param.Kv % FmhaShape::kN1 == 0);
 
-    BOOL_SWITCH_2(
-        pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
-          using FmhaTraits = ck_tile::TileFmhaTraits<
-              kPadSeqLenQ,
-              kPadSeqLenK,
-              kPadHeadDimQ,
-              kPadHeadDimV,
-              kBiasEnum,
-              false, // kHasBiasGrad place-holder
-              false, // kStoreLSE
-              kHasDropout,
-              false, // kDoFp8StaticQuant place-holder
-              occupancy>;
-
-          using FmhaPipelineProblem =
-              FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
-
-          using FmhaEpilogue =
-              ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
-                  typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
-                  typename FmhaFwdTypeConfig<ScalarType>::ODataType,
-                  kPadSeqLenQ,
-                  kPadHeadDimV>>;
-
-          if constexpr (kUseWholeKPrefetchPipeline) {
-            using FmhaPipeline = ck_tile::BlockFmhaPipelineQRKSVSWholeKPrefetch<
-                FmhaPipelineProblem>;
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          } else if constexpr (MaxK <= 256) {
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          } else {
-            using FmhaPipeline =
-                ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
-            using FmhaKernel =
-                ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
-
-            RunWithKernel<FmhaKernel>(param, stream);
-          }
-        });
+    // only use qr_ks_vs_async pipeline with hdim-96
+    const bool use_async_pipeline =
+        (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
+         (MaxK == 96));
+
+    if (!use_async_pipeline) {
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
+            using FmhaTraits = ck_tile::TileFmhaTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kHasDropout,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using FmhaPipelineProblem =
+                FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                    kPadSeqLenQ,
+                    kPadHeadDimV>>;
+
+            if constexpr (kUseWholeKPrefetchPipeline) {
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQRKSVSWholeKPrefetch<
+                      FmhaPipelineProblem>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            } else if constexpr (MaxK <= 256) {
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQRKSVS<FmhaPipelineProblem>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            } else {
+              using FmhaPipeline =
+                  ck_tile::BlockFmhaPipelineQSKSVS<FmhaPipelineProblem>;
+              using FmhaKernel =
+                  ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+              RunWithKernel<FmhaKernel>(param, stream);
+            }
+          });
+    } else {
+      if constexpr (MaxK == 96) {
+        using FmhaTraits = ck_tile::TileFmhaTraits<
+            true, // kPadSeqLenQ,
+            kPadSeqLenK,
+            true, // kPadHeadDimQ,
+            true, // kPadHeadDimV,
+            kBiasEnum,
+            false, // kHasBiasGrad place-holder
+            false, // kStoreLSE
+            kHasDropout,
+            false, // kDoFp8StaticQuant place-holder
+            occupancy>;
+
+        using FmhaPipelineProblem =
+            FmhaPipelineProblemTemp<FmhaTraits, FmhaMask>;
+
+        using FmhaPipeline =
+            ck_tile::BlockFmhaPipelineQRKSVSAsync<FmhaPipelineProblem>;
+
+        using FmhaEpilogue =
+            ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                typename FmhaFwdTypeConfig<ScalarType>::ODataType,
+                true,
+                true>>;
+
+        using FmhaKernel = ck_tile::FmhaFwdKernel<FmhaPipeline, FmhaEpilogue>;
+
+        RunWithKernel<FmhaKernel>(param, stream);
+      } else {
+        /* runtime will never get here, so no codes to compile */
+      };
+    };
   };
 
   template <typename FmhaKernel>

From 1736dc7ee6e4ed5fb40e3367e15e592f778e47fd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 4 Mar 2025 04:15:49 +0000
Subject: [PATCH 808/837] Synchronize to the update ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 60d8fed30c..265e120e1e 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 60d8fed30cac6479b8924bcf7dd3668561c12c60
+Subproject commit 265e120e1e2e8e5280053fff4c8895756d3014b3

From 0909c263189832d3681633cae24ed2537f3db3a3 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 4 Mar 2025 14:30:41 +0000
Subject: [PATCH 809/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 265e120e1e..8aba3eb587 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 265e120e1e2e8e5280053fff4c8895756d3014b3
+Subproject commit 8aba3eb587c6b84bdb4dee5aa53d4e597957660a

From 552d821ca747e2a67d82cd0701f0b78b25a60c01 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 4 Mar 2025 15:46:41 +0000
Subject: [PATCH 810/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 8aba3eb587..15354b12eb 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 8aba3eb587c6b84bdb4dee5aa53d4e597957660a
+Subproject commit 15354b12eb342ea91d8f9869a44771f5ecb4399c

From 03fed31cf3ced7f99df8972378164b1957c793ef Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 5 Mar 2025 10:32:33 +0000
Subject: [PATCH 811/837] Synchronize to the updated ck_tile commit

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 15354b12eb..68fd50e055 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 15354b12eb342ea91d8f9869a44771f5ecb4399c
+Subproject commit 68fd50e0556c34f12f19acf28bde8598d53a0491

From 0ddd927329eb3a1ad492a93e38c82d46be86d4d2 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 7 Mar 2025 07:19:17 +0000
Subject: [PATCH 812/837] Re-position the ck_tiled submodule to develop branch

---
 .gitmodules                         | 2 +-
 third_party/composable_kernel_tiled | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/.gitmodules b/.gitmodules
index 517bab80fd..b642ad5b97 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = ck_tile/complete_k_prefetch
+	branch = develop 
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 68fd50e055..4f54fa3058 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 68fd50e0556c34f12f19acf28bde8598d53a0491
+Subproject commit 4f54fa30583704f34da2ac50372d524cae6bad7d

From 46b35b7101a90cd59e58c9f215c33067e7febeba Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 7 Mar 2025 07:54:23 +0000
Subject: [PATCH 813/837] Re-format .gitmodules

---
 .gitmodules | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.gitmodules b/.gitmodules
index b642ad5b97..176104791f 100644
--- a/.gitmodules
+++ b/.gitmodules
@@ -7,4 +7,4 @@
 [submodule "third_party/composable_kernel_tiled"]
 	path = third_party/composable_kernel_tiled
 	url = https://github.com/ROCm/composable_kernel.git
-	branch = develop 
+	branch = develop

From a0a401e4da80be8289aba8e875cfeb3126f2a141 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 11 Mar 2025 04:48:53 +0000
Subject: [PATCH 814/837] Let qualified cases with MTile=128 to use
 qr_ks_vs_async pipeline

---
 .../attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h | 4 ++--
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h | 4 ++--
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index ac1ab00c11..9dd7fe159f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -72,7 +72,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
     // only use qr_ks_vs_async pipeline with hdim-96
     const bool use_async_pipeline =
         (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-         (MaxK == 96));
+         (MaxK <= 128 && MTile == 128));
 
     if (!use_async_pipeline) {
       BOOL_SWITCH_3(
@@ -131,7 +131,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
           });
     } else {
       BOOL_SWITCH(pad_seqlen_k, kPadSeqLenK, [&] {
-        if constexpr (MaxK == 96) {
+        if constexpr (MaxK <= 128 && MTile == 128) {
           using FmhaTraits = ck_tile::TileFmhaTraits<
               true, // kPadSeqLenQ,
               kPadSeqLenK,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index efb17b349c..f241473a8e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -72,7 +72,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
     // only use qr_ks_vs_async pipeline with hdim-96
     const bool use_async_pipeline =
         (!kHasBias && (param.K % 8 == 0) && (param.Kv % 8 == 0) &&
-         (MaxK == 96));
+         (MaxK <= 128 && MTile == 128));
 
     if (!use_async_pipeline) {
       BOOL_SWITCH_2(
@@ -124,7 +124,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
             }
           });
     } else {
-      if constexpr (MaxK == 96) {
+      if constexpr (MaxK <= 128 && MTile == 128) {
         using FmhaTraits = ck_tile::TileFmhaTraits<
             true, // kPadSeqLenQ,
             kPadSeqLenK,

From 4b18a0c50ae6d772632ddbcdbb1a05280dcba13c Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Fri, 14 Mar 2025 19:22:52 +0000
Subject: [PATCH 815/837] remove legacy ck decoder

---
 docs/source/components/ops.rst                |   4 -
 tests/test_mem_eff_attention.py               |  19 +-
 .../benchmarks/benchmark_attn_decoding.py     |   7 +-
 .../hip_decoder/attention_forward_decoder.cpp | 333 ------------
 .../ck_attention_forward_decoder.h            | 496 ------------------
 .../hip_decoder/ck_attention_inner_product.h  | 351 -------------
 .../hip_decoder/ck_attention_math_ext.h       |  29 -
 xformers/ops/fmha/__init__.py                 |   4 +-
 xformers/ops/fmha/ck_decoder.py               | 139 -----
 9 files changed, 6 insertions(+), 1376 deletions(-)
 delete mode 100644 xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
 delete mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder.h
 delete mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_inner_product.h
 delete mode 100644 xformers/csrc/attention/hip_decoder/ck_attention_math_ext.h
 delete mode 100644 xformers/ops/fmha/ck_decoder.py

diff --git a/docs/source/components/ops.rst b/docs/source/components/ops.rst
index 848628bdc9..fac44789be 100644
--- a/docs/source/components/ops.rst
+++ b/docs/source/components/ops.rst
@@ -29,10 +29,6 @@ Available implementations
     :members: FwOp, BwOp
     :member-order: bysource
 
-.. automodule:: xformers.ops.fmha.ck_decoder
-    :members: FwOp
-    :member-order: bysource
-
 .. automodule:: xformers.ops.fmha.ck_splitk
     :members: FwOp
     :member-order: bysource
diff --git a/tests/test_mem_eff_attention.py b/tests/test_mem_eff_attention.py
index f4022a4239..d230064a23 100644
--- a/tests/test_mem_eff_attention.py
+++ b/tests/test_mem_eff_attention.py
@@ -1540,18 +1540,7 @@ def _kv_heads_label(kv_heads: Optional[int]) -> str:
     return f"gqa{kv_heads}"
 
 
-@sm70_or_better_only
-@pytest.mark.parametrize(
-    "op",
-    [
-        fmha.ck_decoder.FwOp,
-    ],
-)
-@pytest.mark.parametrize("kv_heads", [None, 1, 2], ids=_kv_heads_label)
-@pytest.mark.parametrize("bsz,n_heads", [(1, 1), (1, 16), (1, 32), (8, 1), (4, 8)])
-@pytest.mark.parametrize("padding", [32, 4096])
-@pytest.mark.parametrize("dtype", ["f16", "bf16", "f32"])
-def test_decoder(
+def _test_decoder(
     op,
     n_heads: int,
     kv_heads: Optional[int],
@@ -1673,7 +1662,7 @@ def test_triton_splitk_decoder(
     dtype: str,
 ) -> None:
     # We omit dequant with f16: it needs a very high tol
-    test_decoder(
+    _test_decoder(
         op,
         kv_heads=kv_heads,
         n_heads=n_heads,
@@ -1703,7 +1692,7 @@ def test_ck_splitk_decoder(
     d: int,
 ) -> None:
     # no quantized impl compared to cuda
-    test_decoder(
+    _test_decoder(
         op,
         kv_heads=kv_heads,
         n_heads=n_heads,
@@ -1738,7 +1727,7 @@ def test_triton_splitk_decoder_manyqueries(
     num_queries: int,
 ) -> None:
     kv_heads = 1 if multiquery else None
-    test_decoder(
+    _test_decoder(
         op,
         kv_heads=kv_heads,
         n_heads=n_heads,
diff --git a/xformers/benchmarks/benchmark_attn_decoding.py b/xformers/benchmarks/benchmark_attn_decoding.py
index f5dfd61e96..d1a7c1e496 100644
--- a/xformers/benchmarks/benchmark_attn_decoding.py
+++ b/xformers/benchmarks/benchmark_attn_decoding.py
@@ -236,10 +236,6 @@ def __init__(
                 raise NotSupportedInputError(not_supported_reasons)
 
 
-class AttentionDecodingCKDecoder(AttentionDecodingBase):
-    OP = xops.fmha.ck_decoder.FwOp
-
-
 class AttentionDecodingSplitKV(AttentionDecodingBase):
     OP = xops.fmha.triton_splitk.FwOp
 
@@ -358,7 +354,6 @@ def fw(self) -> None:
     BENCHMARKS.update(
         {
             "ck": AttentionDecodingCK,
-            "ck-decoder": AttentionDecodingCKDecoder,
             "ck_splitK": AttentionDecodingCKSplitKV,
         }
     )
@@ -436,7 +431,7 @@ def test_flash_attention_decoder(name, case):
     inputs = baseline.get_inputs()
     decoder = BENCHMARKS[name]
 
-    assert name in ["ck-decoder", "ck_splitK", "ck", "triton_splitK", "triton_int4KV"]
+    assert name in ["ck_splitK", "ck", "triton_splitK", "triton_int4KV"]
     decoder_output, ctx = decoder.OP.apply(inputs, False)
 
     q, k, v = inputs.get_qkv_in_bmghk()
diff --git a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp b/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
deleted file mode 100644
index dbdb944b95..0000000000
--- a/xformers/csrc/attention/hip_decoder/attention_forward_decoder.cpp
+++ /dev/null
@@ -1,333 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-
-#include <ATen/Dispatch.h>
-#include <ATen/Functions.h>
-#include <ATen/Tensor.h>
-#include <c10/cuda/CUDAStream.h>
-#include <torch/library.h>
-
-#include "ck_attention_forward_decoder.h"
-
-namespace {
-constexpr int32_t kThreadsPerWavefront = 64;
-constexpr int32_t kWavefrontsPerBlock = 16;
-constexpr int32_t K_MAX = 4 * kThreadsPerWavefront;
-} // namespace
-
-namespace {
-
-template <typename c10_t>
-struct c10_to_data_t;
-template <>
-struct c10_to_data_t<float> {
-  using type = float;
-};
-
-template <>
-struct c10_to_data_t<c10::Half> {
-  using type = ck::half_t;
-};
-
-template <>
-struct c10_to_data_t<c10::BFloat16> {
-  using type = ck::bhalf_t;
-};
-} // namespace
-
-namespace {
-
-#define AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, ...) \
-  AT_DISPATCH_CASE(SCALARTYPE1, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE2, __VA_ARGS__)                           \
-  AT_DISPATCH_CASE(SCALARTYPE3, __VA_ARGS__)
-
-#define AT_DISPATCH_SWITCH_3(                               \
-    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...) \
-  AT_DISPATCH_SWITCH(                                       \
-      TYPE,                                                 \
-      NAME,                                                 \
-      AT_DISPATCH_CASE_3(SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, __VA_ARGS__))
-
-template <
-    int32_t ThreadsPerWavefront,
-    int32_t WavefrontsPerBlock,
-    int32_t KV_M_MAX = 8192,
-    int32_t K_MAX = K_MAX>
-at::Tensor& efficient_attention_forward_decoder_ck_out_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale,
-    at::Tensor& O) {
-  static_assert(4 * ThreadsPerWavefront == K_MAX, "");
-  static_assert(WavefrontsPerBlock <= ThreadsPerWavefront, "");
-
-  at::OptionalDeviceGuard guard(XQ.device());
-  TORCH_CHECK(XQ.is_cuda());
-  TORCH_CHECK(cache_K.is_cuda());
-  TORCH_CHECK(cache_V.is_cuda());
-
-  TORCH_CHECK(!seq_kv_lens || seq_kv_lens->is_cuda());
-
-  TORCH_CHECK(cache_K.size(1) <= KV_M_MAX);
-  TORCH_CHECK(cache_K.size(4) <= K_MAX);
-
-  constexpr auto rank = 5;
-
-  auto B = XQ.size(0);
-  auto M = XQ.size(1);
-  auto G = XQ.size(2);
-  auto H = XQ.size(3);
-
-  TORCH_CHECK(B <= 1024);
-  TORCH_CHECK(M <= 1024);
-  TORCH_CHECK(H <= 1024);
-
-  dim3 blocks(B * H * M * G);
-  dim3 threads(ThreadsPerWavefront, WavefrontsPerBlock);
-
-  int32_t smem_softmax = KV_M_MAX * sizeof(float) + threads.y * sizeof(float);
-  int32_t smem_output = K_MAX * sizeof(float) *
-      threads.y; // 4 * threadsPerBlock * sizeof(float) == sizeof(O[b][0][h][:])
-  const size_t lds_bytes = max(smem_softmax, smem_output);
-  auto stream = at::hip::getCurrentHIPStream().stream();
-
-  AT_DISPATCH_SWITCH_3(
-      at::ScalarType::Half,
-      at::ScalarType::BFloat16,
-      at::ScalarType::Float,
-      XQ.scalar_type(),
-      "efficient_attention_forward_decoder_ck",
-      [&] {
-        using ck_data_t = c10_to_data_t<scalar_t>::type;
-        using device_op_t =
-            ck::tensor_operation::device::FMHADecoderSeqlen1DeviceOp<ck_data_t>;
-        auto op = device_op_t{};
-
-        auto XQ_acc =
-            XQ.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto K_acc =
-            cache_K.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto V_acc =
-            cache_V.packed_accessor64<scalar_t, rank, at::RestrictPtrTraits>();
-        auto O_acc =
-            O.packed_accessor32<scalar_t, rank, at::RestrictPtrTraits>();
-        auto seq_acc = seq_kv_lens
-            ? seq_kv_lens
-                  ->packed_accessor32<int32_t, 1, at::RestrictPtrTraits>()
-                  .data()
-            : nullptr;
-        auto arg = device_op_t::Argument(
-            reinterpret_cast<const ck_data_t* __restrict__>(XQ_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(K_acc.data()),
-            reinterpret_cast<const ck_data_t* __restrict__>(V_acc.data()),
-            reinterpret_cast<ck_data_t* __restrict__>(O_acc.data()),
-            seq_acc,
-            XQ_acc.stride(0),
-            XQ_acc.stride(1),
-            XQ_acc.stride(2),
-            XQ_acc.stride(3),
-            K_acc.stride(0),
-            K_acc.stride(1),
-            K_acc.stride(2),
-            K_acc.stride(3),
-            XQ_acc.size(1),
-            XQ_acc.size(2),
-            XQ_acc.size(3),
-            XQ_acc.size(4),
-            K_acc.size(1),
-            K_acc.size(3) == 1,
-            qk_scale,
-            blocks,
-            threads,
-            lds_bytes);
-
-        auto invoker = device_op_t::Invoker{};
-        (void)invoker.Run(&arg, {stream});
-      });
-
-  return O;
-}
-
-#undef AT_DISPATCH_CASE_3
-#undef AT_DISPATCH_SWITCH_3
-
-template <int32_t ThreadsPerWavefront, int32_t WavefrontsPerBlock>
-at::Tensor efficient_attention_forward_decoder_ck_impl(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  auto O = at::empty_like(XQ);
-  efficient_attention_forward_decoder_ck_out_impl<
-      ThreadsPerWavefront,
-      WavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale, O);
-  return O;
-}
-
-at::Tensor efficient_attention_forward_decoder_ck(
-    const at::Tensor& XQ, // [B, 1, G, H, D]
-    const at::Tensor& cache_K, // [B, KV_M_MAX, G, H or 1, D]
-    const at::Tensor& cache_V, // [B, KV_M_MAX, G, H or 1, D]
-    at::optional<at::Tensor> seq_kv_lens, // [B]
-    double qk_scale) {
-  return efficient_attention_forward_decoder_ck_impl<
-      kThreadsPerWavefront,
-      kWavefrontsPerBlock>(XQ, cache_K, cache_V, seq_kv_lens, qk_scale);
-}
-} // namespace
-
-TORCH_LIBRARY_IMPL(xformers, CUDA, m) {
-  m.impl(
-      TORCH_SELECTIVE_NAME("xformers::efficient_attention_forward_decoder_ck"),
-      TORCH_FN(efficient_attention_forward_decoder_ck));
-}
-
-#ifdef ATTN_FWD_DECODER_MAIN
-
-#include <torch/torch.h>
-
-// clang-format off
-
-/*
-
-(1) hipify
- > pip install -e /xformers
-
- For obtaining all the library paths needed for compilation below, add `--verbose`.
- For efficient utilization of CPU cores for compilation use MAX_JOBS env variable.
-
-(2) compile
- > mkdir build
- > cd build
- > cmake /xformers/xformers/csrc/attention/hip_fmha/ \
-       -DCMAKE_CXX_COMPILER=/opt/rocm/bin/hipcc \
-       -D CMAKE_PREFIX_PATH=/opt/rocm \
-       -D CMAKE_BUILD_TYPE=Debug \
-       -D GPU_TARGETS="native" 
-  > make
-
-(3a) run correctness check
- > ./attention_forward_decoder_main
-
-(3b) run specific input shape
- > ./attention_forward_decoder_main n_keys padding batch_size n_heads is_multiquery dtype n_wavefronts_per_block
-*/
-
-// clang-format on
-
-static void do_correctness_check() {
-  const int32_t D = 4 * kThreadsPerWavefront;
-  const int32_t B = 1;
-  const int32_t H = 4;
-  const int32_t G = 1;
-  auto options = torch::TensorOptions()
-                     .dtype(torch::kFloat32)
-                     .layout(torch::kStrided)
-                     .device(torch::kCUDA, 1)
-                     .requires_grad(false);
-  auto int_options = options.dtype(torch::kInt);
-  auto XQ = at::randn({B, 1, G, H, D}, options);
-  auto K = at::randn({B, 4096, G, H, D}, options);
-  auto V = at::randn({B, 4096, G, H, D}, options);
-  auto seq = at::randint(63, 128, {B}, int_options);
-  double qk_scale = 1. / sqrt(D);
-
-  auto result = efficient_attention_forward_decoder_ck_impl<64, 1>(
-      XQ, K, V, seq, qk_scale);
-  auto gold_result = efficient_attention_forward_decoder_ck_impl<64, 2>(
-      XQ, K, V, seq, qk_scale);
-  auto mask = at::isclose(
-      result, gold_result, /*atol*/ 1e-3, /*rtol*/ 1e-5, /*equal_nan*/ false);
-  auto percent_match = at::sum(mask.to(torch::kFloat32)) / mask.numel();
-  printf(
-      "Mismatched elements percentage: %.2f\n",
-      1. - percent_match.item<float>());
-}
-
-int main(int argc, char** argv) {
-  if (argc == 1) {
-    do_correctness_check();
-  } else {
-    const auto args = std::vector<std::string>(argv + 1, argv + argc);
-    if (args.size() != 7) {
-      std::cout
-          << "Usage: ./a.out n_keys padding batch_size n_heads is_multiquery dtype "
-             "n_wavefronts_per_block"
-          << std::endl;
-      return 0;
-    }
-    const int32_t n_keys = std::stoi(args[0]);
-    const int32_t padding = std::stoi(args[1]);
-    const int32_t batch_size = std::stoi(args[2]);
-    const int32_t n_heads = std::stoi(args[3]);
-    const int32_t n_groups = 1;
-    const int32_t multiquery = (args[4] == "mq");
-    const auto dtype = (args[5] == "f32") ? torch::kFloat32
-        : (args[5] == "f16")              ? torch::kFloat16
-                                          : torch::kBFloat16;
-    const int32_t n_wavefronts_per_block = std::stoi(args[6]);
-
-    const int32_t dim_per_head = 4 * kThreadsPerWavefront;
-
-    const auto options = torch::TensorOptions()
-                             .dtype(dtype)
-                             .layout(torch::kStrided)
-                             .device(torch::kCUDA, 1)
-                             .requires_grad(false);
-
-    const auto int_options = options.dtype(torch::kInt);
-    const auto Q =
-        at::rand({batch_size, 1, n_groups, n_heads, dim_per_head}, options);
-    const auto K = multiquery
-        ? at::rand({batch_size, padding, n_groups, 1, dim_per_head}, options)
-              .expand({batch_size, padding, n_groups, n_heads, dim_per_head})
-        : at::rand(
-              {batch_size, padding, n_groups, n_heads, dim_per_head}, options);
-    const auto V = at::rand_like(K);
-    auto O = at::empty_like(Q);
-
-    const auto seq = at::randint(1, n_keys, {batch_size}, int_options);
-    const double qk_scale = 1. / sqrt(dim_per_head);
-    auto call_ptr = decltype(&efficient_attention_forward_decoder_ck_out_impl<
-                             kThreadsPerWavefront,
-                             kWavefrontsPerBlock>){};
-
-#define SWITCH_CASE_SET_CALLPTR(n)                               \
-  case (n):                                                      \
-    call_ptr = &efficient_attention_forward_decoder_ck_out_impl< \
-        kThreadsPerWavefront,                                    \
-        (n)>;                                                    \
-    break;
-
-    switch (n_wavefronts_per_block) {
-      SWITCH_CASE_SET_CALLPTR(1);
-      SWITCH_CASE_SET_CALLPTR(2);
-      SWITCH_CASE_SET_CALLPTR(4);
-      SWITCH_CASE_SET_CALLPTR(8);
-      SWITCH_CASE_SET_CALLPTR(16);
-
-      default:
-        call_ptr = nullptr;
-        break;
-    }
-#undef SWITCH_CASE_SET_CALLPTR
-
-    if (call_ptr) {
-      call_ptr(Q, K, V, seq, qk_scale, O);
-    } else {
-      std::cout << "Warning: no kernel was found for wavefronts_per_block="
-                << n_wavefronts_per_block << std::endl;
-    }
-  }
-  return 0;
-}
-
-#endif // MAIN
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder.h b/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder.h
deleted file mode 100644
index c455f235ab..0000000000
--- a/xformers/csrc/attention/hip_decoder/ck_attention_forward_decoder.h
+++ /dev/null
@@ -1,496 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/host_utility/kernel_launch.hpp>
-#include <ck/stream_config.hpp>
-#include <ck/tensor_operation/gpu/device/device_base.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/math.hpp>
-
-#include "ck_attention_inner_product.h"
-#include "ck_attention_math_ext.h"
-
-namespace {
-
-template <typename data_t, int32_t vec_size>
-__device__ typename ck::vector_type<float, vec_size>::type scalar_scale_acc(
-    typename ck::vector_type<float, vec_size>::type acc,
-    typename ck::vector_type<data_t, vec_size>::type a,
-    float b) {
-  union {
-    decltype(acc) vec;
-    float arr[vec_size];
-  } acc_u{acc};
-  union {
-    decltype(a) vec;
-    data_t arr[vec_size];
-  } a_u{a};
-
-#pragma unroll
-  for (int32_t i = 0; i < vec_size; ++i) {
-    acc_u.arr[i] += ck::type_convert<float>(a_u.arr[i]) * b;
-  }
-
-  return acc_u.vec;
-}
-
-template <typename F, int32_t n_threads_per_wavefront = 64>
-float __device__ __forceinline__ wavefrontReduce(float val, F f) {
-#pragma unroll
-  for (int32_t mask = n_threads_per_wavefront >> 1; mask > 0; mask >>= 1) {
-    val = f(__shfl_xor(val, mask, n_threads_per_wavefront), val);
-  }
-  return val;
-}
-
-template <typename TData, typename TDataVec>
-__forceinline__ __device__ void load_v(
-    const TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec* __restrict__ load_to) {
-  *load_to = *(reinterpret_cast<const TDataVec*>(data_ptr) + vector_offset);
-}
-
-template <typename TData, typename TDataVec>
-__forceinline__ __device__ void store_v(
-    TData* __restrict__ data_ptr,
-    int32_t vector_offset,
-    TDataVec value) {
-  *(reinterpret_cast<TDataVec*>(data_ptr) + vector_offset) = value;
-}
-
-template <
-    typename scalar_t,
-    int32_t vec_size = 4,
-    int32_t n_loop_unroll = 16,
-    int32_t n_loop_unroll_tail = 2,
-    int32_t KV_M_MAX = 8192,
-    int32_t n_wavefronts_per_block = 16>
-__global__ void efficient_attention_forward_decoder_ck_kernel(
-    const scalar_t* __restrict__ XQ,
-    const scalar_t* __restrict__ cache_K,
-    const scalar_t* __restrict__ cache_V,
-    scalar_t* __restrict__ O,
-    const int32_t* __restrict__ seq_kv_lens,
-    const ptrdiff_t XQ_stride_b,
-    const ptrdiff_t XQ_stride_m,
-    const ptrdiff_t XQ_stride_g,
-    const ptrdiff_t XQ_stride_h,
-    const ptrdiff_t K_stride_b,
-    const ptrdiff_t K_stride_m,
-    const ptrdiff_t K_stride_g,
-    const ptrdiff_t K_stride_h,
-    const int32_t Q_size_m,
-    const int32_t Q_size_g,
-    const int32_t Q_size_h,
-    const int32_t Q_size_k,
-    const int32_t K_size_m,
-    const bool multiquery,
-    const float qk_scale) {
-  static_assert(n_loop_unroll_tail < n_loop_unroll, "");
-
-  // Each block handles a single batch and head and query and group
-  const int32_t b = blockIdx.x / (Q_size_m * Q_size_g * Q_size_h);
-  const int32_t m = (blockIdx.x / (Q_size_g * Q_size_h)) % Q_size_m;
-  const int32_t g = (blockIdx.x / Q_size_h) % Q_size_g;
-  const int32_t h = blockIdx.x % Q_size_h;
-
-  // Note: this is decoding case where we attend to current and all previous
-  // tokens.
-  const int32_t t_max = seq_kv_lens ? seq_kv_lens[b] : K_size_m;
-
-  const int32_t lane_idx = threadIdx.x;
-  const int32_t wavefront_idx = threadIdx.y;
-  const int32_t threads_per_wavefront = blockDim.x;
-  const int32_t wavefronts_per_block = blockDim.y;
-  const int32_t threads_per_block =
-      threads_per_wavefront * wavefronts_per_block;
-  const int32_t thread_linear_idx =
-      lane_idx + wavefront_idx * threads_per_wavefront;
-  // const auto* q_ = &(XQ_acc[b][m][g][h][0]);
-  const auto XQO_base_offset =
-      b * XQ_stride_b + m * XQ_stride_m + g * XQ_stride_g + h * XQ_stride_h;
-  const auto* __restrict__ q_ = XQ + XQO_base_offset;
-
-  const auto cache_KV_base_offset = b * K_stride_b + 0 * K_stride_m +
-      g * K_stride_g + (multiquery ? 0 : h * K_stride_h);
-  const auto* __restrict__ cache_K_base = cache_K + cache_KV_base_offset;
-  const auto* __restrict__ cache_V_base = cache_V + cache_KV_base_offset;
-
-  using data_t = scalar_t;
-  using data_vec_t = typename ck::vector_type<data_t, vec_size>::type;
-  using compute_t = float;
-  using compute_vec_t = typename ck::vector_type<compute_t, vec_size>::type;
-
-  const bool lane_active_for_io = lane_idx * vec_size < Q_size_k;
-
-  extern __shared__ __align__(16) compute_t smem[];
-
-  data_vec_t q_thread = 0;
-  // Load Q into registers in all wavefronts.
-  // Each thread handles `vec_size` D dimensions
-  if (lane_active_for_io) {
-    load_v<data_t, data_vec_t>(q_, lane_idx, &q_thread);
-  }
-
-  compute_t max_qk_acc = ck::NumericLimits<compute_t>::Lowest();
-
-  // Compute S[0:t_max] =
-  // ```
-  // for t in range(t_max):
-  //   S[t] = dot(Q, K[t])
-  // ```
-  // Split the 0:t_max range across wavefronts in a block,
-  // unroll loads to expose more parallelism.
-  // Reduce the dot product with cross-lane operation;
-  // Q and K[t] are in the registers of threads in a single wavefront.
-
-  data_vec_t k_loads[n_loop_unroll] = {};
-
-  constexpr auto dtt = n_wavefronts_per_block * n_loop_unroll;
-  const int32_t t_max_unroll = (t_max / dtt) * dtt;
-
-  for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll; tt += dtt) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the K[b][t][g][h|0][:] row into registers
-        load_v<data_t, data_vec_t>(
-            cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-      }
-    }
-    compute_t qk_accs[n_loop_unroll] = {};
-#pragma unroll n_loop_unroll
-    for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-      ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-          q_thread, k_loads[ttt], qk_accs[ttt]);
-      qk_accs[ttt] *= qk_scale;
-
-      qk_accs[ttt] =
-          wavefrontReduce(qk_accs[ttt], [](auto a, auto b) { return a + b; });
-      max_qk_acc = ck::math::max(qk_accs[ttt], max_qk_acc);
-    }
-    if (lane_idx == 0) {
-      auto* __restrict__ smem_base = smem + tt;
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        smem_base[ttt] = qk_accs[ttt];
-      }
-    }
-  }
-
-  // NB: the length of the tail is <= (wavefronts_per_block * n_loop_unroll)
-  for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail; tt < t_max;
-       tt += wavefronts_per_block * n_loop_unroll_tail) {
-    if (lane_active_for_io) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the K[b][t][g][h|0][:] row into registers
-          load_v<data_t, data_vec_t>(
-              cache_K_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        }
-      }
-    }
-#pragma unroll n_loop_unroll_tail
-    for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-      compute_t qk_acc = 0;
-      const int32_t t = tt + ttt;
-      if (t < t_max) {
-        ck::inner_product<data_vec_t, data_vec_t, compute_t>(
-            q_thread, k_loads[ttt], qk_acc);
-        qk_acc *= qk_scale;
-
-        qk_acc = wavefrontReduce(qk_acc, [](auto a, auto b) { return a + b; });
-        max_qk_acc = ck::math::max(qk_acc, max_qk_acc);
-
-        // write accumulated sums to smem.
-        if (lane_idx == 0) {
-          smem[t] = qk_acc;
-        }
-      }
-    }
-  }
-
-  // Use shared reduction to compute max and compute softmax on shared memory.
-  // write max acc
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = max_qk_acc;
-  }
-  __syncthreads();
-  if (lane_idx < wavefronts_per_block) {
-    max_qk_acc = ck::math::max(max_qk_acc, smem[KV_M_MAX + lane_idx]);
-  }
-  // shared across all threads in block
-  max_qk_acc =
-      wavefrontReduce(max_qk_acc, [](auto a, auto b) { return a > b ? a : b; });
-
-  // each wavefront computes partial sum of exp.
-  compute_t softmax_denominator = 0.0f;
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    softmax_denominator += ck::math::exp(smem[t] - max_qk_acc);
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  if (lane_idx == 0) {
-    smem[KV_M_MAX + wavefront_idx] = softmax_denominator;
-  }
-  __syncthreads();
-
-  // now, compute sum of exp(x - max(x)) over all intermediate results.
-  softmax_denominator = 0.0;
-  if (lane_idx < wavefronts_per_block) {
-    softmax_denominator = smem[KV_M_MAX + lane_idx];
-  }
-  softmax_denominator = wavefrontReduce(
-      softmax_denominator, [](auto a, auto b) { return a + b; });
-
-  const compute_t softmax_scale_factor = 1. / softmax_denominator;
-  // now, compute the normalization across all threads.
-  for (int32_t t = thread_linear_idx; t < t_max; t += threads_per_block) {
-    smem[t] = ck::math::exp(smem[t] - max_qk_acc) * softmax_scale_factor;
-  }
-  __syncthreads();
-
-  // Split T across wavefronts in a block
-  // each wavefront compute sum(t_subset) P[t] * V[t_subset, d]
-  // outputs are of size float[D]
-
-  compute_t ps[n_loop_unroll] = {};
-  compute_vec_t o_acc = 0;
-  if (lane_active_for_io) {
-    for (auto tt = wavefront_idx * n_loop_unroll; tt < t_max_unroll;
-         tt += dtt) {
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        const int32_t t = tt + ttt;
-        // load the V[b][t][g][h|0][:] row into registers, reusing K register
-        // storage
-        load_v<data_t, data_vec_t>(
-            cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-        ps[ttt] = smem[t];
-      }
-
-#pragma unroll n_loop_unroll
-      for (auto ttt = 0; ttt < n_loop_unroll; ++ttt) {
-        o_acc =
-            scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-      }
-    }
-
-    for (auto tt = t_max_unroll + wavefront_idx * n_loop_unroll_tail;
-         tt < t_max;
-         tt += wavefronts_per_block * n_loop_unroll_tail) {
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          // load the V[b][t][g][h|0][:] row into registers, reusing K register
-          // storage
-          load_v<data_t, data_vec_t>(
-              cache_V_base + t * K_stride_m, lane_idx, &k_loads[ttt]);
-          ps[ttt] = smem[t];
-        }
-      }
-
-#pragma unroll n_loop_unroll_tail
-      for (auto ttt = 0; ttt < n_loop_unroll_tail; ++ttt) {
-        const int32_t t = tt + ttt;
-        if (t < t_max) {
-          o_acc =
-              scalar_scale_acc<data_t, vec_size>(o_acc, k_loads[ttt], ps[ttt]);
-        }
-      }
-    }
-  }
-  // now, each thread has partial sums. Write to smem and get accumulated
-  // results back.
-  __syncthreads();
-
-  // NB: needs sizeof(smem) >= `vec_size` * (sizeof(float)==4) * threadsPerBlock
-  if (lane_active_for_io) {
-    store_v<compute_t, compute_vec_t>(&smem[0], thread_linear_idx, o_acc);
-  }
-
-  __syncthreads();
-  // sum up partial D rows from other wavefronts
-  if (wavefront_idx == 0 && lane_active_for_io) {
-    union {
-      compute_vec_t vec = 0;
-      compute_t arr[vec_size];
-    } r;
-    for (int32_t w = 0; w < wavefronts_per_block; ++w) {
-      compute_vec_t partial_r;
-      load_v<compute_t, compute_vec_t>(
-          smem, w * threads_per_wavefront + lane_idx, &partial_r);
-      r.vec += partial_r;
-    }
-    // elementwise convert from compute_t result to data_t out to be written
-    union {
-      data_vec_t vec;
-      data_t arr[vec_size];
-    } bf_r;
-#pragma unroll
-    for (int32_t i = 0; i < vec_size; ++i) {
-      bf_r.arr[i] = ck::type_convert<data_t>(r.arr[i]);
-    }
-    // write output row O[b][m][g][h][:]
-    data_t* __restrict__ o_ = O + XQO_base_offset;
-    store_v<data_t, data_vec_t>(o_, lane_idx, bf_r.vec);
-  }
-}
-
-} // namespace
-
-namespace ck {
-namespace tensor_operation {
-namespace device {
-template <typename scalar_t>
-struct FMHADecoderSeqlen1DeviceOp : public BaseOperator {
-  using DeviceOp = FMHADecoderSeqlen1DeviceOp;
-  struct Argument : public BaseArgument {
-    const scalar_t* __restrict__ XQ;
-    const scalar_t* __restrict__ cache_K;
-    const scalar_t* __restrict__ cache_V;
-    scalar_t* __restrict__ O;
-    const int32_t* __restrict__ seq_kv_lens;
-    const ptrdiff_t XQ_stride_b;
-    const ptrdiff_t XQ_stride_m;
-    const ptrdiff_t XQ_stride_g;
-    const ptrdiff_t XQ_stride_h;
-    const ptrdiff_t K_stride_b;
-    const ptrdiff_t K_stride_m;
-    const ptrdiff_t K_stride_g;
-    const ptrdiff_t K_stride_h;
-    const int32_t Q_size_m;
-    const int32_t Q_size_g;
-    const int32_t Q_size_h;
-    const int32_t Q_size_k;
-    const int32_t K_size_m;
-    const bool multiquery;
-    const float qk_scale;
-
-    const dim3 grid_dim;
-    const dim3 block_dim;
-    const size_t lds_bytes;
-
-    Argument(
-        const scalar_t* __restrict__ XQ,
-        const scalar_t* __restrict__ cache_K,
-        const scalar_t* __restrict__ cache_V,
-        scalar_t* __restrict__ O,
-        const int32_t* __restrict__ seq_kv_lens,
-        const ptrdiff_t XQ_stride_b,
-        const ptrdiff_t XQ_stride_m,
-        const ptrdiff_t XQ_stride_g,
-        const ptrdiff_t XQ_stride_h,
-        const ptrdiff_t K_stride_b,
-        const ptrdiff_t K_stride_m,
-        const ptrdiff_t K_stride_g,
-        const ptrdiff_t K_stride_h,
-        const int32_t Q_size_m,
-        const int32_t Q_size_g,
-        const int32_t Q_size_h,
-        const int32_t Q_size_k,
-        const int32_t K_size_m,
-        const bool multiquery,
-        const float qk_scale,
-        const dim3 grid_dim,
-        const dim3 block_dim,
-        const size_t lds_bytes)
-        : XQ(XQ),
-          cache_K(cache_K),
-          cache_V(cache_V),
-          O(O),
-          seq_kv_lens(seq_kv_lens),
-          XQ_stride_b(XQ_stride_b),
-          XQ_stride_m(XQ_stride_m),
-          XQ_stride_g(XQ_stride_g),
-          XQ_stride_h(XQ_stride_h),
-          K_stride_b(K_stride_b),
-          K_stride_m(K_stride_m),
-          K_stride_g(K_stride_g),
-          K_stride_h(K_stride_h),
-          Q_size_m(Q_size_m),
-          Q_size_g(Q_size_g),
-          Q_size_h(Q_size_h),
-          Q_size_k(Q_size_k),
-          K_size_m(K_size_m),
-          multiquery(multiquery),
-          qk_scale(qk_scale),
-          grid_dim(grid_dim),
-          block_dim(block_dim),
-          lds_bytes(lds_bytes) {}
-  };
-
-  struct Invoker : public BaseInvoker {
-    using Argument = DeviceOp::Argument;
-    float Run(
-        const BaseArgument* argp_,
-        const StreamConfig& stream_config = StreamConfig{}) {
-      const Argument* argp = dynamic_cast<const Argument*>(argp_);
-
-      auto threads_per_wavefront = argp->block_dim.x;
-
-      auto Q_size_k_alignment_necessary = 0;
-
-      for (auto vec_size : {4, 2, 1}) {
-        if (argp->Q_size_k <= vec_size * threads_per_wavefront) {
-          Q_size_k_alignment_necessary = vec_size;
-        }
-      }
-
-      if (!Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported Q_size_k");
-      }
-
-      if (argp->Q_size_k % Q_size_k_alignment_necessary) {
-        throw std::runtime_error("Unsupported alignment for Q_size_k");
-      }
-
-      return launch_and_time_kernel(
-          stream_config,
-          Q_size_k_alignment_necessary == 4
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 4>
-              : Q_size_k_alignment_necessary == 2
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 2>
-              : Q_size_k_alignment_necessary == 1
-              ? efficient_attention_forward_decoder_ck_kernel<scalar_t, 1>
-              : nullptr,
-          argp->grid_dim,
-          argp->block_dim,
-          argp->lds_bytes,
-          argp->XQ,
-          argp->cache_K,
-          argp->cache_V,
-          argp->O,
-          argp->seq_kv_lens,
-          argp->XQ_stride_b,
-          argp->XQ_stride_m,
-          argp->XQ_stride_g,
-          argp->XQ_stride_h,
-          argp->K_stride_b,
-          argp->K_stride_m,
-          argp->K_stride_g,
-          argp->K_stride_h,
-          argp->Q_size_m,
-          argp->Q_size_g,
-          argp->Q_size_h,
-          argp->Q_size_k,
-          argp->K_size_m,
-          argp->multiquery,
-          argp->qk_scale);
-    }
-  };
-};
-} // namespace device
-} // namespace tensor_operation
-} // namespace ck
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_inner_product.h b/xformers/csrc/attention/hip_decoder/ck_attention_inner_product.h
deleted file mode 100644
index ec97bfdd04..0000000000
--- a/xformers/csrc/attention/hip_decoder/ck_attention_inner_product.h
+++ /dev/null
@@ -1,351 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/ck.hpp>
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/type_convert.hpp>
-
-namespace ck {
-
-template <typename TA, typename TB, typename TC>
-__device__ void inner_product(const TA& a, const TB& b, TC& c);
-
-template <>
-__device__ void inner_product<float, float, float>(
-    const float& a,
-    const float& b,
-    float& c) {
-#if CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_MAC_F32)
-  asm volatile(
-      "\n \
-            v_mac_f32 %0, %1, %2 \n \
-            "
-      : "=v"(c)
-      : "v"(a), "v"(b), "0"(c));
-#elif CK_USE_AMD_V_MAC_INLINE_ASM && defined(CK_USE_AMD_V_FMAC_F32)
-  asm volatile(
-      "\n \
-            v_fmac_f32 %0, %1, %2 \n \
-            "
-      : "=v"(c)
-      : "v"(a), "v"(b), "0"(c));
-#else
-  c += a * b;
-#endif
-}
-
-template <>
-__device__ void inner_product<float2_t, float2_t, float>(
-    const float2_t& a,
-    const float2_t& b,
-    float& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-
-  inner_product(
-      vector_type<float, 2>{a}.AsType<float>()[I0],
-      vector_type<float, 2>{b}.AsType<float>()[I0],
-      c);
-
-  inner_product(
-      vector_type<float, 2>{a}.AsType<float>()[I1],
-      vector_type<float, 2>{b}.AsType<float>()[I1],
-      c);
-}
-
-template <>
-__device__ void inner_product<float4_t, float4_t, float>(
-    const float4_t& a,
-    const float4_t& b,
-    float& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-  constexpr auto I2 = Number<2>{};
-  constexpr auto I3 = Number<3>{};
-
-  inner_product(
-      vector_type<float, 4>{a}.AsType<float>()[I0],
-      vector_type<float, 4>{b}.AsType<float>()[I0],
-      c);
-
-  inner_product(
-      vector_type<float, 4>{a}.AsType<float>()[I1],
-      vector_type<float, 4>{b}.AsType<float>()[I1],
-      c);
-
-  inner_product(
-      vector_type<float, 4>{a}.AsType<float>()[I2],
-      vector_type<float, 4>{b}.AsType<float>()[I2],
-      c);
-
-  inner_product(
-      vector_type<float, 4>{a}.AsType<float>()[I3],
-      vector_type<float, 4>{b}.AsType<float>()[I3],
-      c);
-}
-
-template <>
-__device__ void inner_product<bhalf_t, bhalf_t, float>(
-    const bhalf_t& a,
-    const bhalf_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
-
-template <>
-__device__ void inner_product<half_t, half_t, float>(
-    const half_t& a,
-    const half_t& b,
-    float& c) {
-  inner_product(type_convert<float>(a), type_convert<float>(b), c);
-}
-
-template <>
-__device__ void inner_product<half2_t, half2_t, float>(
-    const half2_t& a,
-    const half2_t& b,
-    float& c) {
-#if defined(CK_USE_AMD_V_DOT2_F32_F16)
-#if CK_USE_AMD_V_DOT_INLINE_ASM
-  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
-  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
-  // ) s_nop with parameter 2 is equal to 3 x s_nop
-  asm volatile(
-      "\n \
-            v_dot2_f32_f16 %0, %1, %2, %0\n \
-            s_nop 2 \n \
-            "
-      : "=v"(c)
-      : "v"(a), "v"(b), "0"(c));
-#else
-  c = __builtin_amdgcn_fdot2(a, b, c, false);
-#endif
-#else
-  const vector_type<half_t, 2> a_vector{a};
-  const vector_type<half_t, 2> b_vector{b};
-
-  static_for<0, 2, 1>{}([&](auto i) {
-    c += type_convert<float>(a_vector.AsType<half_t>()[i]) *
-        type_convert<float>(b_vector.AsType<half_t>()[i]);
-  });
-#endif
-}
-
-template <>
-__device__ void inner_product<half4_t, half4_t, float>(
-    const half4_t& a,
-    const half4_t& b,
-    float& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-
-  inner_product(
-      vector_type<half_t, 4>{a}.AsType<half2_t>()[I0],
-      vector_type<half_t, 4>{b}.AsType<half2_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<half_t, 4>{a}.AsType<half2_t>()[I1],
-      vector_type<half_t, 4>{b}.AsType<half2_t>()[I1],
-      c);
-}
-
-template <>
-__device__ void inner_product<half8_t, half8_t, float>(
-    const half8_t& a,
-    const half8_t& b,
-    float& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-  constexpr auto I2 = Number<2>{};
-  constexpr auto I3 = Number<3>{};
-
-  inner_product(
-      vector_type<half_t, 8>{a}.AsType<half2_t>()[I0],
-      vector_type<half_t, 8>{b}.AsType<half2_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<half_t, 8>{a}.AsType<half2_t>()[I1],
-      vector_type<half_t, 8>{b}.AsType<half2_t>()[I1],
-      c);
-
-  inner_product(
-      vector_type<half_t, 8>{a}.AsType<half2_t>()[I2],
-      vector_type<half_t, 8>{b}.AsType<half2_t>()[I2],
-      c);
-
-  inner_product(
-      vector_type<half_t, 8>{a}.AsType<half2_t>()[I3],
-      vector_type<half_t, 8>{b}.AsType<half2_t>()[I3],
-      c);
-}
-
-template <>
-__device__ void inner_product<bhalf2_t, bhalf2_t, float>(
-    const bhalf2_t& a,
-    const bhalf2_t& b,
-    float& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-
-  inner_product(
-      vector_type<bhalf_t, 2>{a}.AsType<bhalf_t>()[I0],
-      vector_type<bhalf_t, 2>{b}.AsType<bhalf_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<bhalf_t, 2>{a}.AsType<bhalf_t>()[I1],
-      vector_type<bhalf_t, 2>{b}.AsType<bhalf_t>()[I1],
-      c);
-}
-
-template <>
-__device__ void inner_product<bhalf4_t, bhalf4_t, float>(
-    const bhalf4_t& a,
-    const bhalf4_t& b,
-    float& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-  constexpr auto I2 = Number<2>{};
-  constexpr auto I3 = Number<3>{};
-
-  inner_product(
-      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I0],
-      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I1],
-      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I1],
-      c);
-
-  inner_product(
-      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I2],
-      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I2],
-      c);
-
-  inner_product(
-      vector_type<bhalf_t, 4>{a}.AsType<bhalf_t>()[I3],
-      vector_type<bhalf_t, 4>{b}.AsType<bhalf_t>()[I3],
-      c);
-}
-
-template <>
-__device__ void inner_product<int8_t, int8_t, int32_t>(
-    const int8_t& a,
-    const int8_t& b,
-    int32_t& c) {
-  c += type_convert<int32_t>(a) * type_convert<int32_t>(b);
-}
-
-template <>
-__device__ void inner_product<int8x2_t, int8x2_t, int32_t>(
-    const int8x2_t& a,
-    const int8x2_t& b,
-    int32_t& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-
-  inner_product(
-      vector_type<int8_t, 2>{a}.AsType<int8_t>()[I0],
-      vector_type<int8_t, 2>{b}.AsType<int8_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<int8_t, 2>{a}.AsType<int8_t>()[I1],
-      vector_type<int8_t, 2>{b}.AsType<int8_t>()[I1],
-      c);
-}
-
-template <>
-__device__ void inner_product<int8x4_t, int8x4_t, int32_t>(
-    const int8x4_t& a,
-    const int8x4_t& b,
-    int32_t& c) {
-#if defined(CK_USE_AMD_V_DOT4_I32_I8)
-#if CK_USE_AMD_V_DOT_INLINE_ASM
-  // Use 3 x s_nop to avoid hazard (mi200 cdna2 isa page 47
-  // https://www.amd.com/system/files/TechDocs/instinct-mi200-cdna2-instruction-set-architecture.pdf
-  // ) s_nop with parameter 2 is equal to 3 x s_nop
-  asm volatile(
-      "\n \
-            v_dot4_i32_i8 %0, %1, %2, %0\n \
-            s_nop 2 \n \
-            "
-      : "=v"(c)
-      : "v"(bit_cast<int32_t>(a)), "v"(bit_cast<int32_t>(b)), "0"(c));
-#else
-  c = __builtin_amdgcn_sdot4(
-      bit_cast<int32_t>(a), bit_cast<int32_t>(b), c, false);
-#endif
-#elif defined(CK_USE_AMD_V_DOT4_I32_I8_GFX11)
-  c = __builtin_amdgcn_sudot4(
-      true, bit_cast<int32_t>(a), true, bit_cast<int32_t>(b), c, false);
-#else
-  const vector_type<int8_t, 4> a_vector{a};
-  const vector_type<int8_t, 4> b_vector{b};
-
-  static_for<0, 4, 1>{}([&](auto i) {
-    c += type_convert<int32_t>(a_vector.AsType<int8_t>()[i]) *
-        type_convert<int32_t>(b_vector.AsType<int8_t>()[i]);
-  });
-#endif
-}
-
-template <>
-__device__ void inner_product<int8x8_t, int8x8_t, int32_t>(
-    const int8x8_t& a,
-    const int8x8_t& b,
-    int32_t& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-
-  inner_product(
-      vector_type<int8_t, 8>{a}.AsType<int8x4_t>()[I0],
-      vector_type<int8_t, 8>{b}.AsType<int8x4_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<int8_t, 8>{a}.AsType<int8x4_t>()[I1],
-      vector_type<int8_t, 8>{b}.AsType<int8x4_t>()[I1],
-      c);
-}
-
-template <>
-__device__ void inner_product<int8x16_t, int8x16_t, int32_t>(
-    const int8x16_t& a,
-    const int8x16_t& b,
-    int32_t& c) {
-  constexpr auto I0 = Number<0>{};
-  constexpr auto I1 = Number<1>{};
-  constexpr auto I2 = Number<2>{};
-  constexpr auto I3 = Number<3>{};
-
-  inner_product(
-      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I0],
-      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I0],
-      c);
-
-  inner_product(
-      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I1],
-      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I1],
-      c);
-
-  inner_product(
-      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I2],
-      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I2],
-      c);
-
-  inner_product(
-      vector_type<int8_t, 16>{a}.AsType<int8x4_t>()[I3],
-      vector_type<int8_t, 16>{b}.AsType<int8x4_t>()[I3],
-      c);
-}
-
-} // namespace ck
diff --git a/xformers/csrc/attention/hip_decoder/ck_attention_math_ext.h b/xformers/csrc/attention/hip_decoder/ck_attention_math_ext.h
deleted file mode 100644
index 2695a127f9..0000000000
--- a/xformers/csrc/attention/hip_decoder/ck_attention_math_ext.h
+++ /dev/null
@@ -1,29 +0,0 @@
-/*
- * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
- *
- * This source code is licensed under the BSD-style license found in the
- * LICENSE file in the root directory of this source tree.
- */
-#pragma once
-
-#include <ck/utility/data_type.hpp>
-#include <ck/utility/type_convert.hpp>
-
-namespace ck {
-namespace math {
-template <typename T>
-inline __device__ T exp(T x) {
-  return ck::type_convert<T>(__expf(ck::type_convert<float>(x)));
-};
-
-template <>
-inline __device__ float exp<float>(float x) {
-  return __expf(x);
-};
-
-template <>
-inline __device__ double exp<double>(double x) {
-  return exp(x);
-};
-} // namespace math
-} // namespace ck
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index eb55ff6115..f6fc9a2297 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -10,7 +10,6 @@
 from . import (
     attn_bias,
     ck,
-    ck_decoder,
     ck_splitk,
     cutlass,
     flash,
@@ -45,7 +44,6 @@
 MemoryEfficientAttentionCutlassFwdFlashBwOp = (cutlass.FwOp, flash.BwOp)
 MemoryEfficientAttentionFlashAttentionOp = (flash.FwOp, flash.BwOp)
 MemoryEfficientAttentionCkOp = (ck.FwOp, ck.BwOp)
-MemoryEfficientAttentionCkDecoderOp = (ck_decoder.FwOp, ck.BwOp)
 MemoryEfficientAttentionSplitKCkOp = (ck_splitk.FwOp, ck.BwOp)
 
 
@@ -883,7 +881,7 @@ def backward(
     "MemoryEfficientAttentionFlashAttentionOp",
     "memory_efficient_attention",
     "MemoryEfficientAttentionCkOp",
-    "MemoryEfficientAttentionCkDecoderOp",
+    "MemoryEfficientAttentionSplitKCkOp",
     "ALL_FW_OPS",
     "ALL_BW_OPS",
     "attn_bias",
diff --git a/xformers/ops/fmha/ck_decoder.py b/xformers/ops/fmha/ck_decoder.py
deleted file mode 100644
index a5c820bfc7..0000000000
--- a/xformers/ops/fmha/ck_decoder.py
+++ /dev/null
@@ -1,139 +0,0 @@
-# Copyright (c) Facebook, Inc. and its affiliates. All rights reserved.
-#
-# This source code is licensed under the BSD license found in the
-# LICENSE file in the root directory of this source tree.
-
-from typing import Any, Iterable, List, Optional, Set, Tuple
-
-import torch
-
-from ..common import get_operator, register_operator
-from .attn_bias import BlockDiagonalCausalWithOffsetPaddedKeysMask
-from .common import AttentionFwOpBase, Context, Inputs
-
-
-@register_operator
-class FwOp(AttentionFwOpBase):
-    """
-    An operator optimized for K=256 (so the contiguous dim fits into registers).
-    Tested to work on MI250x.
-    """
-
-    OPERATOR = get_operator("xformers", "efficient_attention_forward_decoder_ck")
-    SUPPORTED_DEVICES: Set[str] = {"cuda"}
-    SUPPORTED_DTYPES: Set[torch.dtype] = {torch.half, torch.bfloat16, torch.float}
-    SUPPORTED_MAX_K: int = 256
-    SUPPORTED_ATTN_BIAS_TYPES: Iterable[Any] = (
-        type(None),
-        BlockDiagonalCausalWithOffsetPaddedKeysMask,
-    )
-    SUPPORTS_DROPOUT = False
-    SUPPORTS_CUSTOM_SCALE = True
-    SUPPORTS_BMGHK = True
-    NAME = "ck_decoderF"
-
-    @classmethod
-    def not_supported_reasons(cls, d: Inputs) -> List[str]:
-        reasons = super(FwOp, cls).not_supported_reasons(d)
-
-        attn_bias = d.attn_bias
-        if isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask):
-            if d.query.shape[0] != 1:
-                reasons.append(
-                    f"One formal batch element expected; got {d.query.shape[0]}"
-                )
-
-            if d.query.shape[-1] > cls.SUPPORTED_MAX_K:
-                reasons.append(
-                    f"Got head_dim={d.query.shape[-1]}; only head_dim<={cls.SUPPORTED_MAX_K} is supported for now."
-                )
-
-            threads_per_warp = 64  # TODO: ideally query the platform here
-            required_alignment = 0
-            head_dim = d.query.shape[-1]
-            for vec_size in (4, 2, 1):
-                if head_dim <= vec_size * threads_per_warp:
-                    required_alignment = vec_size
-
-            if not required_alignment:
-                reasons.append(f"Got head_dim={head_dim} which is too large")
-
-            if head_dim % required_alignment != 0:
-                reasons.append(
-                    f"Got head_dim={head_dim}; it needs to be divisible by {required_alignment}"
-                )
-
-            if d.key.stride(-1) != 1:
-                reasons.append("expect keys to have last dim contiguous")
-
-            if d.value.stride(-1) != 1:
-                reasons.append("expect values to have last dim contiguous")
-
-            q_starts = attn_bias.q_seqinfo.seqstart_py
-            padding = attn_bias.k_seqinfo.padding
-            bsz = d.key.shape[1] // padding
-            num_queries = d.query.shape[1] // bsz
-
-            if q_starts != list(range(0, 1 + bsz, num_queries)):
-                reasons.append("expect to have same num_queries in each batch")
-            if bsz != len(q_starts) - 1:
-                reasons.append("empty lanes not supported yet")
-
-            if attn_bias.k_seqinfo.padding > 8192:
-                reasons.append("key padding exceeds 8192")
-
-        return reasons
-
-    @classmethod
-    def apply(
-        cls, inp: Inputs, needs_gradient: bool
-    ) -> Tuple[torch.Tensor, Optional[Context]]:
-        if needs_gradient:
-            raise NotImplementedError("backward pass is not supported")
-        attn_bias = inp.attn_bias
-        q, k, v = inp.get_qkv_in_bmghk()
-        if attn_bias is not None:
-            assert isinstance(attn_bias, BlockDiagonalCausalWithOffsetPaddedKeysMask)
-            attn_bias.k_seqinfo.to(k.device)
-            attn_bias.q_seqinfo.to(q.device)
-            padding = attn_bias.k_seqinfo.padding
-            seq_positions_gpu = attn_bias.k_seqinfo.seqlen
-        else:
-            padding = k.shape[1]
-            seq_positions_gpu = None
-
-        if attn_bias is not None:
-            # key: (1, B * padding, G, 1 if multiquery else Hkv, D)
-            # value: like key
-            # query: (1, B * q_seqlen, G, Hq, D)
-            multiquery = k.stride(3) == 0
-            if multiquery:
-                key = k[0, :, :, :1].unflatten(0, (-1, padding))
-                value = v[0, :, :, :1].unflatten(0, (-1, padding))
-            else:
-                key = k[0].unflatten(0, (-1, padding))
-                value = v[0].unflatten(0, (-1, padding))
-            query = q[0].unflatten(0, (key.shape[0], -1))
-        else:
-            # key: (B, padding, G, 1 if multiquery else Hkv, D)
-            # value: like key
-            # query: (B, q_seqlen, G, Hq, D)
-            key = k
-            query = q
-            value = v
-
-        if inp.scale is not None:
-            qk_scale = inp.scale
-        else:
-            qk_scale = torch.rsqrt(
-                torch.tensor(key.shape[-1], dtype=torch.float32)
-            ).item()
-
-        out = cls.OPERATOR(
-            query=query,
-            key=key,
-            value=value,
-            seq_positions=seq_positions_gpu,
-            scale=qk_scale,
-        )
-        return out, None

From f1becf7d8b5081988d71831c1edc6087b9988d95 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Thu, 20 Mar 2025 16:54:21 +0000
Subject: [PATCH 816/837] add environment knob for turning off ck fmha

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 6f53403b08..f7d850e863 100644
--- a/setup.py
+++ b/setup.py
@@ -519,7 +519,7 @@ def get_extensions():
             "--ptxas-options=-O2",
             "--ptxas-options=-allow-expensive-optimizations=true",
         ]
-    elif torch.version.hip and (
+    elif torch.version.hip and os.getenv("XFORMERS_CK_FLASH_ATTN", "1") == "1" and (
         torch.cuda.is_available() or os.getenv("HIP_ARCHITECTURES", "") != ""
     ):
         rename_cpp_cu(source_hip)

From da59ab4f7cee406ff99cf23ddc47d86bf6e355dd Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 25 Mar 2025 16:22:19 +0000
Subject: [PATCH 817/837] Correct the condition for using
 merge_nhead_groups_seqlen_q

---
 .../ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h      | 2 +-
 .../ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h      | 3 ++-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
index df9ce0016e..8ec45b5bcd 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -80,7 +80,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
       // indicates to the splitkv kernel whether should it merge Hq/Hkv with
       // seqlen_q
       const bool merge_nhead_groups_seqlen_q =
-          ((param.M == 1) && (param.Hq > param.Hkv) && !kHasBias);
+          ((param.M == 1) && (param.Hq > param.Hkv) && !kHasBias && !kHasMask);
 
       if (merge_nhead_groups_seqlen_q) {
         using FmhaMaskNone = ck_tile::SimplifiedGenericAttentionMask<false>;
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
index 22077833fa..d3d76fa879 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -78,7 +78,8 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
       // indicates to the splitkv kernel whether should it merge Hq/Hkv with
       // seqlen_q
       const bool merge_nhead_groups_seqlen_q =
-          ((param.max_seqlen_q == 1) && (param.Hq > param.Hkv) && !kHasBias);
+          ((param.max_seqlen_q == 1) && (param.Hq > param.Hkv) && !kHasBias &&
+           !kHasMask);
 
       if (merge_nhead_groups_seqlen_q) {
         using FmhaMaskNone = ck_tile::SimplifiedGenericAttentionMask<false>;

From 02e7602d97f09d79952530f6041ea7607f3d0d9d Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 9 May 2025 08:36:19 +0000
Subject: [PATCH 818/837] Fix to make hip_fmha compilable on torch-2.8

---
 .../attention_backward_generic_ck_tiled.cpp     |  5 +++--
 .../hip_fmha/attention_ck_rand_uniform.cpp      |  6 +++---
 .../attention_forward_generic_ck_tiled.cpp      |  7 +++----
 xformers/csrc/attention/hip_fmha/ck_fmha_util.h | 17 -----------------
 4 files changed, 9 insertions(+), 26 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
index ffe12981bb..78470ff375 100644
--- a/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_backward_generic_ck_tiled.cpp
@@ -11,8 +11,9 @@
 #include <ATen/ScalarOps.h>
 #include <ATen/Tensor.h>
 #include <ATen/TensorOperators.h>
-#include <c10/cuda/CUDAGuard.h>
+#include <c10/hip/HIPStream.h>
 #include <torch/library.h>
+#include <ATen/cuda/PhiloxUtils.cuh>
 
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_params.h"
@@ -111,7 +112,7 @@ efficient_attention_backward_ck(
     TORCH_CHECK(max_seqlen_k_.has_value());
   }
 
-  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
+  hipStream_t stream = c10::hip::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
diff --git a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
index cbcc3a1fc1..ba9a37f520 100644
--- a/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_ck_rand_uniform.cpp
@@ -6,12 +6,12 @@
  * LICENSE file in the root directory of this source tree.
  */
 #include <ATen/ATen.h>
-#include <ATen/cuda/CUDAContext.h>
 #include <ATen/cuda/CUDAGeneratorImpl.h>
 #include <c10/core/TensorOptions.h>
+#include <c10/hip/HIPStream.h>
 #include <torch/library.h>
 #include <torch/types.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
+#include <ATen/cuda/PhiloxUtils.cuh>
 
 #include <ck_tile/core.hpp>
 #include <ck_tile/host/kernel_launch.hpp>
@@ -33,7 +33,7 @@ at::Tensor rand_uniform_int(
   int M = out_pattern.size(2);
   int N = out_pattern.size(3);
 
-  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
+  hipStream_t stream = c10::hip::getCurrentHIPStream().stream();
 
   at::CUDAGeneratorImpl* gen =
       at::get_generator_or_default<at::CUDAGeneratorImpl>(
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index fbc43d21dd..0035e33bf9 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -12,12 +12,11 @@
 #include <ATen/ScalarOps.h>
 #include <ATen/Tensor.h>
 #include <ATen/core/Generator.h>
-#include <ATen/cuda/CUDAContext.h>
 #include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <c10/cuda/CUDAGuard.h>
+#include <c10/hip/HIPStream.h>
 #include <c10/util/Optional.h>
 #include <torch/library.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
+#include <ATen/cuda/PhiloxUtils.cuh>
 
 #include "ck_fmha_util.h"
 #include "ck_tiled_fmha_fwd_splitkv_selector.h"
@@ -116,7 +115,7 @@ efficient_attention_forward_ck(
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(key);
   CHECK_NOSPARSE_LASTCONTIGUOUS_CUDA(value);
 
-  hipStream_t stream = at::hip::getCurrentHIPStream().stream();
+  hipStream_t stream = c10::hip::getCurrentHIPStream().stream();
 
   int64_t B = query.size(0);
   int64_t M = query.size(1);
diff --git a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
index 7ce9f03c4b..f27e232ec9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
+++ b/xformers/csrc/attention/hip_fmha/ck_fmha_util.h
@@ -47,23 +47,6 @@
     }                                                                        \
   } while (0)
 
-static inline size_t get_size_in_bytes(size_t n, at::ScalarType dtype) {
-  if (dtype == at::ScalarType::Float) {
-    return n * 4;
-  } else if (dtype == at::ScalarType::Half) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::BFloat16) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::Short) {
-    return n * 2;
-  } else if (dtype == at::ScalarType::Int) {
-    return n * 4;
-  } else if (dtype == at::ScalarType::Byte) {
-    return n;
-  }
-  return 0;
-}
-
 /**
  * kernels expect 4D bias/bias.grad with shape
  * (batch_sz, n_heads, n_queries, n_keys). common bias shapes users may pass

From 8fdfa8537f4bc7428ca935552c8ef482474d9f87 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 27 May 2025 16:36:32 +0000
Subject: [PATCH 819/837] Add support of
 BlockDiagonalCausalLocalAttentionPaddedKeysMask with ck.FwOp

---
 xformers/ops/fmha/ck.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 2b7672eedd..3c715bfd9e 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -20,6 +20,7 @@
     BlockDiagonalCausalMask,
     BlockDiagonalCausalWithOffsetGappyKeysMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
+    BlockDiagonalCausalLocalAttentionPaddedKeysMask,
     BlockDiagonalGappyKeysMask,
     BlockDiagonalMask,
     BlockDiagonalPaddedKeysMask,
@@ -140,6 +141,7 @@ def _custom_mask_type(bias: Optional[Union[torch.Tensor, AttentionBias]]) -> int
             LowerTriangularFromBottomRightLocalAttentionMask,
             attn_bias.BlockDiagonalCausalFromBottomRightMask,
             BlockDiagonalCausalWithOffsetPaddedKeysMask,
+            BlockDiagonalCausalLocalAttentionPaddedKeysMask,
             BlockDiagonalCausalLocalAttentionFromBottomRightMask,
             PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,
         ),
@@ -168,6 +170,7 @@ class FwOp(AttentionFwOpBase):
         BlockDiagonalCausalMask,
         BlockDiagonalCausalWithOffsetGappyKeysMask,
         BlockDiagonalCausalWithOffsetPaddedKeysMask,
+        BlockDiagonalCausalLocalAttentionPaddedKeysMask,
         BlockDiagonalGappyKeysMask,
         BlockDiagonalPaddedKeysMask,
         attn_bias.BlockDiagonalCausalFromBottomRightMask,
@@ -302,6 +305,7 @@ def apply_bmhk(
                         BlockDiagonalCausalLocalAttentionMask,
                         BlockDiagonalCausalLocalAttentionFromBottomRightMask,
                         LowerTriangularFromBottomRightLocalAttentionMask,
+                        BlockDiagonalCausalLocalAttentionPaddedKeysMask,
                     ),
                 )
                 else None

From e8fdbbabd6b6bdec0aaeb8880f9236768f06297c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 28 May 2025 08:55:43 +0000
Subject: [PATCH 820/837] Import all used attn_bias types and remove prefix
 when referring to the attn_bias types

---
 xformers/ops/fmha/ck.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 3c715bfd9e..50ddb62150 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -18,6 +18,7 @@
     BlockDiagonalCausalLocalAttentionFromBottomRightMask,
     BlockDiagonalCausalLocalAttentionMask,
     BlockDiagonalCausalMask,
+    BlockDiagonalCausalFromBottomRightMask,
     BlockDiagonalCausalWithOffsetGappyKeysMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
     BlockDiagonalCausalLocalAttentionPaddedKeysMask,
@@ -76,7 +77,7 @@ def _get_seqlen_info(
 
 
 def _get_tensor_bias(
-    attn_bias: Optional[Union[torch.Tensor, AttentionBias]]
+    attn_bias: Optional[Union[torch.Tensor, AttentionBias]],
 ) -> Optional[torch.Tensor]:
     if isinstance(attn_bias, AttentionBiasSubTensor):
         if isinstance(attn_bias, LowerTriangularMaskWithTensorBias):
@@ -173,8 +174,8 @@ class FwOp(AttentionFwOpBase):
         BlockDiagonalCausalLocalAttentionPaddedKeysMask,
         BlockDiagonalGappyKeysMask,
         BlockDiagonalPaddedKeysMask,
-        attn_bias.BlockDiagonalCausalFromBottomRightMask,
-        attn_bias.BlockDiagonalCausalLocalAttentionMask,
+        BlockDiagonalCausalFromBottomRightMask,
+        BlockDiagonalCausalLocalAttentionMask,
         BlockDiagonalCausalLocalAttentionFromBottomRightMask,
         PagedBlockDiagonalPaddedKeysMask,
         PagedBlockDiagonalCausalWithOffsetPaddedKeysMask,

From 89967ff16d5103772c75160b83e756447be1e547 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 11 Jun 2025 04:52:50 +0000
Subject: [PATCH 821/837] Remove efficient_attention_forward_decoder_ck from
 the interface declaration in attention.cpp

---
 xformers/csrc/attention/attention.cpp | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index bdc77889b9..851e3c621d 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -27,9 +27,6 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
       "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
       "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size, Tensor? block_tables, int? page_size) -> (Tensor, Tensor, int, int)"));
-  m.def(TORCH_SELECTIVE_SCHEMA(
-      "xformers::efficient_attention_forward_decoder_ck(Tensor query, "
-      "Tensor key, Tensor value, Tensor? seq_positions, float scale) -> Tensor"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, "
       " Tensor value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));

From a893fd577fcfb33bd5edc4716d16c08900084e82 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Tue, 24 Jun 2025 10:14:19 +0000
Subject: [PATCH 822/837] Return logsumexp as std::optional<at::Tensor> in
 efficient_attention_forward_ck()

---
 xformers/csrc/attention/attention.cpp              |  2 +-
 .../attention_forward_generic_ck_tiled.cpp         | 14 ++++++++++----
 2 files changed, 11 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/attention.cpp b/xformers/csrc/attention/attention.cpp
index 851e3c621d..5f8b685afe 100644
--- a/xformers/csrc/attention/attention.cpp
+++ b/xformers/csrc/attention/attention.cpp
@@ -26,7 +26,7 @@ TORCH_LIBRARY_FRAGMENT(xformers, m) {
       "xformers::efficient_attention_forward_ck(Tensor query, "
       "Tensor key, Tensor value, Tensor? attn_bias, Tensor? seqstart_q, "
       "Tensor? seqstart_k, int? max_seqlen_q, float dropout_p, "
-      "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size, Tensor? block_tables, int? page_size) -> (Tensor, Tensor, int, int)"));
+      "bool compute_logsumexp, int custom_mask_type, float? scale, Tensor? seqlen_k, int? window_size, Tensor? block_tables, int? page_size) -> (Tensor, Tensor?, int, int)"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "xformers::efficient_attention_forward_decoder_splitk_ck(Tensor query, Tensor key, "
       " Tensor value, Tensor? seq_positions, float scale, int split_k) -> Tensor"));
diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 0035e33bf9..36ac057690 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -47,7 +47,7 @@ namespace {
   (Mode BMHK) With all the heads having the same seqlen
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+std::tuple<at::Tensor, std::optional<at::Tensor>, int64_t, int64_t>
 efficient_attention_forward_ck(
     const at::Tensor& query, // [b, seqlen, num_heads_q, K]
     const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
@@ -464,7 +464,10 @@ efficient_attention_forward_ck(
     };
   };
 
-  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+  if (compute_logsumexp)
+    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+  else
+    return std::make_tuple(out, std::nullopt, philox_seed, philox_offset);
 }
 
 /*
@@ -472,7 +475,7 @@ efficient_attention_forward_ck(
   (Mode BMHK) With all the heads having the same seqlen
   (Mode 1MHK) `batch=1` with all tokens across batches concatenated
 */
-std::tuple<at::Tensor, at::Tensor, int64_t, int64_t>
+std::tuple<at::Tensor, std::optional<at::Tensor>, int64_t, int64_t>
 efficient_attention_forward_ck_meta(
     const at::Tensor& query, // [b, seqlen, num_heads_q, K]
     const at::Tensor& key, // [b, seqlen, num_heads_kv, K]
@@ -515,7 +518,10 @@ efficient_attention_forward_ck_meta(
       logsumexp = at::empty({1, Hq, M}, opts.dtype(at::kFloat));
     }
   }
-  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+  if (compute_logsumexp)
+    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
+  else
+    return std::make_tuple(out, std::nullopt, philox_seed, philox_offset);
 }
 
 } // namespace

From 8c203d8bad2806249e1449c476a8300dae1d90d2 Mon Sep 17 00:00:00 2001
From: Max Podkorytov <4273004+tenpercent@users.noreply.github.com>
Date: Tue, 24 Jun 2025 09:33:11 -0700
Subject: [PATCH 823/837] Update ck pin (#66)

* move composable kernel pin

* update trait api

* define problems and fix more traits

* fix some kargs

* modify more kargs

* more api fixes

* run clang-format

* fix python lints

* update ck pin

* update CK pin to include API fixes on CK side
---
 setup.py                                           |  7 +++++--
 third_party/composable_kernel_tiled                |  2 +-
 .../hip_fmha/ck_tiled_fmha_batched_backward.h      |  1 +
 .../ck_tiled_fmha_batched_forward_dispatch.h       |  8 ++++++++
 ...k_tiled_fmha_batched_forward_splitkv_dispatch.h |  9 +++++++++
 ..._fmha_batched_forward_splitkv_smallq_dispatch.h |  9 +++++++++
 .../ck_tiled_fmha_batched_infer_dispatch.h         |  9 +++++++++
 .../ck_tiled_fmha_batched_infer_splitkv_dispatch.h | 10 ++++++++++
 ...ed_fmha_batched_infer_splitkv_smallq_dispatch.h | 14 +++++++++++++-
 .../hip_fmha/ck_tiled_fmha_grouped_backward.h      |  1 +
 .../ck_tiled_fmha_grouped_forward_dispatch.h       |  8 ++++++++
 ...k_tiled_fmha_grouped_forward_splitkv_dispatch.h |  8 ++++++++
 ..._fmha_grouped_forward_splitkv_smallq_dispatch.h | 10 +++++++++-
 .../ck_tiled_fmha_grouped_infer_dispatch.h         |  9 +++++++++
 .../ck_tiled_fmha_grouped_infer_splitkv_dispatch.h | 10 ++++++++++
 ...ed_fmha_grouped_infer_splitkv_smallq_dispatch.h | 11 +++++++++++
 xformers/ops/fmha/__init__.py                      | 10 +---------
 xformers/ops/fmha/ck.py                            |  4 ++--
 18 files changed, 124 insertions(+), 16 deletions(-)

diff --git a/setup.py b/setup.py
index 963c2a4fc5..a1775aa546 100644
--- a/setup.py
+++ b/setup.py
@@ -546,8 +546,10 @@ def get_extensions():
             "--ptxas-options=-O2",
             "--ptxas-options=-allow-expensive-optimizations=true",
         ]
-    elif torch.version.hip and os.getenv("XFORMERS_CK_FLASH_ATTN", "1") == "1" and (
-        torch.cuda.is_available() or os.getenv("HIP_ARCHITECTURES", "") != ""
+    elif (
+        torch.version.hip
+        and os.getenv("XFORMERS_CK_FLASH_ATTN", "1") == "1"
+        and (torch.cuda.is_available() or os.getenv("HIP_ARCHITECTURES", "") != "")
     ):
         rename_cpp_cu(source_hip)
         hip_version = get_hip_version(ROCM_HOME)
@@ -602,6 +604,7 @@ def get_extensions():
                 "-amdgpu-function-calls=false",
                 "-mllvm",
                 "-greedy-reverse-local-assignment=1",
+                "-ferror-limit=1",
             ]
             + generator_flag
             + cc_flag,
diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 4f54fa3058..dbfe70e72a 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 4f54fa30583704f34da2ac50372d524cae6bad7d
+Subproject commit dbfe70e72a5f2f0317b715cd4c7f7fb662affbe5
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
index dbb9f451b0..ef4ed452cc 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_backward.h
@@ -116,6 +116,7 @@ struct batched_backward_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 kHasBiasGrad,
                 false, // kStoreLSE
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
index 34a38bab98..b76e73571e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_dispatch.h
@@ -24,6 +24,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct batched_forward_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -39,6 +44,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
       typename FmhaFwdShape<MaxK, MTile>::Type,
       false, // kIsGroupMode
+      AttentionVariant<FmhaTraits>,
       FmhaMask,
       FmhaTraits>;
 
@@ -79,6 +85,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
               kPadSeqLenK,
               kPadHeadDim, // kPadHeadDimQ
               kPadHeadDim, // kPadHeadDimV
+              false, // kHasLogitsSoftCap
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               true, // kStoreLSE
@@ -128,6 +135,7 @@ struct batched_forward_mask_bias_dropout_dispatch {
           param.scale,
           1.0f, // scale_p
           1.0f, // scale_o
+          0.0f, // logits_soft_cap
           param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
index 2778613efd..dc2debffcb 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_dispatch.h
@@ -24,6 +24,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct batched_forward_splitkv_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -42,6 +47,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           false, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -94,6 +100,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDim, // kPadHeadDimQ,
                 kPadHeadDim, // kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
@@ -229,6 +236,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap, not used
             param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[1],
@@ -278,6 +286,7 @@ struct batched_forward_splitkv_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
             param.k_strides[1],
             param.v_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
index c615838cc2..3ccbd262db 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_forward_splitkv_smallq_dispatch.h
@@ -23,6 +23,11 @@ template <
     bool kHasBias,
     ck_tile::index_t MaxK>
 struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -41,6 +46,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
           false, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -92,6 +98,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDim, // kPadHeadDimQ,
                 kPadHeadDim, // kPadHeadDimV,
+                false, // kHasSoftCap
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
@@ -228,6 +235,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[1],
@@ -277,6 +285,7 @@ struct batched_forward_splitkv_smallq_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
             param.k_strides[1],
             param.v_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
index 9dd7fe159f..209088cbce 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_dispatch.h
@@ -34,6 +34,11 @@ struct batched_infer_mask_bias_dropout_dispatch {
       (kUseWholeKPrefetchPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
                                                  : FmhaShape::kSubQKHeaddim;
 
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -49,6 +54,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
       FmhaShape,
       false, // kIsGroupMode
+      AttentionVariant<FmhaTraits>,
       FmhaMask,
       FmhaTraits>;
 
@@ -88,6 +94,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDimQ, // kPadHeadDimQ,
                 kPadHeadDimV, // kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
@@ -137,6 +144,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
               kPadSeqLenK,
               true, // kPadHeadDimQ,
               true, // kPadHeadDimV,
+              false, // kHasLogitsSoftCap
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               false, // kStoreLSE
@@ -187,6 +195,7 @@ struct batched_infer_mask_bias_dropout_dispatch {
           param.scale,
           1.0f, // scale_p
           1.0f, // scale_o
+          0.0f, // logits_soft_cap
           param.q_strides[1], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
index d70165c1f6..729900b3c6 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_dispatch.h
@@ -24,6 +24,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct batched_infer_splitkv_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -42,6 +47,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           false, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -95,6 +101,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                   kPadSeqLenK,
                   kPadHeadDim, // kPadHeadDimQ,
                   kPadHeadDim, // kPadHeadDimV,
+                  false, // kHasLogitsSoftCap
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   true, // kStoreLSE
@@ -131,6 +138,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
                   kPadSeqLenK,
                   kPadHeadDim, // kPadHeadDimQ,
                   kPadHeadDim, // kPadHeadDimV,
+                  false, // kHasLogitsSoftCap
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
@@ -243,6 +251,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[1],
@@ -292,6 +301,7 @@ struct batched_infer_splitkv_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
             param.k_strides[1],
             param.v_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
index 8ec45b5bcd..699c633b85 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_batched_infer_splitkv_smallq_dispatch.h
@@ -23,6 +23,11 @@ template <
     bool kHasBias,
     ck_tile::index_t MaxK>
 struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -41,6 +46,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
           false, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -94,6 +100,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDim, // kPadHeadDimQ,
                     kPadHeadDim, // kPadHeadDimV,
+                    false, // kHasLogitsSoftCap
                     ck_tile::BlockAttentionBiasEnum::NO_BIAS,
                     false, // kHasBiasGrad place-holder
                     true, // kStoreLSE
@@ -131,6 +138,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDim, // kPadHeadDimQ,
                     kPadHeadDim, // kPadHeadDimV,
+                    false, // kHasLogitsSoftCap
                     ck_tile::BlockAttentionBiasEnum::NO_BIAS,
                     false, // kHasBiasGrad place-holder
                     false, // kStoreLSE
@@ -181,6 +189,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDim, // kPadHeadDimQ,
                     kPadHeadDim, // kPadHeadDimV,
+                    false, // kHasLogitsSoftCap
                     kBiasEnum,
                     false, // kHasBiasGrad place-holder
                     true, // kStoreLSE
@@ -218,6 +227,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDim, // kPadHeadDimQ,
                     kPadHeadDim, // kPadHeadDimV,
+                    false, // kHasLogitsSoftCap
                     kBiasEnum,
                     false, // kHasBiasGrad place-holder
                     false, // kStoreLSE
@@ -331,6 +341,7 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
             nullptr, // cache_batch_idx, not used
             param.scale,
             1.0f, // scale_p
+            0.f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[1],
@@ -379,7 +390,8 @@ struct batched_infer_splitkv_smallq_mask_bias_dropout_dispatch {
             0, // page_table_size, not used
             nullptr, // cache_batch_idx, not used
             param.scale,
-            1.0f, // scale_p
+            1.0f, // scale_pz
+            0.f, // logits_soft_cap
             param.q_strides[1], // q, k, v, bias, out tensor seq-dim stride
             param.k_strides[1],
             param.v_strides[1],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
index dc7909a576..6bfc96af15 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_backward.h
@@ -114,6 +114,7 @@ struct grouped_backward_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 kHasBiasGrad,
                 false, // kStoreLSE
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index a5bab401b1..298b03d4e7 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -24,6 +24,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MTile>
 struct grouped_forward_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -39,6 +44,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
       typename FmhaFwdShape<MaxK, MTile>::Type,
       true, // kIsGroupMode
+      AttentionVariant<FmhaTraits>,
       FmhaMask,
       FmhaTraits>;
 
@@ -68,6 +74,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
               kPadSeqLenK,
               kPadHeadDimQ,
               kPadHeadDimV,
+              false, // kHasLogitsSoftCap
               kBiasEnum,
               false, // kHasBiasGrad place-holder
               true, // kStoreLSE
@@ -118,6 +125,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
           param.scale,
           1.0f, // scale_p
           1.0f, // scale_o
+          0.0f, // logits_soft_cap
           param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
index e4bb25f8a9..2d94375894 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_dispatch.h
@@ -24,6 +24,10 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -42,6 +46,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           true, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -82,6 +87,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
@@ -217,6 +223,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
             false, // is_gappy
             param.scale,
             1.0f, // scale_p
+            0.f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[0],
@@ -261,6 +268,7 @@ struct grouped_forward_splitkv_mask_bias_dropout_dispatch {
             false, // is_gappy
             param.scale,
             1.0f, // scale_p
+            0.f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
             param.k_strides[0],
             param.v_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
index f8d4452c54..da1855b3b4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_splitkv_smallq_dispatch.h
@@ -23,6 +23,10 @@ template <
     bool kHasBias,
     ck_tile::index_t MaxK>
 struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -41,6 +45,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
           true, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -80,6 +85,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 true, // kStoreLSE
@@ -213,7 +219,8 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
             0, // page_block_size
             false, // is_gappy
             param.scale,
-            1.0f, // scale_p
+            1.0f, // scale_pz
+            0.f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[0],
@@ -258,6 +265,7 @@ struct grouped_forward_splitkv_smallq_mask_bias_dropout_dispatch {
             false, // is_gappy
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim stride
             param.k_strides[0],
             param.v_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index f241473a8e..89a102368e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -34,6 +34,11 @@ struct grouped_infer_mask_bias_dropout_dispatch {
       (kUseWholeKPrefetchPipeline || MaxK > 256) ? FmhaShape::kQKHeaddim
                                                  : FmhaShape::kSubQKHeaddim;
 
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <typename FmhaTraits, typename FmhaMask>
   using FmhaPipelineProblemTemp = ck_tile::BlockFmhaPipelineProblem<
       typename FmhaFwdTypeConfig<ScalarType>::QDataType,
@@ -49,6 +54,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
       typename FmhaFwdTypeConfig<ScalarType>::ODataType,
       FmhaShape,
       true, // kIsGroupMode
+      AttentionVariant<FmhaTraits>,
       FmhaMask,
       FmhaTraits>;
 
@@ -82,6 +88,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
                 kPadSeqLenK,
                 kPadHeadDimQ,
                 kPadHeadDimV,
+                false, // kHasLogitsSoftCap
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
@@ -130,6 +137,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
             kPadSeqLenK,
             true, // kPadHeadDimQ,
             true, // kPadHeadDimV,
+            false, // kHasLogitsSoftCap
             kBiasEnum,
             false, // kHasBiasGrad place-holder
             false, // kStoreLSE
@@ -180,6 +188,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
           param.scale,
           1.0f, // scale_p
           1.0f, // scale_o
+          0.f, // logits_soft_cap
           param.q_strides[0], // q, k, v, bias, randval, out tensor seq-dim
                               // stride
           param.k_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
index 37141cb5de..4eba7fee9d 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_dispatch.h
@@ -24,6 +24,11 @@ template <
     ck_tile::index_t MaxK,
     ck_tile::index_t MaxSeqlenQ>
 struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -42,6 +47,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVShape<MaxK, MaxSeqlenQ>::Type,
           true, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -91,6 +97,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                   kPadSeqLenK,
                   kPadHeadDimQ,
                   kPadHeadDimV,
+                  false, // kLogitsSoftCap
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   true, // kStoreLSE
@@ -127,6 +134,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
                   kPadSeqLenK,
                   kPadHeadDimQ,
                   kPadHeadDimV,
+                  false, // kLogitsSoftCap
                   kBiasEnum,
                   false, // kHasBiasGrad place-holder
                   false, // kStoreLSE
@@ -237,6 +245,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
             param.use_paged_kvcache ? param.is_gappy : false,
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[0],
@@ -283,6 +292,7 @@ struct grouped_infer_splitkv_mask_bias_dropout_dispatch {
             param.use_paged_kvcache ? param.is_gappy : false,
             param.scale,
             1.0f, // scale_p
+            0.0f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim
                                 // stride
             param.k_strides[0],
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
index d3d76fa879..21157f4e2c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h
@@ -23,6 +23,10 @@ template <
     bool kHasBias,
     ck_tile::index_t MaxK>
 struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
+  template <typename FmhaTraits>
+  using AttentionVariant = ck_tile::ComposedAttention<
+      FmhaTraits::kHasLogitsSoftCap * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
   template <
       typename FmhaFwdSplitKVTraits,
       typename FmhaMask,
@@ -41,6 +45,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
           ODataType,
           typename FmhaFwdSplitKVSmallQShape<MaxK>::Type,
           true, // kIsGroupMode
+          AttentionVariant<FmhaFwdSplitKVTraits>,
           FmhaMask,
           FmhaFwdSplitKVTraits>;
 
@@ -97,6 +102,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDimQ,
                     kPadHeadDimV,
+                    false, // kLogitsSoftCap
                     ck_tile::BlockAttentionBiasEnum::NO_BIAS,
                     false, // kHasBiasGrad place-holder
                     true, // kStoreLSE
@@ -134,6 +140,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDimQ,
                     kPadHeadDimV,
+                    false, // kLogitsSoftCap
                     ck_tile::BlockAttentionBiasEnum::NO_BIAS,
                     false, // kHasBiasGrad place-holder
                     false, // kStoreLSE
@@ -182,6 +189,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDimQ,
                     kPadHeadDimV,
+                    false, // kLogitsSoftCap
                     kBiasEnum,
                     false, // kHasBiasGrad place-holder
                     true, // kStoreLSE
@@ -219,6 +227,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
                     kPadSeqLenK,
                     kPadHeadDimQ,
                     kPadHeadDimV,
+                    false, // kLogitsSoftCap
                     kBiasEnum,
                     false, // kHasBiasGrad place-holder
                     false, // kStoreLSE
@@ -330,6 +339,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
             param.use_paged_kvcache ? param.is_gappy : false,
             param.scale,
             1.0f, // scale_p
+            0.f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out_acc tensor seq-dim
                                 // stride
             param.k_strides[0],
@@ -376,6 +386,7 @@ struct grouped_infer_splitkv_smallq_mask_bias_dropout_dispatch {
             param.use_paged_kvcache ? param.is_gappy : false,
             param.scale,
             1.0f, // scale_p
+            0.f, // logits_soft_cap
             param.q_strides[0], // q, k, v, bias, out tensor seq-dim
                                 // stride
             param.k_strides[0],
diff --git a/xformers/ops/fmha/__init__.py b/xformers/ops/fmha/__init__.py
index f6fc9a2297..539b06f927 100644
--- a/xformers/ops/fmha/__init__.py
+++ b/xformers/ops/fmha/__init__.py
@@ -7,15 +7,7 @@
 
 import torch
 
-from . import (
-    attn_bias,
-    ck,
-    ck_splitk,
-    cutlass,
-    flash,
-    flash3,
-    triton_splitk,
-)
+from . import attn_bias, ck, ck_splitk, cutlass, flash, flash3, triton_splitk
 from .attn_bias import (
     VARLEN_BIASES,
     AttentionBias,
diff --git a/xformers/ops/fmha/ck.py b/xformers/ops/fmha/ck.py
index 50ddb62150..2db15de310 100644
--- a/xformers/ops/fmha/ck.py
+++ b/xformers/ops/fmha/ck.py
@@ -15,13 +15,13 @@
 from .attn_bias import (
     AttentionBias,
     AttentionBiasSubTensor,
+    BlockDiagonalCausalFromBottomRightMask,
     BlockDiagonalCausalLocalAttentionFromBottomRightMask,
     BlockDiagonalCausalLocalAttentionMask,
+    BlockDiagonalCausalLocalAttentionPaddedKeysMask,
     BlockDiagonalCausalMask,
-    BlockDiagonalCausalFromBottomRightMask,
     BlockDiagonalCausalWithOffsetGappyKeysMask,
     BlockDiagonalCausalWithOffsetPaddedKeysMask,
-    BlockDiagonalCausalLocalAttentionPaddedKeysMask,
     BlockDiagonalGappyKeysMask,
     BlockDiagonalMask,
     BlockDiagonalPaddedKeysMask,

From 8e2050c3b560ba18a25889635a35267b4806922e Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 25 Jun 2025 08:23:42 +0000
Subject: [PATCH 824/837] Update and synchronize with the latest ck_tile kernel
 arguments change (min_seqlen_q added)

---
 third_party/composable_kernel_tiled                             | 2 +-
 .../attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h | 1 +
 .../attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h   | 1 +
 3 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index dbfe70e72a..50fad03524 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit dbfe70e72a5f2f0317b715cd4c7f7fb662affbe5
+Subproject commit 50fad035248b154cdfa4505cf5de7465ce146149
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
index 298b03d4e7..89e9465ab3 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward_dispatch.h
@@ -145,6 +145,7 @@ struct grouped_forward_mask_bias_dropout_dispatch {
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
+          0, // min_seqlen_q, most recently added kernel argument
           param.dropout_prob,
           false, // is_store_randval
           std::make_pair(param.philox_seed, param.philox_offset));
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
index 89a102368e..67f8b6222f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_dispatch.h
@@ -208,6 +208,7 @@ struct grouped_infer_mask_bias_dropout_dispatch {
                                   : -1, // window_left_size
           (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
           param.custom_mask_type,
+          0, // min_seqlen_q, most recently added kernel argument
           param.dropout_prob,
           false, // is_store_randval
           std::make_pair(param.philox_seed, param.philox_offset));

From 9e9fda3f1965739a490c0333d58e17518b8fd01a Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Tue, 1 Jul 2025 07:43:14 -0500
Subject: [PATCH 825/837] add fmha grouped infer pagedkv dispatch

---
 third_party/composable_kernel_tiled           |   2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    |  37 +++-
 ...iled_fmha_grouped_infer_pagedkv_dispatch.h | 182 ++++++++++++++++++
 3 files changed, 212 insertions(+), 9 deletions(-)
 create mode 100644 xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 50fad03524..60ec161e0c 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 50fad035248b154cdfa4505cf5de7465ce146149
+Subproject commit 60ec161e0ce17c0a994ce49316158a75a52e09c7
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 53115587fe..f3fb12c631 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -10,6 +10,7 @@
 #include "ck_tiled_fmha_fwd_setting.h"
 #include "ck_tiled_fmha_fwd_splitkv_smallq_selector.h"
 #include "ck_tiled_fmha_grouped_infer_dispatch.h"
+#include "ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h"
 #include "ck_tiled_fmha_grouped_infer_splitkv_dispatch.h"
 #include "ck_tiled_fmha_grouped_infer_splitkv_smallq_dispatch.h"
 #include "ck_tiled_fmha_seqlen_q_switch.h"
@@ -37,14 +38,34 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               kHasBias,
               MaxK>::Run(param, stream);
         } else {
-          FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-            grouped_infer_splitkv_mask_bias_dropout_dispatch<
-                ScalarType,
-                kHasMask,
-                kHasBias,
-                MaxK,
-                MaxSeqlenQ>::Run(param, stream);
-          });
+          if (param.num_kv_splits > 1) {
+            FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+              grouped_infer_splitkv_mask_bias_dropout_dispatch<
+                  ScalarType,
+                  kHasMask,
+                  kHasBias,
+                  MaxK,
+                  MaxSeqlenQ>::Run(param, stream);
+            });
+          } else {
+            const auto mtile = get_fmha_fwd_mtile(
+                param.num_batches, param.Hq, param.max_seqlen_q);
+
+            if (mtile == 128)
+              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
+                  ScalarType,
+                  kHasMask,
+                  kHasBias,
+                  MaxK,
+                  128>::Run(param, stream);
+            else
+              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
+                  ScalarType,
+                  kHasMask,
+                  kHasBias,
+                  MaxK,
+                  64>::Run(param, stream);
+          }
         }
       } else {
         // Unreachable. Do not instantiate split-kv pipelines with head
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
new file mode 100644
index 0000000000..ea119df06c
--- /dev/null
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
@@ -0,0 +1,182 @@
+/*
+ * Copyright (c) 2023, Advanced Micro Devices, Inc. All rights reserved.
+ *
+ * This source code is licensed under the BSD-style license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+
+#include <ck_tile/core/numeric/integer.hpp>
+#include <ck_tile/host/kernel_launch.hpp>
+#include <ck_tile/host/stream_config.hpp>
+#include <ck_tile/ops/epilogue.hpp>
+#include <ck_tile/ops/fmha.hpp>
+
+#include "ck_tiled_bool_switch.h"
+#include "ck_tiled_fmha_fwd_setting.h"
+#include "ck_tiled_fmha_params.h"
+
+template <
+    typename ScalarType,
+    bool kHasMask,
+    bool kHasBias,
+    ck_tile::index_t MaxK,
+    ck_tile::index_t MaxSeqlenQ>
+struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
+  using fmha_variant = ck_tile::ComposedAttention<
+      true * ck_tile::LOGITS_SOFT_CAP,
+      CK_TILE_FMHA_FWD_FAST_EXP2>;
+
+  template <
+      typename FmhaFwdPagedKVTraits,
+      typename FmhaMask,
+      typename ODataType>
+  using FmhaFwdPagedKVPipelineProblemTemp =
+      ck_tile::BlockFmhaFwdPagedKVPipelineProblem<
+          typename FmhaFwdTypeConfig<ScalarType>::QDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::KDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::VDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SaccDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::SMPLComputeDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::BiasDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::LSEDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::PDataType,
+          typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+          ODataType,
+          typename FmhaFwdShape<MaxK, MaxSeqlenQ>::Type,
+          true, // kIsGroupMode
+          fmha_variant,
+          FmhaMask,
+          FmhaFwdPagedKVTraits>;
+
+  static void Run(GroupedForwardParams& param, hipStream_t stream) {
+    {
+      using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
+
+      using FmhaTileShape = typename FmhaFwdShape<MaxK, MaxSeqlenQ>::Type;
+
+      constexpr ck_tile::index_t occupancy = -1;
+
+      constexpr auto kBiasEnum = kHasBias
+          ? ck_tile::BlockAttentionBiasEnum::ELEMENTWISE_BIAS
+          : ck_tile::BlockAttentionBiasEnum::NO_BIAS;
+
+      constexpr bool kPadSeqLenQ = true;
+      constexpr bool kPadSeqLenK = true;
+
+      bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
+      bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
+
+      bool is_paged_kv = param.use_paged_kvcache;
+
+      BOOL_SWITCH_3(
+          pad_headdim_q,
+          kPadHeadDimQ,
+          pad_headdim_v,
+          kPadHeadDimV,
+          is_paged_kv,
+          kIsPagedKV,
+          [&] {
+            using FmhaTraits = ck_tile::TileFmhaFwdPagedKVTraits<
+                kPadSeqLenQ,
+                kPadSeqLenK,
+                kPadHeadDimQ,
+                kPadHeadDimV,
+                false, // kHasLogitsSoftCap_
+                kBiasEnum,
+                false, // kHasBiasGrad place-holder
+                false, // kStoreLSE
+                kIsPagedKV,
+                false, // kDoFp8StaticQuant place-holder
+                occupancy>;
+
+            using ODataType = typename FmhaFwdTypeConfig<ScalarType>::ODataType;
+            using FmhaPipelineProblem = FmhaFwdPagedKVPipelineProblemTemp<
+                FmhaTraits,
+                FmhaMask,
+                ODataType>;
+
+            using FmhaPipeline =
+                ck_tile::BlockFmhaFwdPagedKVPipelineQRKSVS<FmhaPipelineProblem>;
+
+            using FmhaEpilogue =
+                ck_tile::Default2DEpilogue<ck_tile::Default2DEpilogueProblem<
+                    typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
+                    ODataType,
+                    false,
+                    false>>;
+
+            using FmhaKernel =
+                ck_tile::FmhaFwdPagedKVKernel<FmhaPipeline, FmhaEpilogue>;
+
+            RunWithFwdPagedKVKernel<FmhaKernel>(param, stream);
+          });
+    };
+  };
+
+  template <typename FmhaKernel>
+  static void RunWithFwdPagedKVKernel(
+      GroupedForwardParams& param,
+      hipStream_t stream) {
+    const auto kargs = [&] {
+      return FmhaKernel::MakeKargs(
+          param.q_ptr,
+          param.k_ptr,
+          param.v_ptr,
+          param.attn_bias_ptr,
+          nullptr, // lse_ptr,
+          param.out_ptr, // o_ptr
+          param.seqstart_q_dev_ptr,
+          param.seqstart_k_dev_ptr,
+          param.seqlen_k_dev_ptr,
+          param.K, // hdim_q
+          param.Kv, // hdim_v
+          param.Hq, // nhead_q
+          param.Hq / param.Hkv, // nhead_ratio_qk
+          param.use_paged_kvcache ? param.block_table_ptr : nullptr,
+          param.use_paged_kvcache ? param.batch_stride_block_table : 0,
+          param.use_paged_kvcache ? param.page_block_size : 0,
+          param.use_paged_kvcache ? param.is_gappy : false,
+          param.scale,
+          1.0f, // scale_p
+          1.0f, // scale_o
+          0, // logits_soft_cap
+          param.q_strides[0], // q, k, v, bias, out tensor seq-dim
+                              // stride
+          param.k_strides[0],
+          param.v_strides[0],
+          param.attn_bias_strides[2],
+          param.out_strides[0],
+          param.q_strides[1], // q, k, v, bias, lse, out tensor
+                              // head-dim stride
+          param.k_strides[1],
+          param.v_strides[1],
+          param.attn_bias_strides[1],
+          0, // nhead_stride_lse
+          param.out_strides[1],
+          param.use_paged_kvcache ? param.k_strides[0] * param.page_block_size
+                                  : 0, // batch_stride_k
+          param.use_paged_kvcache ? param.v_strides[0] * param.page_block_size
+                                  : 0, // batch_stride_v
+          (param.window_size > 0) ? param.window_size - 1
+                                  : -1, // window_left_size
+          (param.custom_mask_type == 0) ? -1 : 0, // window_right_size
+          param.custom_mask_type,
+          0); // min_seqlen_q
+    }();
+
+    dim3 kGridSize = FmhaKernel::GridSize(
+        param.num_batches,
+        param.Hq,
+        param.max_seqlen_q,
+        param.Kv,
+        kargs.seqlen_k_ptr != nullptr);
+    constexpr dim3 kBlockSize = FmhaKernel::BlockSize();
+    constexpr ck_tile::index_t kBlockPerCu = FmhaKernel::kBlockPerCu;
+
+    (void)ck_tile::launch_kernel(
+        ck_tile::stream_config{stream, false},
+        ck_tile::make_kernel<kBlockSize.x, kBlockPerCu>(
+            FmhaKernel{}, kGridSize, kBlockSize, 0, kargs));
+  };
+};

From ebc7f5ae6fba151d339f800f3b879509567e3d4d Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Tue, 1 Jul 2025 23:13:52 -0500
Subject: [PATCH 826/837] limit k==kv for pagedkv

---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 21 ++++++++++---------
 1 file changed, 11 insertions(+), 10 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index f3fb12c631..82a9101ea0 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -38,16 +38,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               kHasBias,
               MaxK>::Run(param, stream);
         } else {
-          if (param.num_kv_splits > 1) {
-            FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
-              grouped_infer_splitkv_mask_bias_dropout_dispatch<
-                  ScalarType,
-                  kHasMask,
-                  kHasBias,
-                  MaxK,
-                  MaxSeqlenQ>::Run(param, stream);
-            });
-          } else {
+          if (param.num_kv_splits == 1 && param.Kv == param.K) {
             const auto mtile = get_fmha_fwd_mtile(
                 param.num_batches, param.Hq, param.max_seqlen_q);
 
@@ -65,6 +56,16 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
                   kHasBias,
                   MaxK,
                   64>::Run(param, stream);
+
+          } else {
+            FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
+              grouped_infer_splitkv_mask_bias_dropout_dispatch<
+                  ScalarType,
+                  kHasMask,
+                  kHasBias,
+                  MaxK,
+                  MaxSeqlenQ>::Run(param, stream);
+            });
           }
         }
       } else {

From 60860a196697c774b7a48775c10b7f84fd1e85ba Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Tue, 8 Jul 2025 10:27:28 -0500
Subject: [PATCH 827/837] remove logits_soft_cap and paged limit

---
 third_party/composable_kernel_tiled                 |  2 +-
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h          | 13 +------------
 .../ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h  |  2 +-
 3 files changed, 3 insertions(+), 14 deletions(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 60ec161e0c..db82ecaf78 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 60ec161e0ce17c0a994ce49316158a75a52e09c7
+Subproject commit db82ecaf7800563870f0670d74e22b4faaf1956a
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 82a9101ea0..83438fe0b4 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -38,24 +38,13 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               kHasBias,
               MaxK>::Run(param, stream);
         } else {
-          if (param.num_kv_splits == 1 && param.Kv == param.K) {
-            const auto mtile = get_fmha_fwd_mtile(
-                param.num_batches, param.Hq, param.max_seqlen_q);
-
-            if (mtile == 128)
+          if (/*param.use_paged_kvcache &&*/ (!param.is_gappy) && param.page_block_size >= 128) {
               grouped_infer_pagedkv_mask_bias_dropout_dispatch<
                   ScalarType,
                   kHasMask,
                   kHasBias,
                   MaxK,
                   128>::Run(param, stream);
-            else
-              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
-                  ScalarType,
-                  kHasMask,
-                  kHasBias,
-                  MaxK,
-                  64>::Run(param, stream);
 
           } else {
             FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
index ea119df06c..29fa8e779f 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
@@ -24,7 +24,7 @@ template <
     ck_tile::index_t MaxSeqlenQ>
 struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
   using fmha_variant = ck_tile::ComposedAttention<
-      true * ck_tile::LOGITS_SOFT_CAP,
+      false * ck_tile::LOGITS_SOFT_CAP,
       CK_TILE_FMHA_FWD_FAST_EXP2>;
 
   template <

From 2ecbc3adcbf9e4970f7a3086a9282c645969213e Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Tue, 8 Jul 2025 22:55:57 -0500
Subject: [PATCH 828/837] limit seq_len_q

---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h        | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 83438fe0b4..af5641283e 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -38,13 +38,14 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               kHasBias,
               MaxK>::Run(param, stream);
         } else {
-          if (/*param.use_paged_kvcache &&*/ (!param.is_gappy) && param.page_block_size >= 128) {
-              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
-                  ScalarType,
-                  kHasMask,
-                  kHasBias,
-                  MaxK,
-                  128>::Run(param, stream);
+          if ((param.num_kv_splits == 1) && param.use_paged_kvcache &&
+              (!param.is_gappy) && param.page_block_size >= 128) {
+            grouped_infer_pagedkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                128>::Run(param, stream);
 
           } else {
             FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {

From a62274487fdcb8e2843ff988a8b16edd5758fd92 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 9 Jul 2025 04:39:13 +0000
Subject: [PATCH 829/837] Update to latest ck develop commit to include ck_tile
 PR-2405

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index db82ecaf78..93420ecf89 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit db82ecaf7800563870f0670d74e22b4faaf1956a
+Subproject commit 93420ecf89d0747c35b096aa95453eaaceb0aea3

From a969435c3d21003dfa8e0e238c36305ff9a04f61 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Wed, 9 Jul 2025 08:06:11 +0000
Subject: [PATCH 830/837] Renaming in pagedkv_dispatch

---
 .../ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h        | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
index 29fa8e779f..9e43652c84 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
@@ -21,12 +21,14 @@ template <
     bool kHasMask,
     bool kHasBias,
     ck_tile::index_t MaxK,
-    ck_tile::index_t MaxSeqlenQ>
+    ck_tile::index_t MTile>
 struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
   using fmha_variant = ck_tile::ComposedAttention<
       false * ck_tile::LOGITS_SOFT_CAP,
       CK_TILE_FMHA_FWD_FAST_EXP2>;
 
+  using FmhaTileShape = typename FmhaFwdShape<MaxK, MTile>::Type;
+
   template <
       typename FmhaFwdPagedKVTraits,
       typename FmhaMask,
@@ -43,7 +45,7 @@ struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
           typename FmhaFwdTypeConfig<ScalarType>::PDataType,
           typename FmhaFwdTypeConfig<ScalarType>::OaccDataType,
           ODataType,
-          typename FmhaFwdShape<MaxK, MaxSeqlenQ>::Type,
+          FmhaTileShape,
           true, // kIsGroupMode
           fmha_variant,
           FmhaMask,
@@ -53,8 +55,6 @@ struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
     {
       using FmhaMask = ck_tile::SimplifiedGenericAttentionMask<kHasMask>;
 
-      using FmhaTileShape = typename FmhaFwdShape<MaxK, MaxSeqlenQ>::Type;
-
       constexpr ck_tile::index_t occupancy = -1;
 
       constexpr auto kBiasEnum = kHasBias

From 8ab0b154c7dc19ae013268c88c66f994328dbc00 Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Fri, 11 Jul 2025 03:24:19 -0500
Subject: [PATCH 831/837] remove gappy constraints and set to support only
 pagedkv

---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h         |  2 +-
 .../ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h | 14 +++-----------
 2 files changed, 4 insertions(+), 12 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index af5641283e..e5ff99bb9c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -39,7 +39,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               MaxK>::Run(param, stream);
         } else {
           if ((param.num_kv_splits == 1) && param.use_paged_kvcache &&
-              (!param.is_gappy) && param.page_block_size >= 128) {
+              param.page_block_size >= 128) {
             grouped_infer_pagedkv_mask_bias_dropout_dispatch<
                 ScalarType,
                 kHasMask,
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
index 9e43652c84..e643dda8f9 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer_pagedkv_dispatch.h
@@ -67,16 +67,8 @@ struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
       bool pad_headdim_q = !(param.K % FmhaTileShape::kSubQKHeaddim == 0);
       bool pad_headdim_v = !(param.Kv % FmhaTileShape::kN1 == 0);
 
-      bool is_paged_kv = param.use_paged_kvcache;
-
-      BOOL_SWITCH_3(
-          pad_headdim_q,
-          kPadHeadDimQ,
-          pad_headdim_v,
-          kPadHeadDimV,
-          is_paged_kv,
-          kIsPagedKV,
-          [&] {
+      BOOL_SWITCH_2(
+          pad_headdim_q, kPadHeadDimQ, pad_headdim_v, kPadHeadDimV, [&] {
             using FmhaTraits = ck_tile::TileFmhaFwdPagedKVTraits<
                 kPadSeqLenQ,
                 kPadSeqLenK,
@@ -86,7 +78,7 @@ struct grouped_infer_pagedkv_mask_bias_dropout_dispatch {
                 kBiasEnum,
                 false, // kHasBiasGrad place-holder
                 false, // kStoreLSE
-                kIsPagedKV,
+                true, // kIsPagedKV
                 false, // kDoFp8StaticQuant place-holder
                 occupancy>;
 

From 47a2681734f46cc37fe20f458ebb3765ec1302d2 Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Fri, 11 Jul 2025 05:20:57 -0500
Subject: [PATCH 832/837] Synchronize to latest ck_tile(add pagedkv for large
 seq_len_q)

---
 third_party/composable_kernel_tiled | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/third_party/composable_kernel_tiled b/third_party/composable_kernel_tiled
index 93420ecf89..45904b8fd7 160000
--- a/third_party/composable_kernel_tiled
+++ b/third_party/composable_kernel_tiled
@@ -1 +1 @@
-Subproject commit 93420ecf89d0747c35b096aa95453eaaceb0aea3
+Subproject commit 45904b8fd7cde71dfc3741970325b3d552b06d27

From 04c4ff7d66d29f64286c26a3ee4d8b7214902c1c Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 11 Jul 2025 13:49:46 +0000
Subject: [PATCH 833/837] Selecting MTile (128 or 64) for calling
 grouped_infer_pagedkv_mask_bias_dropout_dispatch

---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 22 ++++++++++++++-----
 1 file changed, 16 insertions(+), 6 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index e5ff99bb9c..77e6f1bb7a 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -40,13 +40,23 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
         } else {
           if ((param.num_kv_splits == 1) && param.use_paged_kvcache &&
               param.page_block_size >= 128) {
-            grouped_infer_pagedkv_mask_bias_dropout_dispatch<
-                ScalarType,
-                kHasMask,
-                kHasBias,
-                MaxK,
-                128>::Run(param, stream);
+            const auto mtile = get_fmha_fwd_mtile(
+                param.num_batches, param.Hq, param.max_seqlen_q);
 
+            if (mtile == 128)
+              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
+                  ScalarType,
+                  kHasMask,
+                  kHasBias,
+                  MaxK,
+                  128>::Run(param, stream);
+            else
+              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
+                  ScalarType,
+                  kHasMask,
+                  kHasBias,
+                  MaxK,
+                  64>::Run(param, stream);
           } else {
             FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
               grouped_infer_splitkv_mask_bias_dropout_dispatch<

From 3e13f861d7d759d8056ce4f8f796b70b475eb620 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 11 Jul 2025 15:51:39 +0000
Subject: [PATCH 834/837] Clarify the usage of param.use_split_kv and
 param.use_paged_kvcache

---
 .../attention/hip_fmha/attention_forward_generic_ck_tiled.cpp | 3 +--
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h   | 2 +-
 .../csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h     | 4 ++--
 3 files changed, 4 insertions(+), 5 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 36ac057690..34cb80f44c 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -396,8 +396,7 @@ efficient_attention_forward_ck(
 
     // 1) fmha fwd split-kv kernel does not support dropout
     // 2) Paged-KVcache is only available from the split-kv kernel at present
-    p.use_split_kv =
-        (p.use_paged_kvcache || (!use_dropout && use_split_kv)) ? true : false;
+    p.use_split_kv = (!use_dropout && use_split_kv) ? true : false;
 
     p.num_kv_splits = num_kv_splits;
 
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
index 39c3a10fbf..67b2c85b8c 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_forward.h
@@ -27,7 +27,7 @@ void run_grouped_forward_mask_bias_dropout_dispatch(
   // (*) dropout
   // (*) head dimension > 256
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv && MaxK <= 256) {
+    if ((param.use_split_kv || param.use_paged_kvcache) && MaxK <= 256) {
       if constexpr (MaxK <= 256) {
         if (use_splitkv_smallq(
                 param.max_seqlen_q, std::max(param.K, param.Kv))) {
diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index 77e6f1bb7a..ffb8150f35 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -28,7 +28,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
   // (*) dropout
   // (*) head dimension > 256
   if constexpr (!kHasDropout) {
-    if (param.use_split_kv && MaxK <= 256) {
+    if ((param.use_split_kv || param.use_paged_kvcache) && MaxK <= 256) {
       if constexpr (MaxK <= 256) {
         if (use_splitkv_smallq(
                 param.max_seqlen_q, std::max(param.K, param.Kv))) {
@@ -38,7 +38,7 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
               kHasBias,
               MaxK>::Run(param, stream);
         } else {
-          if ((param.num_kv_splits == 1) && param.use_paged_kvcache &&
+          if (!param.use_split_kv && param.use_paged_kvcache &&
               param.page_block_size >= 128) {
             const auto mtile = get_fmha_fwd_mtile(
                 param.num_batches, param.Hq, param.max_seqlen_q);

From 25e836f72961eec499db32c79678924069747fa2 Mon Sep 17 00:00:00 2001
From: ltqin <letaoqin@amd.com>
Date: Thu, 17 Jul 2025 01:20:40 +0000
Subject: [PATCH 835/837] remove selecting mtile,just use 128

---
 .../hip_fmha/ck_tiled_fmha_grouped_infer.h    | 23 +++++--------------
 1 file changed, 6 insertions(+), 17 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
index ffb8150f35..6cf329a079 100644
--- a/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
+++ b/xformers/csrc/attention/hip_fmha/ck_tiled_fmha_grouped_infer.h
@@ -40,23 +40,12 @@ void run_grouped_infer_mask_bias_dropout_dispatch(
         } else {
           if (!param.use_split_kv && param.use_paged_kvcache &&
               param.page_block_size >= 128) {
-            const auto mtile = get_fmha_fwd_mtile(
-                param.num_batches, param.Hq, param.max_seqlen_q);
-
-            if (mtile == 128)
-              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
-                  ScalarType,
-                  kHasMask,
-                  kHasBias,
-                  MaxK,
-                  128>::Run(param, stream);
-            else
-              grouped_infer_pagedkv_mask_bias_dropout_dispatch<
-                  ScalarType,
-                  kHasMask,
-                  kHasBias,
-                  MaxK,
-                  64>::Run(param, stream);
+            grouped_infer_pagedkv_mask_bias_dropout_dispatch<
+                ScalarType,
+                kHasMask,
+                kHasBias,
+                MaxK,
+                128>::Run(param, stream);
           } else {
             FMHA_FWD_SEQLEN_Q_SWITCH(param.max_seqlen_q, MaxSeqlenQ, [&] {
               grouped_infer_splitkv_mask_bias_dropout_dispatch<

From f92ee1a06f815538e2f79b2a0fe39879a13f8e87 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 18 Jul 2025 07:47:09 +0000
Subject: [PATCH 836/837] Remove the checking of compute_logsumexp at the
 return of efficient_attention_forward_ck/meta

---
 .../hip_fmha/attention_forward_generic_ck_tiled.cpp    | 10 ++--------
 1 file changed, 2 insertions(+), 8 deletions(-)

diff --git a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
index 4ed8d691ad..bf24521251 100644
--- a/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
+++ b/xformers/csrc/attention/hip_fmha/attention_forward_generic_ck_tiled.cpp
@@ -463,10 +463,7 @@ efficient_attention_forward_ck(
     };
   };
 
-  if (compute_logsumexp)
-    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
-  else
-    return std::make_tuple(out, std::nullopt, philox_seed, philox_offset);
+  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 /*
@@ -517,10 +514,7 @@ efficient_attention_forward_ck_meta(
       logsumexp = at::empty_symint({1, Hq, M}, opts.dtype(at::kFloat));
     }
   }
-  if (compute_logsumexp)
-    return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
-  else
-    return std::make_tuple(out, std::nullopt, philox_seed, philox_offset);
+  return std::make_tuple(out, logsumexp, philox_seed, philox_offset);
 }
 
 } // namespace

From 0d6ec711fed8302ad60472e2690b85bfa67d4921 Mon Sep 17 00:00:00 2001
From: Qianfeng Zhang <Qianfeng.Zhang@amd.com>
Date: Fri, 18 Jul 2025 07:56:38 +0000
Subject: [PATCH 837/837] Align some files with the upstream

---
 .github/workflows/rocm_build.yml |  2 +-
 .github/workflows/wheels.yml     | 23 ++++------------
 Dockerfile.rocm                  | 45 --------------------------------
 docs/source/components/ops.rst   |  4 +++
 4 files changed, 10 insertions(+), 64 deletions(-)
 delete mode 100644 Dockerfile.rocm

diff --git a/.github/workflows/rocm_build.yml b/.github/workflows/rocm_build.yml
index e1f27f8cc2..1cd4716a1b 100644
--- a/.github/workflows/rocm_build.yml
+++ b/.github/workflows/rocm_build.yml
@@ -24,7 +24,7 @@ jobs:
         python: ['3.11']
         torch_version: ['2.7.1']
         toolkit_type: ['rocm']
-        toolkit_short_version: ['6.1', '6.2', '6.3']
+        toolkit_short_version: ['6.2.4', '6.3']
 
     uses: ./.github/workflows/wheels_build.yml
     if: github.repository == 'rocm/xformers'
diff --git a/.github/workflows/wheels.yml b/.github/workflows/wheels.yml
index e5022dde74..54326970f8 100644
--- a/.github/workflows/wheels.yml
+++ b/.github/workflows/wheels.yml
@@ -33,20 +33,8 @@ jobs:
         PYTHON_VERSION = "3.9"
         # NOTE: Don't forget to update `upload_pt`'s matrix
         # when changing the CUDA/ROCM versions below!
-        CU_VERSIONS = ['118', '121', '124']
-        ROCM_VERSIONS = ['6.1', '6.2', '6.3'] # <- 6.0 broken in `manylinux_2_28`
-        PY_CU = list(itertools.product(PY_VERSIONS, CU_VERSIONS))
-        PY_ROCM = list(itertools.product(PY_VERSIONS, ROCM_VERSIONS))
-        print("Full matrix PY_CU", PY_CU)
-        if os.environ["GITHUB_EVENT_NAME"] == "pull_request":
-          print("pull-request: limiting matrix to save resources")
-          PY_CU = [(PY_VERSIONS[0], CU_VERSIONS[0])]
-          for cu in CU_VERSIONS[1:]:
-            PY_CU.append((PY_VERSIONS[-1], cu))
-          print("Limited matrix PY_CU", PY_CU)
-          PY_ROCM = [(PY_VERSIONS[0], ROCM_VERSIONS[0])]
-          for rocm in ROCM_VERSIONS[1:]:
-            PY_ROCM.append((PY_VERSIONS[-1], rocm))
+        CU_VERSIONS = ['118', '126', '128']
+        ROCM_VERSIONS = ["6.2.4", "6.3"]
 
         include = []
         for os in ['8-core-ubuntu', 'windows-8-core']:
@@ -112,10 +100,9 @@ jobs:
       matrix:
         suffix:
           - cu118
-          - cu121
-          - cu124
-          - rocm6.1
-          - rocm6.2
+          - cu126
+          - cu128
+          - rocm6.2.4
           - rocm6.3
     uses: ./.github/workflows/wheels_upload_s3.yml
     with:
diff --git a/Dockerfile.rocm b/Dockerfile.rocm
deleted file mode 100644
index 21f103bff6..0000000000
--- a/Dockerfile.rocm
+++ /dev/null
@@ -1,45 +0,0 @@
-ARG XFORMERS_COMPILE_JOBS=128
-ARG HIP_ARCHITECTURES="gfx90a gfx942"
-
-FROM quay.io/pypa/manylinux_2_28_x86_64 as rocm
-
-RUN set -ex && \
-  usermod -a -G render,video $(whoami) && \
-  dnf -y install https://www.elrepo.org/elrepo-release-8.el8.elrepo.noarch.rpm && \
-  dnf config-manager --set-enabled elrepo-kernel && \
-  dnf -y install https://repo.radeon.com/amdgpu-install/6.2.2/rhel/8.10/amdgpu-install-6.2.60202-1.el8.noarch.rpm
-
-RUN set -ex && \
-  dnf -y install amdgpu-dkms rocm 
-
-RUN set -ex && \
-  python3.11 -m pip install uv && \
-  uv venv --python 3.11 && \
-  source .venv/bin/activate
-
-RUN set -ex && \
-  cd /opt && \
-  git clone --recursive https://github.com/rocm/xformers && \
-  cd xformers && \
-  git log -1 
-
-RUN set -ex && \
-  cd /opt/xformers && \
-  uv pip install ninja && \
-  uv pip install -r requirements.txt --extra-index-url=https://download.pytorch.org/whl/nightly/rocm6.2 && \
-  uv pip install -r requirements-test.txt && \
-  uv pip install -r requirements-benchmark.txt && \
-  uv pip list
-
-ARG XFORMERS_COMPILE_JOBS
-ENV MAX_JOBS=${XFORMERS_COMPILE_JOBS} 
-ARG HIP_ARCHITECTURES
-ENV HIP_ARCHITECTURES=${HIP_ARCHITECTURES} 
-RUN set -ex && \
-  cd /opt/xformers && \
-  uv build . --wheel --no-build-isolation --verbose --offline && \
-  uv pip install dist/*.whl && \
-  cd / && \
-  uv run -- python -m xformers.info
-
-ENV PATH="/.venv/bin:${PATH}"
diff --git a/docs/source/components/ops.rst b/docs/source/components/ops.rst
index fac44789be..848628bdc9 100644
--- a/docs/source/components/ops.rst
+++ b/docs/source/components/ops.rst
@@ -29,6 +29,10 @@ Available implementations
     :members: FwOp, BwOp
     :member-order: bysource
 
+.. automodule:: xformers.ops.fmha.ck_decoder
+    :members: FwOp
+    :member-order: bysource
+
 .. automodule:: xformers.ops.fmha.ck_splitk
     :members: FwOp
     :member-order: bysource